Réinventer le test statistique de comparaison
(avec plein de soupirs)
par A.Chutte, 03/03/2013

    J’ai été récemment à une conférence scientifique, où un point m’a choqué : il était dit, dans une comparaison entre deux méthodes de mesure « il n’y a mathématiquement pas de différence significative, c’est la PREUVE de similitude que nous attendions (et grâce à cela, la revérification avec protocole finalisé pourra se faire sur un bien moindre nombre de réplications) ». J’ai failli me lever et hurler aussitôt : « une non-significativité est une non-conclusion, pas une preuve d’égalité (ou quasi-égalité), abaisser le nombre de réplications sera encore pire en faisant accepter n’importe quoi au risque incompris de ’’moins de 5%’’ ». Je me suis tu et je n’ai objecté qu’à la fin, en toute dernière des questions du public, et – sans surprise – on m’a répondu que c’était du domaine des biomathématiciens, que ça relevait de leur compétence exclusivement, que c’était garanti par leurs diplômes et expériences. Que fallait-il répondre ? Que c’est une faute professionnelle, que c’est de la fraude para-scientifique ? Je me suis tu et j’ai mal dormi, songeant à démissionner de mon emploi biologique. Après avoir ressassé ça des semaines, je ne vais pas répéter (seulement) ma démonstration qu’une non-significativité ne prouve rien, et qu’une non-significativité à risque tendant vers zéro ferait accepter n’importe quoi, je vais en plus essayer d’inventer (ou réinventer) la solution : comment faire crédiblement une comparaison de méthode ?
    Je vais le traiter par le biais du test de différence moyenne (appariée, normale), mais ce serait en théorie généralisable à d’autres approches (ratio unité, courbe de corrélation = première bissectrice, différence de rang moyen, etc.). Au risque de ruiner la biologie, qui valide tant et plus (en s’aidant de la variabilité), sans voir qu’elle n’obtient presque que des « non-conclusions »…

PRINCIPE
    On teste une méthode Y rendant des réponses y, la méthode de référence X rendant des réponses x. On va voir si (on veut confirmer que) la différence y-x moyen est non-significativement différente de zéro (la distribution de y-x étant escomptée « zéro moyenne vraie + aléa statistique »).

Façon fausse de faire
Choisir arbitrairement un nombre N de réplications, plutôt grand, et arbitrairement un risque de première espèce, en général <5%. Interdire de questionner ce N ou cet alpha. Collecter les données.
2 cas :
– y-x moyen serait hélas significativement différent de 0 (exemple : p value = 2%), la méthode Y serait rejetée
– y-x moyen n’étant pas significativement différent de 0 (exemple : p value = 6%), c’est pris comme preuve que Y est similaire à X, « validé », avec risque <5%
C’EST COURANT ET C’EST FAUX !!! (erreur scientifique ou/et mensonge sans intégrité) : le premier cas serait « prouvable » validé avec risque <1% selon cette fausse logique, injustifiable mathématiquement.

Bonne façon de faire
Prévoir une étude en deux temps
* Définir ce qu’on appelle similaire, ce qu’on appelle inacceptable (ce ne sont pas les mathématiques qui le disent, mais ce sera obligatoire pour déterminer le nombre de réplications à faire, si on veut accepter Y).
Poser hypothèse nulle h0 : y-x moyen = 0 ; hypothèse alternative h1 : y-x moyen = plus petit inacceptable (en valeur absolue) ; prédéfinir une probabilité de rejet, discutable, par exemple <5%. Définir un nombre moyen n de réplications pour estimer l’écart-type sans trop d’incertitude. Collecter les données.
* Accepter que le résultat dirige l’étude complémentaire sans trancher. 4 cas :
– h0 rejetée, h1 non rejetée --> Y rejetée
– h0 rejetée, h1 rejetée --> Y rejetée, redéfinir h1’ non rejetée
– h0 non rejetée, h1 rejetée --> Y acceptée, préciser h1’ limite non rejetée
– h0 non rejetée, h1 non rejetée (cas le plus courant en biologie à cause de la variabilité) --> augmenter N pour trancher ou accepter une « non-conclusion ». N est calculable par excès, avec interruption de collecte éventuellement avant de l’atteindre.

EXEMPLE CHIFFRÉ
y-x moyen = ±0,20 inacceptable (y-x moyen = ±0,05 négligeable)
écart-type sur y-x : grand (2,85)
échantillons sans biais, par chance centrés, représentatifs
Procédure appliquée pour plusieurs méthodes Y :
Y0 en fait acceptable avec y-x moyen = +0,05
Y1 en fait médiocre avec y-x moyen = +0,17
Y2 en fait mauvaise avec y-x moyen = +0,21
Y3 en fait éxécrable avec y-x moyen = +0,396

Façon fausse de faire : inutile de définir h1, on va « valider » sans ça, avec N grand = 1000.
. Y0 (en fait acceptable) donne sur l’échantillon y-x moyen = 0,05 --> p value calculée = 58% (non significative avec seuil à 5%) --> Y0 dite prouvée similaire à X avec risque <5%
. Y1 (en fait médiocre) donne sur l’échantillon y-x moyen = 0,17 --> p value calculée = 6% (non significative avec seuil à 5%) --> dite prouvée similaire à X avec risque <5%
. Y2 (en fait mauvaise) donne sur l’échantillon y-x moyen = 0,21 --> p value calculée = 2% (non significative avec seuil à 1%) --> dite prouvée similaire à X avec risque <1% (!)
. Y3 (en fait exécrable) donne sur l’échantillon y-x moyen = 0,396 --> p value calculée = 0,0011% (non significative avec seuil à 0,0010%) --> dite prouvée similaire à X avec risque <0,0010% (!!!)
Cela invalide les « démonstrations par non-significativité ». En fait « non-significativité = non-conclusion ».

Réinterprétation juste : en définissant h1, les mêmes valeurs obtenues donnent les réponses justes, mais bien moins « favorables »…
. Y0 (en fait acceptable) donne sur l’échantillon y-x moyen = 0,05 --> p value calculée sous h0 = 58% (non significative avec seuil à 5%), p’ value calculée sous h1 = 10% (non significative avec seuil à 5%) --> non conclusion, il faut augmenter N pour rejeter h1, ou il faut changer h1 (p’ value tomberait à 4,6% avec un h1 centré sur 0,23)
. Y1 (en fait médiocre) donne sur l’échantillon y-x moyen = 0,17 --> p value calculée sous h0 = 6% (non significative avec seuil à 5%), p’ value calculée sous h1 = 74% (non significative avec seuil à 5%) --> non conclusion, il faut augmenter N pour rejeter h0, ou il faut changer h1 (p’ value tomberait à 4,6% avec un h1 centré sur 0,35)
. Y2 (en fait mauvaise) donne sur l’échantillon y-x moyen = 0,21 --> p value calculée sous h0 = 2% (significative avec seuil à 5% et même 3%), p’ value calculée sous h1 = 91% (non significative avec seuil à 5%) --> Y2 rejetée avec risque <3%
. Y3 (en fait exécrable) donne sur l’échantillon y-x moyen = 0,396 --> p value calculée sous h0 = 0,0011% (significative avec seuil à 5% et même 0,002%), p’ value calculée sous h1 = 3% (significative avec seuil à 5%) --> Y3 rejetée avec risque <0,002%, définition de h1 (moins invalide) inutile

Juste avec moindre nombre de réplications : le grand nombre de réplications 1000 étant sorti de nulle part, il suffit de prendre un nombre moyen en première approche, par exemple n=200.
. Y0 (en fait acceptable) donne sur l’échantillon y-x moyen = 0,05 --> p value calculée sous h0 = 80% (non significative avec seuil à 5%), p’ value calculée sous h1 = 46% (non significative avec seuil à 5%) --> non conclusion, il faut augmenter N pour rejeter h1, ou il faut changer h1 (p’ value tomberait à 4,7% avec un h1 centré sur 0,45) . Y1 (en fait médiocre) donne sur l’échantillon y-x moyen = 0,17 --> p value calculée sous h0 = 40% (non significative avec seuil à 5%), p’ value calculée sous h1 = 88% (non significative avec seuil à 5%) --> non conclusion, il faut augmenter N pour rejeter h0, ou il faut changer h1 (p’ value tomberait à 4,6% avec un h1 centré sur 0,57)
. Y2 (en fait mauvaise) donne sur l’échantillon y-x moyen = 0,21 --> p value calculée sous h0 = 30% (non significative avec seuil à 5%), p’ value calculée sous h1 = 96% (non significative avec seuil à 5%) --> non conclusion, il faut augmenter N pour rejeter h0, ou il faut changer h1 (p’ value tomberait à 4,6% avec un h1 centré sur 0,61)
. Y3 (en fait exécrable) donne sur l’échantillon y-x moyen = 0,396 --> p value calculée sous h0 = 4,9% (significative avec seuil à 5%), p’ value calculée sous h1 = 33% (non significative avec seuil à 5%) --> Y3 rejetée avec risque <5%, définition de h1 inutile

Juste optimal : plutôt que de partir à l’aventure, vers un nombre N inconnu, il paraît fondamental de le calculer.
Par exemple, on fixe n = 200 pour mesurer l’écart-type avec une incertitude réduite, et de là on modélise pour savoir quel N discriminerait à coup sûr h0 et h1 :
La p-value du point médian entre h0 et h1 (0,10) tombe sous 5% (avec h0 comme avec h1) pour N=3121. C’est donc le N mathématiquement justifié qui devrait être requis.
Toutefois, pour les cas moins centraux moins suffirait :
. Y0 (en fait acceptable) donne une p’ value 4,998% avec N = 1397 (la p-value étant 51%) --> Y0 est acceptée quand N = 1397, si on a de la chance avec un échantillon centré, inutile de continuer
. Y1 (en fait médiocre) donne une p value 4,996% avec N = 1080 (la p’ value étant 73%) --> Y1 est rejetée quand N = 1080, si on a de la chance avec un échantillon centré, inutile de continuer. S’être arrêté à 1000 pour conclure est une faute. Se contenter de 200 « pour voir la non-significativité » est encore pire.
. Y2 (en fait mauvaise) donne une p value 4,99% avec N = 708 (la p’ value étant 93%) --> Y1 est rejetée quand N = 708, si on a de la chance avec un échantillon centré, inutile de continuer. A fortiori, elle était refusée avec 1000, et il est confirmé que 200 ne suffisait pas.
. Y3 (en fait exécrable) donne une p value 4,998% avec N = 199 (la p’ value étant 33%) --> Y1 est rejetée quand N = 199, si on a de la chance avec un échantillon centré, inutile de continuer. A fortiori, elle était refusée avec 1000, et avec 200 pareillement.

Pratique optimal : les expérimentations scientifiques sont en général basées sur un nombre prédéterminé de réplications, et il ne serait pas propre de laisser indéterminé ce nombre ; qui plus est, l'écart-type observé sur l'échantillon de 200 n'est pas une valeur vraie mais une estimation ayant un intervalle de confiance (ici, avec confiance 95% : 2,60 à 3,16). Il convient donc de recalculer avec la borne haute de cet intervalle pour budgéter l'étude, assurément probante (à 95%):
La p-value du point médian entre h0 et h1 (0,10) tombe sous 5% (avec h0 comme avec h1) pour N=3836. C’est donc le N mathématiquement justifié qui devrait être requis. Certes, 1000 était moins cher (et 200 encore moins), mais cela prétendait à tort s'appuyer sur la pureté mathématique...

Bilan :
    Les cas Y2 et Y3 ne sont pas courants (ils ne faisaient qu’illustrer l’aberration de la logique suivie par les biomathématiciens usuels – si c’est en innocuité du Mediator, ça explique des choses…). La différence très majeure porte sur le courant cas Y1 qu’il fallait refuser en argumentant le nombre de réplications. Certes, accepter une méthode « médiocre » (mais pas chère) est une décision possible, mais la preuve mathématique qu’il fallait l’accepter était totalement fausse, aveugle ou frauduleuse. Ou désabusée (« tout le monde fait comme ça »…).

Remarque :
    J’attends de pied ferme les mathématiciens professionnels qui diraient que je me trompe. Mes calculs de probabilité peuvent sembler étranges mais ils sont justifiés par une double asymétrie de principe :
. p sous h0 pour 0,17 désigne p(>0,17 ou <-0,17) = 2 * (1-LG(0,17)) où LG est une loi de Gauss cumulative partant de moins l’infini.
. p sous h1 pour 0,17 désigne p(<0,17 ou >0,23) = 2 * LG(0,17)
. p sous h1 pour 0,21 désigne p(>0,21 ou <0,19) = 2 * (1-LG(0,21))