HORREUR STATISTIQUE
SCANDALE STATISTIQUE n°1
prétendre « démontrer l’absence de différence significative (avec < 5% de risque) »

(par Binomial-man, 10+21Fev.2009)

BASE RÉSUMÉE

Quoi ?
Un constat ne devrait être une démonstration statistique qu’en rejet d’hypothèse. Faire croire que la seule hypothèse énoncée est confirmée avec confiance > 95% constitue une erreur en termes de mathématiques et de logique. On montre en fait alors que c'est plausible avec une confiance > 2,5%, inavouable, méritant la poubelle et non un « dossier de validation ».
Domaines concernés ?
Innocuité de médicament ou usine ou plant ou produit-chimique ou onde ou rayonnement, acceptation de lots industriels, homogénéité biologique, concordance inter techniques, corrélation entre résultats, caractère linéaire ou gaussien, etc.
Que faire alors ?
Ne pas prétendre « démontrer que c'est bon, normal, juste attribuable au hasard statistique » mais argumenter que « ce n'est pas "mauvais de telle manière" ». (Il ne faut pas viser une différence non significative, mais une différence significative pour rejet d’hypothèse et non confirmation - concernant soit l’hypothèse standard, soit une hypothèse alternative précise).
Situation 2008 ?
Au moins deux normes internationales ISO officielles, et de très nombreux rapports internes en entreprise, comportent des requêtes ou preuves par non significativité. Il s'agit de textes fautifs, écrits par l’industrie au profit de l’industrie, au mépris des clients (et de la santé éventuellement), sans le dire bien sûr (ou en clamant tout au contraire un maximal service et une pure intégrité scientifique). Avec validation par des « mathématiciens » cher payés, évidemment, piliers essentiels de l’entreprise ou société ou branche, cachant l'absurdité derrière des pages d'équations rebutantes, des montagnes de tableaux ou diagrammes effrayant le profane, appelé à "faire confiance aux experts". Cela relève du faux et usage de faux, de l’imposture, avec complicités, incompétences, pressions, sanctions, injustices. C’est « le scandale statistique numéro 1 ».

EXPLICATIONS – DISCUSSIONS

Question de base
Le principe des statistiques inductives consiste à juger une population (d’effectif énorme) au vu d’un simple échantillon (d’effectif très réduit), ce saut étant assorti d’un risque d’erreur exprimé en clair, relatif aux probabilités d’obtention d’un tel échantillon par pur hasard d’échantillonnage.
Exemple : un professeur constate au devoir n°14 que les notes de ses élèves tournent autour de 1/5 (de 0 à 2 surtout, avec quelques 3 et rares 4) au lieu de 3/5 d’habitude (de 2 à 4 surtout, avec quelques 1 et de rares 0). Il se demande : la très mauvaise moyenne sur ce devoir est-elle un pur effet du hasard (ça devait arriver un jour) ou les élèves n’ont-ils pas compris cette leçon spécialement ? Le test statistique peut répondre, le calcul précis aboutissant à l’une ou l’autre des 2 réponses :
- différence significative (avec moins de 5% de chances de se tromper) : l’obtention de ce résultat par hasard est très peu probable
- différence non-significative (avec moins de 5% de chances de se tromper) : il n’est pas exclu que ce résultat ait été obtenu par hasard (rejeter cette hypothèse serait prendre un risque non négligeable : > 5%)
Libre à celui qui a recours aux statistiques de préférer (au lieu du risque standard 5%) le risque plus petit 1% voire 0,1%, ou au contraire les plus grands 10% ou 20%, il suffit de le dire, de comprendre de quoi l’on parle.

Déviation
Le professeur, titillé par une autorité (inspecteur ou parents ou autre) ou voulant impressionner, clamerait, au vu de la différence non-significative : « j’ai DÉMONTRÉ que cette anomalie ponctuelle était due au hasard, je l’ai démontré avec moins de 5% de chances de me tromper ».
Autrement dit, l’échec à prouver quoi que ce soit avec 5% de risque (ce qui est une non-conclusion) est là pris comme succès à prouver l’inverse avec 5% de risque (ce qui est une conclusion positive).
Je vais prouver que c’est mathématiquement erroné.
Toutefois, le professeur ne pouvait modéliser le hasard que de façon imparfaite :
- Hypothèse Nulle n°I = la référence des notes est constituée par l’ensemble des 13 premiers devoirs, et le 14e serait un échantillon au hasard parmi elles, est-ce possible ? mais… prétendre que le passé contient le futur n’est pas logique, et les notes qui seront obtenues au 15e ou 25e devoir n’auront pas forcément été obtenues au cours des 13 premiers (même la note exceptionnelle 5/5 étant possible un jour, simplement pas vue dans le passé, qui n’était qu’un échantillon de ce que sera finalement l’année : que l’on parle de comptage a posteriori ou de supputation gaussienne infinie).
- Hypothèse Nulle n°II = la population des notes est constituée par l’ensemble des 14 devoirs, et le 14e serait un échantillon au hasard parmi elles, est-ce possible ? mais… englober l'anomalie ponctuelle dans la normalité générale biaise peut-être le jugement sur le caractère normal ou anormal - même si la répétition de valeurs particulièrement faibles pourrait suffire au jugement d'anomalie significative.
Pour éviter ces écueils de subjectivité, je vais donc me rabattre sur un exemple exhaustivement dénombrable, fonctionnant de manière similaire.

Enoncé simplissime
Soit un dé à 2 chiffres (ou pièce à 2 faces), 0 et 1, dont le score moyen est 0,5 s’il n’est pas pipé – et s’il est pipé, ce peut être n’importe quoi, de ultra-pipé (moyenne 0 sur un milliard de lancers) à légèrement pipé (moyenne 0,400011 sur un milliard de lancers).
- Après cinq lancers du dé A, le score moyen est 0 (très loin de 0,5), le joueur peut-il dire « j’ai prouvé (avec moins de 5% de chances de me tromper) que ce dé est pipé » ?
- Après cinq lancers du dé B, le score moyen est 0,2 (pas très loin de 0,5), le joueur peut-il dire « j’ai prouvé (avec moins de 5% de chances de me tromper) que ce dé n’est pas pipé » ?
[Le cas de dé à peine pipé n'est pas pris en considération (moyenne 0,49999000 différentiable de 0,50000000 seulement sur un nombre de lancers considérable)].

Calculs explicatifs
Dénombrement exhaustif des cas :
Moyenne : 0 (1 cas 00000)
Moyenne : 0,2 (5 cas 10000, 01000, 00100, 00010, 00001)
Moyenne : 0,4 (10 cas 11000, 10100, 10010, 10001, 01100, 01010, 01001, 00110, 00101, 00011)
Moyenne : 0,6 (10 cas 00111, 01011, 01101, 01110, 10011, 10101, 10110, 11001, 11010, 11100)
Moyenne : 0,8 (5 cas 01111, 10111, 11011, 11101, 11110)
Moyenne : 1,0 (1 cas 11111)
En terme de probabilités, pour un dé non pipé (équiprobabilité des cas possibles) la situation est donc :
0 : 1/32 = 3% (1,0 : idem)
0,2 : 5/32 = 16% (0,8 : idem)
0,4 : 10/32 = 31% (0,6 : idem)
(0,2 ou plus : 97% ; 0,4 ou plus : 81% ; 0 à 0,2 : 19% ; 0,4 à 0,6 : 62%)
Le résultat 0 (A) est significativement anormal (à risque <5%, confiance >95%), le résultat 0,2 (B) n’est pas significativement anormal (à risque <5%, confiance >95%).

Lecture du cas significatif
Quand le joueur A dit : « j’ai démontré que mon dé est pipé avec moins de 5% de chances de me tromper (donc avec confiance >95%) », son affirmation peut être contrôlée par calcul des probabilités conditionnelles.
P signifiera « probabilité de », \ signifiant « sachant ». Le principe de base est qu'en cas d'évènements indépendants C et D, P(C et D)= P(C)*P(D) mais dans le cas général P(C et D)= P(C)*P(D\C)= P(D)*P(C\D).
La probabilité (97%) à laquelle se réfère le joueur A est en fait :
P (pipé\résultat 0)= P(pipé et résultat 0) / P(résultat 0)= P(pipé et résultat 0) puisque le résultat 0 a été celui observé, et n’est plus une simple possibilité.
Or le résultat n’a pas été calculé jusqu’ici, ce qu’on a chiffré à 3% étant P(résultat 0\non pipé), et on a :
P(résultat 0\pipé)= P(résultat 0 et pipé) / P(pipé)
P(résultat 0\non pipé)= P(résultat 0 et non pipé) / P(non pipé)
P (non pipé\résultat 0)= P(non pipé et résultat 0) / P(résultat 0)= P(non pipé et résultat 0)
P(pipé\résultat 0)+P(non pipé\résultat 0)= 100%
P(pipé)+P(non pipé)= 100%
Donc P(pipé\résultat 0)= 100% - P(non pipé\résultat 0) = 100% - P(non pipé et résultat 0) = 100% - P(résultat 0\non pipé)*P(non pipé) = 100% - 3%*P(non pipé)
Implicitement le joueur A supputait donc P(non pipé)= 1= 100%. Il semble préférable, en aveugle, de donner l’équiprobabilité a priori aux cas pipé et non-pipé. Donc P(non pipé) = 50% = 0,5, et la probabilité de l’hypothèse pipé, compte tenu du résultat 0, ne serait plus 97% mais 98,5%. D’accord, c’est > 95%, la conclusion affirmative en significativité est légitime.
Ce calcul est simplifié, pour un résultat extrême ; il est clair que dans le cas courant, il faut sommer les "anormaux comme observé ou pire", puisque sur un milliard de lancers avec un dé non pipé, chaque moyenne précise possède une infime probabilité, même la plus probable, l'hypothèse non pipé n'en étant pas moins valide pour autant - le calcul binomial montre que, dès 256 lancers d'un dé non pipé, la parfaite moyenne 0,500 a une probabilité < 5%.

Lecture du cas non-significatif
On a ici P(pipé\résultat 0 à 0,2)= 100% - P(résultat 0 à 0,2\non pipé)*P(non pipé) soit 90,5% en comptant a priori P(non pipé)=P(pipé) [ou 81% en oubliant ce détail méconnu].
Quand le joueur B dit : « j’ai échoué à "démontrer que mon dé est pipé avec moins de 5% de chances de me tromper (donc avec confiance > 95%)" », il est irréprochable.
Par contre, quand il dit, « j’ai démontré que mon dé est non-pipé avec moins de 5% de chances de me tromper (donc avec confiance >95%) », cela mérite vérification.
Il affirme P(non pipé\résultat 0 à 0,2)> 95% donc P(résultat 0 à 0,2\non pipé)*P(non pipé)> 95% donc P(non pipé)> 95%/19% donc P(non pipé)> 500% (en probabilité a priori avant prise en compte du résultat des 5 lancers). Or une probabilité supérieure à 100% constitue une faute totale, injustifiable (une probabilité se définissant par "combien d'occurences PARMI les essais ?" ou "combien de cas positifs PARMI les cas possibles", forcément entre 0 et 100%).

Correction du cas non significatif
Avec le cas de moyenne 0,2 en 5 lancers, on ne peut pas valider l’hypothèse non-pipé avec moins de 5% de chances de se tromper, mais on peut rejeter l’hypothèse alternative de dé ultra-pipé donnant 0 systématique.
Avec modélisation binomiale, on peut aussi calculer les probabilités sous des hypothèses moins simples, comme « très-pipé avec 99% de 0 » (moyenne 0,01 au lieu du 0,50 non pipé). Ainsi, au vu de nos 5 lancers 00100 et avec risque <5%, on rejetterait que le dé soit pipé avec une moyenne < 0,103 (avec probabilité 0,103 d'obtenir 1 à chaque lancer, on a 94,955% de chances d'obtenir 0 à 1 valeur "1" en 5 lancers, avec 0,102 on passe à 95,001%).

Raccourci
En ne se focalisant pas sur le risque 5%, on pouvait détecter sans calcul l’erreur logique.
Avec dé non pipé, la valeur moyenne est 0,5 et l’intervalle de confiance, pour la moyenne de 5 lancers, est :
100% de 0 à 1,0
94% de 0,2 à 0,8
62% de 0,4 à 0,6
Si on en « déduisait » : « le résultat 0,2 étant compris dans l’intervalle de confiance à 94% sous hypothèse non pipé » donc cela prouve cette hypothèse avec confiance 94% (ou davantage), alors le résultat 0 compris dans l’intervalle de confiance à 100% prouverait cette hypothèse avec confiance 100%. C’est idiot, c’est exactement le contraire : plus on accroît le taux de confiance (donc plus on décroît le risque), plus on accepte des choses anormales, et moins cela prouve que l’on est en situation normale.
En tout cas, se situer dans l’intervalle à 62% (risque 38%) confirme bien davantage l’hypothèse non-pipé que se situer dans l’intervalle à 94% (risque 6%). S’il n’y avait pas que 5 lancers mais 1000, une non-significativité à risque 95% correspondrait à se situer pile sur la moyenne théorique (0,499 à 0,501 d'après le calcul binomial), une non significativité à risque 0,1% correspondrait à l’acceptation de dés très pipés (mais certes pas ultra-pipés : 0,451 à 0,549 d'après le calcul binomial), en les affirmant « prouvés non-pipés ». Cela marche presque en sens inverse : dire qu’on est non significatif avec risque <0,1% signifierait que l’hypothèse servant aux calculs a une crédibilité > 0,1%, et il serait alors clair qu’il vaut bien mieux une crédibilité > 95% donc une non-significativité à risque < 95% (pas du tout le < 5% classique). Mais le décideurs et clients, informés d’un risque < 95%, d’une confiance > 5%, feraient de tout autres choix.
Bref, en significativité, on est d’autant plus probant en rejet qu’on utilise un risque faible (par exemple on envisageait <5% et on est heureux de pouvoir annoncer même < 0,1%) MAIS en non-significativité, on est d’autant plus probant en non-rejet qu’on utilise un risque fort (par exemple on avait envisagé <5% et on est heureux de constater <95%). Le mot de « risque » est alors presque automatiquement un malentendu.

Second raccourci
Si l’on obtient 0,2 de moyenne, la probabilité d’un dé pipé de moyenne 0,2 est plus grande que celle d’un dé non-pipé de moyenne 0,5 (même si cette hypothèse n’est pas invalidée). En tout cas, affirmer que ce résultat 0,2 prouve la moyenne 0,5 est idiot. Il en va de même en termes de différence avec la moyenne théorique : - 0,3 sur 5 lancers ne contredit pas 0 sur la population, mais ne prouve en rien ce 0 sur la population.
La moyenne 0,2 sur le résultat d’échantillon est possible avec 16% de probabilité si la moyenne vraie sur la population est 0,5 ; elle est possible avec 41% de probabilité (d'après calcul binomial) si la moyenne vraie est 0,2. En posant l’équiprobabilité a priori des 2 hypothèses, la plus ressemblante sera la plus probable : ce qui validerait 0,2 et pas du tout 0,5 (plus de 2 fois et demi moins probable) .

Troisième raccourci
* En première approximation :
Si la significativité est une probabilité < 5%, la non-significativité : une probabilité > 5%. On peut lire cela ainsi :
- Soit il y a Différence significative sous hypothèse standard (probabilité < 5% sous cette hypothèse), donc on dit : rejet de cette hypothèse avec « risque < 5%, confiance > 95% ».
– Soit il y a Différence non significative sous hypothèse standard (probabilité > 5% sous cette hypothèse), donc hypothèse non rejetée, ce non rejet se faisant avec « risque < 95%, confiance > 5% » (et pas du tout « risque < 5%, confiance > 95% » voir la discussion du premier raccourci sur les aberrations sinon en passant de 5% à 0,1%).
Ce n’est peut-être pas tout à fait juste, en termes de probabilités conditionnelles, mais cela va dans le bon sens, en éliminant l’aberration illogique qui apparaît si on remplace 5% par 0,1%.
* Calcul :
P(Hypothèse\Résutat) = P(Hypothèse et Résultat)/P(Résultat)
et P(Résultat\Hypothèse) = P(Hypothèse et Résultat)/P(Hypothèse)
d'où P(Hypothèse\ Résutat) = P(R\Hypothèse)*p(Hypothèse)/p(Résutat)
Sachant Résutat obtenu, Hypothèse et non- Hypothèse a priori équiprobables, on en déduit p(Résutat)=1, p(Hypothèse)=p(non-Hypothèse)=0,5
Bilan : p(Hypothèse\ Résutat) = p(Résutat \Hypothèse) * 0,5
* Version corrigée :
- Soit Différence significative sous hypothèse standard : probabilité < 5% sous cette hypothèse, donc on dit : rejet de cette hypothèse avec « risque < 2,5%, confiance > 97,5% ».
– Soit Différence non significative sous hypothèse standard : probabilité > 5% sous cette hypothèse, donc hypothèse non rejetée, ce non rejet se faisant avec « confiance > 2,5% risque < 97,5%,».

Statistiques honnêtes ?
Oui, des statistiques inductives peuvent être irréprochables, à condition d’éviter l’horreur des validations d’hypothèses précises à très petit risque.
Cas le plus simple : on énonce l’hypothèse normale, dite nulle H0, que l’on veut statistiquement rejeter (significativité, à risque de première espèce alfa). Par contre, si l’on entend accepter l’hypothèse nulle, il ne faut aucunement prétendre la prouver avec petit risque (puisque la non-significativité est une non-réponse), il faut alors énoncer une hypothèse alternative H1 (prêtant à calculs précis, donc pas « tout ce qui diffère de H0 »), qui seule sera statistiquement rejetée, avec petit risque (de seconde espèce béta).
Résultats possibles :
- Rejet H0 : OK
- Rejet H1, non rejet H0 : la conclusion n’est pas la validation de H0 mais seulement le rejet de H1 ou pire (et on peut reformuler un H1’ moins extrême, qui serait lui aussi rejeté, quoique de justesse)
- Non-rejet H0, non-rejet H1 : aucune conclusion, il faut redéfinir un H1’ plus extrême qui lui sera rejeté