PIÈGES STATISTIQUES :
présentation quasi scolaire de non-significativité détournée

(par Christophe Meunier, 05/12/2005)

    Au cas où les exemples de proportions que j’ai pris sur la page simplifiée paraissent simplistes, infiniment éloignés de la pratique statistique, je reprend ici l’argumentation avec de pures modélisations normales puis des combinatoires non paramétriques.

Exemple simple, fictif, n°1 :
    On a étudié la population entière des marmottes, au nombre d’un milliard, en mesurant leur poids corporel, et cette population suit une loi normale en cloche, de moyenne 1000g et d’écart-type 10g. En montagne, un appât situé au dessus d’une balance attire un animal chaque nuit, et le poids est automatiquement enregistré. L’expérience dure 2 jours. Les valeurs suivantes sont mesurées : Lundi 1010g, Mardi 1030g. La question est de savoir s’il est prouvé (à un faible risque près) que certains de ces animaux sont ou non des marmottes. En termes statistiques, cela se lit : ces 2 poids sont-ils, l’un ou l’autre, significativement différents de 1000g, avec un risque d’erreur inférieur à 5% ?
    La réponse juste est que Mardi est significativement différent, et que pour Lundi il n’y a pas de conclusion. OR la coutume statistique industrielle est de considérer qu’un résultat non-significatif (Lundi) est également probant, en confirmation de l’hypothèse (marmotte) et non en rejet, avec le même risque. C’est absurde, l’exemple va le prouver.
    Si les 2 animaux étaient des marmottes, la probabilité d’observer des animaux au moins aussi différents de 1000g que ceux mesurés était 32% pour Lundi, 0,3% pour Mardi (table de Gauss bilatérale pour ±1 et ±3 écart-types); si on accepte un risque d’erreur inférieur à 5% quand cette hypothèse Marmotte est la bonne, on peut conclure que l’hypothèse Marmotte est rejetée pour Mardi, et on ne le peut pas pour Lundi ; l’abus classique consiste hélas à dire : l’hypothèse Marmotte est validée avec un risque inférieur à 5% pour Lundi. C’est insensé [Si les hermines font en moyenne 1009g, conclure que la valeur 1010g prouve le caractère marmotte avec un risque d’erreur <5% apparaît de manière criante comme totalement erroné, le risque d’erreur étant très supérieur à 50% - et c’est pire encore si l’on prend en compte qu’il y a 100 fois plus d’hermines que de marmottes, facteur "oublié" dans l’analyse mono-hypothèse. Mais même en mode mono-hypothèse, l’incohérence était visible :] la valeur 1030g Mardi, conduisant à refuser l’hypothèse Marmotte avec un risque très inférieur à 5% et même 0,5%, aurait pu conduire à déclarer prouvée l’hypothèse Marmotte avec un risque d’erreur inférieur à 0,1% ! En prétendant à un risque zéro, même un poids d’une tonne serait déclaré prouver le caractère Marmotte ! Alors que c’est l’inverse : plus on s’éloigne de la valeur la plus probable (1000g), plus le risque d’erreur est grand d’accepter l’hypothèse.
    Les inventeurs des tests statistiques n’ont pas du tout commis ces absurdités : quand une seule hypothèse précise est émise, on ne peut que la rejeter ou s’abstenir de conclure, au risque d’erreur choisi (dit risque de 1e espèce) ; ce qu’on peut faire pour appuyer une hypothèse, c’est échouer à la rejeter tout en parvenant à rejeter l’hypothèse différente, énoncée en clair, déclarée "autre cas envisagé", rejet effectué avec un risque d’erreur choisi (dit risque de 2e espèce pour l’hypothèse initiale). Risque de 1e espèce et de 2e espèce varient en sens inverse : si la faune est composée de 50% de marmottes et 50% de fouines, de masses moyennes 1000g et 1050g, mettre la limite d’acceptation du caractère marmotte à 1030g au lieu de 1020g va, en même temps, DIMINUER LE RISQUE de 1e espèce (rejet à tort de l’hypothèse Marmotte) et AUGMENTER LE RISQUE de 2e espèce (acceptation à tort de l’hypothèse Marmotte). C’est clair, limpide, exempt de contradiction, mais cela interdit d’invoquer un risque (de 1e espèce) pour l’acceptation d’une hypothèse. Si une seule hypothèse est émise, les statistiques ne peuvent par principe aboutir qu’à la rejeter ou ne rien conclure. Et il s’agit d’hypothèse précise permettant un calcul de probabilité, non de son complémentaire pouvant être n’importe quoi (l’hypothèse "non-Marmotte" ici n’est aucunement rejetable, ces variantes pouvant être centrées sur 1010g ou 9000g…).

Objection personnelle :
    La loi imparable exposée ci-dessus serait limpide sur de pures abstractions mathématiques, mais l’avoir illustrée par un exemple pratique est délicat : le calcul utilisait le formalisme de la loi normale gaussienne, alors que "prouver" qu’une population observée suit une loi normale n’est pas possible (on ne peut qu’échouer à réfuter cette hypothèse de normalité, la réponse étant : pas de conclusion). Précisons donc qu’un calcul similaire serait obtenu avec une répartition discontinue, non infinie, basée sur les valeurs vraies connues pour toute la population, avec un diagramme en bâtons ayant une allure d’escalier "en cloche" (ou, plus exactement, d’escalier "sigmoïde" en fréquences cumulées, pour éviter les chutes correspondant à des valeurs manquantes).

2e objection :
    Les mesures étant par principe imparfaites, chacune a un intervalle de confiance qui n’est pas infiniment étroit. Pour éviter ces mixages de complexité pratique et de pureté mathématique, on pourrait aborder le domaine pur des statistiques non-paramétriques, basées sur les rangs au lieu des valeurs chiffrées de mesure, mais la gestion des cas d’ex æquo paraît peu satisfaisante (arbitraire et non convainquante, liée à de libres choix d’arrondis) et on prendra finalement l’exemple du jeu de dés informatiques.

Exemple simple, fictif, n°2 :
    Deux programmes présentés comme jeux de dés aléatoires seront testés sur un échantillon pour voir s’ils ne sont pas pipés. En pratique, on ferait quantités de mesures, avant de conclure, mais cela rendrait ici peu digestes les calculs, et le principe des statistiques "inductives" consiste à dire qu’un petit échantillon suffit, avec un risque d’erreur simplement plus grand, chiffré avec précision.
    Le premier programme (A), lancé 3 fois, donne 5 puis 6 puis 5. Le second (B) : 6 puis 6 puis 6. Cela paraît anormalement fort et l’expertise des statisticiens est demandée. Les programmes se sont entre-temps auto-détruits et l’échantillon ne porte que sur 3 valeurs, mais en précisant le risque d’erreur (souhaité < 5% classiquement), peut-on dire que ces dés virtuels n’étaient pas de purs aléas ? [Bien sûr, il s’agit de n’envisager que l’hypothèse Aléa avant de la rejeter ou non, l’accepter ou non, il est clair que d’autres hypothèses collant mieux à l’échantillon sont ignorées par choix arbitraire – B’, "6 systématiques", est l’hypothèse donnant le résultat observé avec la plus forte probabilité pour B ; A’, "2/3 de 5 et 1/3 de 6" ou "rien que des 5 et 6 alternés", de même pour A]. La réponse des statisticiens ne sera pas un humble point d’interrogation, mais deux approches différentes se heurtent.
    Une approche théorique honnête consiste à dire qu’on va tester l’hypothèse nulle (équiprobabilité 1/6 pour les valeurs 1 à 6) au vu de la différence entre somme observée des 3 "lancers" et moyenne théorique – en valeur absolue car des valeurs très basses répétées auraient été aussi choquantes que des valeurs très hautes répétées – en rejetant comme incompatibles les cas très peu probables. Le minimum est 1+1+1=3, le maximum est 6+6+6=18, la moyenne étant au milieu à 10,5 (10 et 11 étant très fréquents, correspondant à beaucoup de combinaisons), soit des différences allant de 0,5 à 7,5 avec la moyenne théorique. Le dénombrement des cas sous hypothèse équiprobabilité (6x6x6=216 cas équiprobables) donne la distribution suivante :
Différence    7,5 : 0,93% des cas
                  6,5 : 2,8%
                  5,5 : 5,6%
                  4,5 : 9,3%
                  3,5 : 14%
                  2,5 : 19%
                  1,5 : 23%
                  0,5 : 25%
    Si l’on prend comme critère de refus de l’hypothèse équiprobabilité un chiffre borne, et que cette hypothèse était la bonne, on se sera trompé avec une probabilité prévisible (par cumul) :
Borne   8 : 0% d’erreur
            7 : 0,93%
            6 : 3,7%
            5 : 9,3%
            4 : 19%
            3 : 32%
            2 : 52%
            1 : 75%
            0 : 100%
    En acceptant le risque d’erreur <5%, on peut donc choisir la borne 6, en acceptant <1% : la borne 7.
    Avec risque <5% (et même <1%), le programme B (différence 7,5) est donc solidement suspecté d’être pipé, tandis qu’on ne conclut pas pour le programme A (différence 5,5).
    C’est clair, limpide. Là où est commise la monstruosité, c’est quand il est déclaré validé (avec risque d’erreur < 5%) que le programme A est équiprobable. En oubliant que l’hypothèse contraire A’ est davantage probable… Et en prenant ce principe, B serait prouvé équiprobable avec risque d’erreur 0% alors que le test perdrait son sens (acceptant tout par principe) !

3e objection :
    D’un point de vue extérieur, mathématiquement incompétent et ne voulant rien savoir du sujet, il serait possible de considérer qu’un non-échec à la réfutation statistique est qualitativement un succès, effectivement ; là où se situe le problème est le malentendu total sur le risque d’erreur invoqué, prétendument très faible, acceptable. Ceci est totalement hors-sujet pour le risque d’acceptation à tort, totalement inconnu.
    Les prétendues validations statistiques ne sont absolument pas crédibles, en cas de non-significativité.
    C’est un énorme malentendu : les calculs seraient instructifs si on n’en travestissait pas le sens pour les employer à l’envers là où cela arrange.

Résumé :
    Quand une seule hypothèse est énoncée, il est totalement FAUX de prétendre que cette hypothèse a pu être, au vu d’un échantillon, statistiquement VALIDÉE avec un risque d’erreur (de 1e espèce) inférieur à 5% (ou 1% ou autre). Les statistiques ne peuvent que rejeter des hypothèses, estimées très improbables.
    [La validation par non-significativité est mathématiquement un non-sens, une faute grave, une aberration intenable, hélas générale, enseignée comme bonne pratique en formation en entreprise, s’appuyant sur des textes officiels apparemment signés par des incompétents graves ayant trahi leur statut d’expert, leur diplôme dit supérieur, volé leur haut salaire. Cela peut ruiner le métier statistique, qui n’aurait dû faire que ce qui est mathématiquement juste… et non ce qui arrange l’industrie pour prétendre démontré scientifiquement ce qui ne l’est absolument pas. Comme l’innocuité d’un produit, ce n’est pas bénin…]

Précision (21/02/2014) : sur Internet, on trouve mentionnée l'erreur grave dont je parle, avec l'expression intelligente "absence of proof is not proof of absence" – l'absence de preuve (de différence avec le modèle) n'est pas preuve d'absence (de différence avec le modèle)... De même, dans un forum statistique, on m'a dit que j'enfonce des portes ouvertes, pour une aberration/faute professionnelle connue de tous (ou de tous les statisticiens lucides/honnêtes, il y en a).