TESTS STATISTIQUES : 2 réflexions élémentaires, hélas révolutionnaires

(par Christophe Meunier, 25/11/2005)
(cette page rejoint l’annexe statistique de mon ouvrage "Échapper à la dictature réaliste"
téléchargeable gratuitement à la fin de
http://www.kristofmeunier.fr/Telecharger_EoFG_MV.htm )

Ajout tardif
Contexte personnel

    Une partie des chiffres statistiques, dits "statistiques descriptives", consiste en comptages simples, ayant valeur de description de ce qui est connu (ou considéré tel, tout au moins). C’est neutre et n’a rien de brillant ni choquant. Mais une autre partie, dite "statistiques inductives", prétend découvrir des vérités générales au vu de simples échantillons sans connaître la population dont ils sont issus, et cette puissante magie mathématique peut surprendre. Il est intéressant d’en comprendre le miracle, la limite, les déviations fautives – hélas généralisées en 2005, approuvées au niveau officiel, international.
    Nous allons aborder les statistiques inductives via le principe des "tests statistiques", prétendant conclure (sans vraiment savoir) en chiffrant simplement leur "risque d’erreur" de manière certaine.

1- Significativité : intérêt et limites

    Le principe consiste à calculer la probabilité (fréquence théorique) de tous les cas possibles (sans en privilégier aucun a priori) avant de retenir exclusivement la gamme des cas les plus probables, excluant les cas les plus improbables en assumant un risque d’exclusion à tort, chiffré en clair.
    Exemple illustratif: Sachant que plus de 95% des Sénégalais sont noirs, un blanc peut être déclaré "non Sénégalais" en assumant un risque d’erreur inférieur à 5% (en termes statistiques : l ‘hypothèse nulle, "Sénégalais", est rejetée, puisque l’échantillon testé est significativement différent, avec un risque d’erreur <5%).
    Il faut néanmoins comprendre que le risque d’erreur mentionné n’est absolument pas le risque d’erreur portant sur la conclusion (rejet de l’hypothèse), mais la probabilité d’erreur que l’on accepte en supposant totalement acquis que l’hypothèse serait la bonne. Cette nuance peut paraître obscure, négligeable ou inutile, mais peut s’avérer capitale.
    Exemple à charge: Si le groupe X est composé de 99% de Sénégalais (dont 96% sont noirs) et de 1% de Maliens (dont 96% sont noirs), un blanc du groupe X pourra toujours être déclaré "non Sénégalais" avec un risque d’erreur (interne) <5%, mais le risque d’erreur (global) lié au rejet de l’hypothèse "Sénégalais" sera en fait égal à 99%, justifiant un doute extrêmement fort alors que les statistiques semblaient l’affirmer très faible.
    Bref, il faut être extrêmement vigilant sur ce que les statisticiens nomment leur risque d’erreur maîtrisé, qui n’est en général qu’un élément de cuisine mathématique interne sans aucun rapport avec la crédibilité de leur conclusion qualitative. Sans se sentir écrasé par les preuves statistiques chiffrées, rester sceptique jusqu'à ce que les chiffres soient clairs constitue l'attitude apropriée.

2- Non-Significativité : faux-intérêt et scandale

    L’erreur grave des tests statistiques pratiqués par l’industrie moderne consiste à déclarer que les non-significativités sont des validations, des démonstrations (d’égalité, normalité, équivalence, indépendance, innocuité, etc.) et non ce qu'elle sont en principe: des échecs statistiques sans conclusion.
    Exemple illustratif: Sachant que plus de 5% des Ethiopiens sont noirs, un noir serait déclaré «Ethiopien» avec un risque d’erreur inférieur à 5%.
    Cela paraît inversé, avec un <5% au lieu de <95%, et en y regardant de plus près, il n’y a même aucune raison de se reporter à ce chiffre 5% en se dispensant d’examiner les non-Ethiopiens. Si 99% des noirs sont non-Ethiopiens, le risque d’erreur de déclarer qu’un noir est Ethiopien sera 99% et pas du tout <5% (ni même <95%); on pourrait penser que ce malentendu ressemble à celui portant sur les significativités (le chiffre interne n’est pas du tout le chiffre global), mais c’est en fait beaucoup plus grave : au delà du malentendu il y a ici une erreur mathématique, une faute lourde.
    Exemple à charge: Sachant que 91% des Camerounais sont noirs, 6% sont marrons, 2% sont bronzés, on dirait qu’un individu marron est prouvé Camerounais avec un risque <5%, tandis qu’un bronzé est prouvé Camerounais avec un risque <1%… C’est invraisemblable: c’est en fait en sens inverse que se présente la situation - plus on tranche sur une probabilité faible, plus le risque d’erreur est grand d’accepter l’hypothèse testée. Sinon avec risque d’erreur nul (idéal absolu d’un test statistique), on accepterait tout et n’importe quoi, ce ne serait en rien un test.
    Si une hypothèse n’est pas prouvée "très-très improbable", cela ne prouve en rien qu’elle est "très-très probable", elle peut être simplement "très improbable" ; d’ailleurs ce qui est prouvé "très-très improbable" serait prouvé "très-très-très probable", etc. C’est faux, illogique, stupide.
    Présenté ainsi, cela semble une bonne grosse évidence, mais c’est caché derrière des montagnes de complexités mathématiques, réservées aux initiés accrédités (et les auto-didactes non aveugles sont fermement désapprouvés par les autorités confortablement installées, s’étant auto-proclamées seuls juges).
    Explicitons le moyen de casser une "validation par non-significativité" : face à un rapport disant "c’est bon puisque il n’y a pas de différence significative (en prenant un risque d’erreur <5%, une confiance >95%)", il suffit de demander : en exigeant un risque d’erreur <0,0001%, une confiance >99,9999%, aurait-on été trop sévère en refusant des différences infimes ? La réponse n’est pas avouable, car elle est l’exact contraire : en diminuant le "risque d’erreur", on élargit l’intervalle de confiance, et donc on accepte des différences de plus en plus en grandes. Et en prétendant à un merveilleux risque zéro, on accepterait n’importe quoi… Il s’agit de conclusions illégitimes, mathématiquement fausses. En cas de non-significativité, les statistiques sont en échec et n’apportent rien ; si l’on voulait positiver en clamant que cette non-significativité est établie avec des chiffres maîtrisés, il faudrait corriger la phrase "risque choisi <5% confiance >95%" en quelque chose comme "risque choisi <95% confiance >5%" (le passage à risque <99% confiance >1% étant encore moins probant, correspondant effectivement à la situation), et ces résultats méritent clairement la poubelle, les classer en preuves scientifiques contre le doute est une pure tromperie.
    Les inventeurs des statistiques préconisaient une toute autre façon d’opérer statistiquement, avec énoncé d’hypothèse alternative rejetée significativement. Ce serait propre et juste, mais cette significativité serait bien plus difficile à établir qu’une non-significativité aidée par les aléas dispersants, il en résulterait des expériences coûtant plus cher et donnant davantage de résultats mauvais, à l’exact opposé du besoin de rentabilité industrielle. De plus, les conclusions seraient bien moins avenantes commercialement ("l’inocuité de ce yaourt est prouvée : en donner à votre bébé fera moins que quadrupler son risque de mort subite"). Cela n’intéresse donc hélas que les naïfs, que l’on n’écoute pas et que l’on fait taire, disant qu’ils "marchent sur la tête".
    Espérons que les générations futures corrigeront cet égarement, avec un Prix Nobel posthume pour l’avis pertinent ayant signalé le scandale…

---------------------------------------------------------------------------------------------
Ajout 16/09/2006 – Détournement maximum (véridique): au delà de la limite
    Je viens de voir un abus invraisemblable, pratiqué par des bio-mathématiciens professionnels, approuvés par leur hiérarchie, accepté (car non compris?) par une cohorte de responsables biologistes (médecins, pharmaciens, ingénieurs, chercheurs) et experts "Qualité".
• CONTEXTE (imaginaire, pour respecter le professionnel "devoir de réserve"): Un médicament anti-démangeaison va être testé, et on entend démontrer qu'il ne génère pas d'effet secondaire, l'idéal étant 0% d'effet secondaire. Puisqu'administrer du rien, placebo, est susceptible (par morbidité spontanée des individus testés) de générer des désagréments interprétables comme effet secondaire apparent, le protocole entend simplement démontrer statistiquement que le taux d'effets secondaires apparents ne dépasse pas 0,5%. Ce chiffre est approuvé par toutes les autorités compétentes, officialisé comme but à démontrer, en vue de l'avouer en clair sur la notice d'utilisation à venir.
• RÉSULTAT HONNÊTE: 4 espèces de cas me semblent à envisager pour la mesure globale avec son intervalle de confiance associé.
- Significativité positive: intervalle de confiance intégralement bon, exemple 0,3%±0,1% soit 0,2% à 0,4%. L'hypothèse défavorable de taux >0,5% serait statistiquement rejetée, avec confiance liée à l'intervalle de confiance considéré, par exemple 95%. Il est possible que ce soit aussi vrai à confiance 99% (exemple: 0,3%±0,15% soit 0,15% à 0,45%) ou sans conclusion à 99% (exemple: 0,3%±0,25% soit 0,05% à 0,55%).
- Significativité négative: intervalle de confiance intégralement mauvais, exemple 0,9%±0,3% soit 0,6% à 1,2%. L'hypothèse favorable de taux <0,5% serait statistiquement rejetée, avec confiance liée à l'intervalle de confiance considéré, par exemple 95%. Il est possible que ce soit aussi vrai à confiance 99% (exemple: 0,9%±0,35% soit 0,55% à 1,25%) ou sans conclusion à 99% (exemple: 0,9%±0,6% soit 0,3% à 1,5%).
- Non-significativité favorable: intervalle de confiance majoritairement bon, exemple 0,4%±0,3% soit 0,1% à 0,7%. Il n'y a pas de conclusion statistique avec la confiance considérée, par exemple 95%. Il est possible que l'étude soit probante en significativité positive à confiance 80% (exemple: 0,4%±0,05% soit 0,35% à 0,45%). Pour devenir probante à 95%, l'étude devrait être refaite sur davantage d'individus, pour diminuer l'intervalle de confiance (dans l'espoir d'obtenir une significativité positive à 95%).
- Non significativité défavorable: intervalle de confiance majoritairement mauvais, exemple 0,9%±0,6% soit 0,3% à 1,5%. Il n'y a pas de conclusion statistique avec la confiance considérée, par exemple 95%. Il est possible que l'étude soit probante en significativité négative à confiance 80% (exemple: 0,9%±0,3% soit 0,6% à 1,2%). Pour devenir probante à 95%, l'étude devrait être refaite sur davantage d'individus, pour diminuer l'intervalle de confiance, avec une grande majorité de chances d'aboutir à une significativité négative genre 0,9%±0,3%. Il n'est pas complètement impossible que ce re-test débouche sur une non-significativité favorable genre 0,4%±0,3%, et il faudrait alors refaire l'étude sur un nombre encore plus élevé d'individus, dans l'espoir d'obtenir une significativité positive genre 0,4%±0,05%.
    Parfait, c'est pleinement cohérent (du moins en première analyse, sans envisager le doute qui pèse sur la modélisation déterminant les intervalles de confiance).
• RÉSULTAT MALHONNÊTE: Le résultat est une non-significativité défavorable (0,9%±0,6%) ET il est conclu que le critère d'acceptation a été atteint (puisque le taux limite 0,5% est inclus dans l'intervalle de confiance à 95%)… Horreur! Il aurait fallu conclure non pas positivement mais dire qu'il faudrait refaire une étude sur beaucoup plus d'individus, avec un résultat négatif probable au bout. Sans se donner cette peine, sans affronter ce risque, sans remplacer le 0,5% de la notice par 1,5% (ce qui permettrait d'être effectivement en sigificativité positive), le produit est accepté à tort sur base d'un résultat hors-tolérance dont seul un petit bout de l'intervalle de confiance recouvre la zone d'acceptabilité. Il est malhonnête de ne citer comme seul chiffre de confiance que 95% quand l'ensemble des cas acceptables a ainsi seulement une probabilité >2,5% (l'intervalle de confiance bilatéral à 95% n'écarte que 2,5% vers le vas et 2,5% vers le haut). Il n'y avait pas de conclusion à confiance 95%, et peut-être une sigificativité négative (déclarant le produit mauvais) à 80%. A priori, le résultat le plus probable est ici un taux 0,9% inacceptable, le taux de 0,5% (ou moins) qui est acceptable n'est pas impossible mais aussi peu probable que le taux de 1,3% (ou plus) qui est totalement inacceptable (d'après le protocole de départ).
    Si l'on jouait ce jeu de fausse validation jusqu'au bout, on pourrait accepter rigoureusement n'importe quoi, y compris l'arsenic: avec un taux d'effet secondaire de 50% assorti d'un intervalle de confiance à 95% de ± 10% soit 40% à 60%, et de confiance à 99,999999% de ±49,51% soit 0,49% à 99,51%, le taux 0,5% serait "démontrable" en prétendant à une confiance, certes pas de 95%, mais de 99,999999% ce qui est encore mieux! C'est simplement absurde, insensé, mathématiquement faux, indéfendable. Preuve par l'absurde avec le plutonium: avec un taux de mortalité de 99,99% assorti d'un intervalle de confiance à 95% de ±0,01%, et un intervalle de confiance à 100% qui est infini (par principe de modélisation gaussienne ou autre), le taux de mortalité 0,5% (ou n'importe quel autre) serait "démontrable" en prétendant à une confiance 100% parfaite. Eh bien non, c'est une confiance 0%, et il n'y a même pas de démonstration en fait puisque les statistiques ne sont pertinentes que pour rejeter des hypothèses, non en démontrer.
    Cette affaire est plus grave que de prétendre démontré un 0% d'effet secondaire parce qu'il serait situé dans l'intervalle de confiance. Ici, une hypothèse alternative avait été formulée et il était possible de la rejeter pour conclure effectivement, positivement. Mais les principes statistiques ont été violés pour qu'un résultat pire que la limite à rejeter soit accepté, à la grande satisfaction des aveugles donneurs d'ordre et gestionnaires demandeurs. C'est simplement un illogisme absolu, oubliant la première leçon de principe sur les tests statistiques ("non-significativité = pas de conclusion statistique"), niveau Bac+1 (théoriquement bien assimilée par les biologistes et qualitologues qui se targuent de niveau Bac+5 ou +9, avec haut salaire en proportion de ce "haut-mérite", cette "supériorité" intellectuelle…) Et on fait taire, évidemment, le petit technicien qui percevait l'erreur lourde, on lui dit qu'il faut faire confiance aux professionnels, et que l'hyper-pointillisme mathématique est déplacé, la biologie/médecine étant le domaine de la variabilité tous azimuts et de l'approximation raisonnable.
    Comme les auditeurs/inspecteurs sont généralement focalisés sur la perfection administrative, ne connaissant rien aux mondes technique ou mathématique, même élémentaires, il est vrai que le risque de sanction pour l'entreprise est minime ou nul. Il se trouve simplement que cela discrédite le monde universitaire technique (qui a diplômé des mémoires dénuées de la moindre once de lucidité) et le monde de l'entreprise scientifique (prêt à entériner n'importe quoi pourvu que cela tienne lieu de validation et assure le succès commercial).
    Il ne faut pas s'étonner que le petit technicien anormalement lucide refuse les responsabilités intermédiaires de petit chef transmettant les ordres et dénonçant les avis rebelles, refuse de s'investir dans cette mascarade visant le profit pécuniaire. Se limiter à un rôle d'exécutant manuel, de machine en location, est plus tranquille, quoique peu confortable, matériellement (pour un handicapé physique partiel) et intellectuellement (pour un idéaliste percevant les problèmes et leurs solutions).

Page initiale, contexte
Cas d'école