Une non-significativité « tolérable »
par Meusan Antifromaj, 2013/12/14-22

   Ma plus grande conviction mathématique est que les « validations par non-significativité » (de normalité, de linéarité, d'égalité, peut-être d'inoquité ?) sont une idiotie grave : avec risque prétendu nul (ou tendant vers zéro), elles feraient accepter n’importe quoi, même le faux et le dangereux, au nom de l’incontestabilité mathématique. Au plus grand bénéfice des patrons et actionnaires, mais en ruinant la santé publique (et les finances publiques) et en offusquant mon sens de l’honnêteté intellectuelle.
   Toutefois, j’ai rencontré un cas où une non-significativité est préconisée pour une bonne cause cachée, me semble-t-il, et je me devais de le reconnaître. Il s’agit des Guidelines 2009 (encore en usage fin 2013) de la Food and Drug Administration américaine sur l’antibiogramme, table 8 sur les Erreurs Très Majeures (préconiser un antibiotique qui en fait ne marchera pas).
   La phrase fautive revient à dire que « l’intervalle de confiance à 95% doit contenir le taux 1,5% d’erreurs très majeures » (VME : Very Major Errors). Ma première réaction a été : « Hé ! C’est (comme d’habitude) idiot : en préconisant 99,9999% de confiance, on accepterait les mauvais tests refusés à 95%... ».
   MAIS, très bizarrement, le texte exige aussi que l’intervalle de confiance à 95% n’atteigne pas le taux 7,5% d’erreurs très majeures. Ce taux inusuel est étrangement haut (environ 1 erreur très majeure sur 13 résistances), pas davantage expliqué/justifié que le 1,5%, toutefois la démarche statistique est là sensée : il s’agit de rejeter significativement le taux fautif de 7,5%, et si on y parvient même à 99,9999% au lieu de 95%, c’est tant mieux.
   Imaginer mathématiquement l’explication (ou une explication plausible) a été captivant, mais cela intéressera peu de monde. Je le détaillerai en annexe. Ce qui s’est passé à la FDA semble en fait un quintuple mouvement bizarroïde :
A) « Choix classique » du seuil biologique 5%.*
B) « Calcul normal » des intervalles de confiance dans les études Validation, faisant émerger la valeur <7,5%.
C) « Perception d’inconvénient » : les grosses études (chères, réservées aux gros labos) tendraient à valider des chiffres maxima tendant vers 7,5%, ce qui n’était pas du tout le but voulu, puisque l’on voulait a priori moins de 5%. Alors a été inventé le critère du 1,5% pour « ancrer à gauche » l’intervalle de confiance. Oui, c’est une non-significativité aberrante, avec une « confiance statistique » qu’il ne faut surtout pas accroître car cela donne des acceptations à tort, mais c’est simplement un artefact requis (parmi d’autres possibles) pour éviter l’acceptation de mauvaises performances.
D) « Perception d’aberration » : il a été compris l’idiotie des formules gaussiennes symétriques pour cet intervalle de confiance, faisant disparaître la raison d’être du 7,5%. Mais pour ne pas fausser la concurrence, il a été conservé l’ancien double critère (du 7,5% significatif et 1,5% non significatif). Sans explication formulable.
E) « Auto-blocage » : il aurait été plus compréhensible d’en revenir à une exclusion significative du taux 5%, mais cela aurait de nouveau favorisé les gros labos tendant à valider à 4,9% – alors que la double norme artificielle donne un optimum industriel (rejetant un minimum) à 3,7% = 7/190 (et en augmentant très fortement la taille d’effectif, le labo se pénaliserait lui-même, tendant à devoir rendre 1,5% maximum de VME).
   Toutefois, une solution "scientifique" serait d'exprimer en clair qu'on veut maintenant faire mieux que 3,8% (choisi pour raison historique), et les grosses études tendraient vers le 3,7% expliqué. Il n'y a pas de raison objective à rejeter davantage les grosses études, qui apportent la connaissance maximale sur les performances. Bref, la situation (passée et actuelle, peut-être future) est aberrante mathématiquement, industriellement, et il est regrettable que cela soit étouffé, au lieu d'être avoué et expliqué. C'est ainsi que fonctionne hélas la science officielle, sous forme militariste avec pouvoir de conviction très exactement nul, et autorité imméritée des prétendus experts.

* : Réserve : le « principe de précaution » voudrait évidemment 0,00% de VME, pour sauver les malades graves, hélas la qualité totale n’existe pas, et il faut faire des choix. Nous ne sommes pas au pays des Bisounours et la chasse frénétique à la moindre VME ne tient pas : l’éthique interdit de sacrifier « des esclaves » pour un antibiogramme humain in vivo ; avec rats de laboratoire l’éthique serait aussi questionnée, le résultat long à obtenir, la corrélation inter-espèce médiocre ; les VME se définissent donc in vitro, par simple comparaison à une méthode artificiellement prise pour référence. Or cette méthode de référence peut changer (la BMD a ainsi remplacé l’AD), elle s’avère imparfaite de toute façon (en reproductibilité, en corrélation avec l’in vivo, en lourdeur et donc en coût).
(*) Réserve bis : il pourra être jugé « choquant » de traiter les erreurs très majeures d’antibiogramme comme une devinette mathématique. Toutefois, la para-pharmacie analytique, comme la pharmacie, est une complexe affaire de gros sous et de santé publique. Une VME peut tuer mais les sommes allouées à la santé ne sont pas infinies, et le système anti-capitaliste (soviétique) ne brillait pas spécialement par ses performances médicamenteuses. Cela conduit à choisir un compromis, financièrement acceptable, visant une qualité raisonnable. Des comités (à but non-lucratif) visent à parfaire la situation, à faire front face aux nouvelles menaces microbiennes, et les mathématiciens sont mis à contribution, sans que leur incombe la responsabilité première, médicale. Il est simplement dommage, très dommage, que ces biomathématiciens cachent leurs logiques (et fautes logiques) derrière des chiffres parachutés sans explication.
   Meusan

Annexe :

A) Le choix classique en biologie est un risque inférieur à 5%, une confiance supérieure à 95%, et la symétrie tend souvent à considérer de chaque côté de la moyenne un taux inférieur à 2,5% (ou supérieur à 97,5%).

B-C) Valeurs « normales » de Gauss :
VME 0/N -> taux 0% ; Intervalle de Confiance à 95% (IC) 0% à 0% aberrant
VME 1/20 -> taux 5% ; IC -4,552% à 14,552%
aberrant : nombre de souches négatives sur une portion du domaine
inacceptable : presque jusqu’à 15% de VME possible
VME 1/39 -> taux 2,564% ; IC -2,397% à 7,525% refusé aussi
VME 1/40 -> taux 2,5% ; IC -2,338% à 7,338% premier cas accepté
VME 1/41 à 1/1000 etc. -> taux < 2,5% ; IC aussi < 7,5% d’où choix de cette requête IC excluant 7,5% (à rejeter significativement).
VME 2/64 -> taux 3,125% ; IC -1,138% à 7,388% premier cas accepté avec 2 VME (2/63 refusé car IC dépassant 7,5% ; 2/65 à 2/1000 etc. acceptés a fortiori).
VME 3/85 ; VME 4/105 ; VME 5/124 ; VME 6/143 ; VME 7/161 -> premiers cas acceptés avec 3 à 7 VME (IC à peine inférieur à 7,5%)
VME 8/179 -> taux 4,469% ; IC 1,442% à 7,496% dernier cas « naturel » où le premier cas accepté ne se heurte pas au seuil des 1,5%
VME 9/197 -> taux 4,569% ; IC 1,653% à 7,484% refusé à cause du critère de non significativité requise pour le 1,5%
VME 9/217 -> taux 4,147% ; IC 1,495% à 6,800% premier cas accepté avec 9VME et le critère de 1,5% ; puisque ce taux 4,2% est inférieur aux 4,5% de 8/179, ce 8/179 est l’optimum industriel (acceptation avec le moins de qualité requise)
VME 10/215 et 1000/14130 -> taux 4,651% et 7,077% ; IC ‘1,836% à 7,466%’ et ‘6,654% à 7,49998%’ ; cas suivants refusés uniquement par le critère 1,5% ; on voit que plus l’étude grossit plus aurait été accepté un taux proche de 7,5%, ce qui n’est pas conforme au souhait <5%
VME 10/262 et 1000/626568 -> taux 3,817% et 1,598% ; IC ‘1,497% à 6,137%’ et ‘1,49999% à 1,697%’ ; premiers cas acceptés avec VME > 9, requérant des taux abaissés donc des performances supérieures pour l’acceptation, l’optimum industriel restant donc à 8/179
VME 0/39 -> au pire avec 1 VME en 40e souche résistante, cela donnerait 1/40, donc 0/39 pourrait être le premier cas acceptable malgré l’absence de réponse gaussienne.

D) Valeurs binomiales de béta-inverse :
VME 0/48 -> taux 0% ; IC 0% à 7,397% premier cas accepté
VME 1/72 -> taux 1,389% ; IC 0,035% à 7,497% premier cas accepté avec 1 VME ; grand saut par rapport aux 1/40 gaussiens
VME 2/94 ; VME 3/114 ; VME 4/134 ; VME 5/153 ; VME 6/171 ; premiers cas suivants avec la requête IC<7,5%
VME 7/190 -> taux 3,684% ; IC 1,494% à 7,443% ; optimum industriel (taux plus bas qu’avec le 8/179=4,469% gaussien, donc le changement de formule est à l’avantage de la santé en défaveur du labo)
VME 7/189 -> taux 3,704% ; IC à 95,1% : 1,495% à 7,4998% ; serait meilleur pour le labo (pire pour la santé) si n’était pas requis l’aberrante non-significativité à « surtout pas plus de 95% »
VME 8/207 -> taux 3,865% ; IC 1,683% à 7,473% ; refusé grâce à la requête 1,5%
VME 8/233 -> taux 3,433% ; IC 1,494% à 6,653% ; premier cas accepté avec 8 VME, l’optimum industriel étant donc à 7/190
VME 8/216 -> taux 3,704% ; IC à 96,7% : 1,489% à 7,498% ; refusé grâce à la requête aberrante « pas plus de 95% », l’écart se creuse sur l’impact de cette requête-là.
VME 9/224 et 10/241 et 1000/14154 -> taux 4,018% et 4,149% et 1,597% ; IC ‘1,853% à 7,490%’ et ‘2,007% à 7,498%’ et ‘6,648% à 7,4997%’ ; premiers cas refusés grâce à la requête 1,5%, augmenter N tend effectivement à accepter un taux tendant vers 7,5% hélas
VME 9/277 et 10/322 et 1000/62629 -> taux 3,249% et 3,106% et 1,597% ; IC ‘1,496% à 6,078%’ et ‘1,499% à 5,637%’ et ‘1,49998% à 1,698%’ ; comme avec formules gaussiennes augmenter N conduit à exiger des performances très accrues, avec un taux tendant vers 1,5%, en faveur de la santé et au détriment du labo.
VME 9/243 et 10/269 et 1000/57850 -> taux 3,704% et 3,717% et 1,729% ; IC à 97,7% et 98,4% et 99,999% : ‘1,491% à 7,477%’ et ‘1,497% à 7,492%’ et ‘1,49997% à 1,981%’ ; confirmation des optima très différents si était annulée la requête du « 95% et surtout pas plus ».

E) Valeurs binomiales pour le 5% :
VME 0/72 -> taux 0% ; IC 0% à 4,994%
VME 1/110 ; VME 2/142 ; VME 3/173 ; VME 4/202 ; VME 5/230 ; VME 6/258 ; VME 7/285 ; VME 8/312 ; VME 9/338 ; VME 10/364 -> valeurs premières acceptées, plus sévères que leur équivalent aberrant à non-significativité exigée.
VME 1000/21247 -> taux 4,707% ; IC 4,426% à 4,4999% ; illustration de l’inconvénient : avec d’énormes études on tendrait vers 5% au lieu de viser 3,7% (ou 4,5% gaussien).

F) Valeurs binomiales pour le 3,8% :
VME 0/96 -> taux 0% ; IC 0% à 3,770%
VME 1/145 ; VME 2/188 ; VME 3/228 ; VME 4/267 ; VME 5/304 ; VME 6/341 ; VME 7/376 ; VME 8/411 ; VME 9/446 ; VME 10/480 ; VME 1000/27967 -> taux 0,690% … taux 3,576% ; IC 0,017% à 3,782% … 3,361% à 3,7999%
C'est très faisable, plus exigeant sur petites études à valeur prédictive modérée, ce qui est scientifiquement logique. C'est ce qu'il aurait fallu choisir, à mon avis.