Amélioration indispensable de la norme ISO 16140:2003
17/02/2010, par A.Nonim petit employé manuel de la Soci-été Autone-Yvère

    Je me sens sauvé: j'ai appris que la norme ISO 16140, référence Qualité officielle internationale (Microbiologie des aliments - Protocole pour la validation des méthodes alternatives), allait être révisée, avec une nouvelle approche statistique. C'est donc très positivement, pour correction/amélioration, que je peux énoncer ma démolition de l'erreur ancienne.
    Dans les calculs de l'annexe R (2003), on cherche à rejeter l'hypothèse de non-linéarité (après avoir pareillement cherché à rejeter la linéarité biaisée sur y = bx+a au lieu de y = x voulu), mais le seul but (inavoué hors des formules mathématiques) est de "ne pas rejeter" l'inverse. Statistiquement et logiquement, si c'est obtenu, la conclusion sera donc: "un défaut de linéarité n'a pas pu être établi avec risque de première espèce <5% : l'échantillon était trop petit pour y parvenir, ou trop bruité par la variabilité, ou bien c'est linéaire". Autrement dit : il n'y a aucune conclusion probante, la linéarité n’est nullement prouvée. S'il semble y avoir plus de 5% de chances que ce soit linéaire (en supposant que l'échantillon est parfaitement représentatif), ça ne démontre en rien la linéarité (une probabilité >5% ne vaut pas du tout validation, ne pas confondre avec probabilité >95%). Cela autorise certes l'hypothèse de linéarité mais avec risque <95% (pas <5%). Et en oubliant la non-représentativité possible de l'échantillon examiné, bref le risque total est un peu inférieur à 100%... tout en faisant croire que le risque est <5% (ce qui n'était le cas qu'en rejet, que l'inventeur d'alternatif en test espérait bien ne pas subir). Une telle « démonstration » mérite davantage la poubelle ou le procès qu’un prétendu dossier de validation. Et il ne s’agit pas d’un débat de très haut vol entre experts mathématiciens renommés, mais d’une énorme évidence accessible à tout étudiant biologiste ayant découvert en quinze minutes le principe des tests d’hypothèses. [Ce problème, que j’ai détecté, choqué, sur un autre sujet industriel en 1984-85, ma première année de travail professionnel, est resté totalement sans réponse pendant 25 ans, de la part des services biomathématiques professionnels, embarrassés, reconnaissant à demi mot que « si on revient au principe, certes… mais ce qui se fait, c’est…»].
    Le vocable rhétorique "comparable" (à la place de "égal") embrouille le tout, cachant l'erreur, mathématiquement avérée. Bien des méthodes (alternatives par rapport à la référence) ainsi « prouvées comparables avec risque <5% » peuvent être assez facilement « prouvées différentes avec risque <5% » sur la grande répétition d’échantillons jumelés (exemple : aliments broyés congelés en 50 ou 100 aliquotes), certains groupes se confirmant systématiquement différents avec les deux méthodes. Ce n’est nullement une contradiction apparente entre deux approches valides, c’est que l'approche officielle était absurde.
    Une "validation par non significativité" ne vaut rien. Si le seuil 5% (sur le risque de première espèce = rejet à tort) est mentionné, et peut faire l'objet d'un consensus, c'est uniquement en significativité c'est à dire en rejet de l'hypothèse "alternatif = référence" (risque 10% trop rejetant, 1% trop peu rejetant). En non-significativité, la tolérance s'élargit quand le risque de première espèce diminue : si on exige quelque chose d'extrêmement significatif pour rejeter, on va accepter beaucoup trop, et avec « risque nul » (de rejet à tort), on accepterait n'importe quoi, y compris le pifomètre et le thème astral (du laborantin ou transporteur d’échantillon). Cela n'a rien à voir avec le risque d'erreur quant à l'énoncé "alternatif = référence", et encore moins avec la proportion de cas n'obéissant pas à cette égalité. [D'où le mauvais procès de la part de cadres incompétents, déclarant que le subalterne critique n'a rien compris à la qualité statistique "visant le >95% et bien sûr jamais le 100%" – non, ici, on fait passer un >5% pour un >95%, c'est totalement différent. Mais certes, les diplômes scientifiques en récitation et ambition socio-financière ne valent pas certificats de logique, d'intelligence critique.]

    Positivement, il faut énoncer l’hypothèse alternative de différence minimale effectivement rejetable significativement. Il faudrait raisonner ainsi : on ne prétendrait plus du tout à un caractère « comparable prouvé », mais on prétendrait faire « mieux que telle erreur chiffrée » (courbe : fréquence estimée en fonction de l'ampleur d’erreur). Ce serait une démonstration par significativité (avec risque de seconde espèce), après que l’égalité n’ait pas été exclue (avec risque de première espèce). Cela deviendrait enfin statistiquement honnête, même si c'est commercialement douloureux à avouer.
    Le déposeur de dossier serait d'ailleurs parfaitement libre, devant des valeurs d’erreur inavouables, de conclure : "c'est trop bruité, complétons par un échantillon bien plus grand". La taille d'échantillon ne serait alors plus un diktat mystérieux mais un compromis entre médiocre approximation peu coûteuse et fine détermination chère, celle-ci pouvant soit éviter une fausse accusation, soit révéler un problème caché (ce n'est pas le plus riche qui validera le plus). On deviendrait statistiquement cohérent.

    Espérons que la nouvelle norme ISO 16140 suive ces principes très élémentaires, en bannissant à jamais les "validations par non significativité à risque de 1e espèce <5%", qui étaient stupides ou/et malhonnêtes.

------------------------------------------------------------------------------
Addition (23/02/2010) : complément mathématique sur un exemple virtuel

    Il se trouve que je suis plus matheux que la moyenne, et je serais à même de répondre si on me rétorquait : « s’il y a 6% de chances d’obtenir ceci sous hypothèse que c’est bon, ça n’a AUCUN rapport avec l’idée qu’il y a (seulement) 6% de chances que c’est bon ! »
    Donc je réponds en deux parties :

1/ Sens logique
– Si on concluait « 6% n’est pas < 5% donc il y a > 95% de chances que c’est bon », on pourrait accepter n’importe quoi prétendu bon : face à un résultat catastrophique 0,2% ne permettant plus du tout de dire « > 95% de chances que c’est bon », il suffirait de changer le risque, car « 0,2% n’est pas < 0,1% donc il y a > 99,9% de chances que c’est bon », encore mieux ! Et cætera, en acceptant même le très très mauvais, on prétendrait que "il y a > 99,999999% de chances que c’est bon", ce qui est absurde, faux.
– Une approche qualitativement logique (mais à confirmer mathématiquement) consiste à dire au contraire : 6% n’est pas < 5% donc il y a > 5% de chances que c’est bon. Changer le risque reste cohérent : 0,2% n’est pas < 0,1% donc il y a > 0,1% de chances que c’est bon, ce qui est un cas encore moins satisfaisant que le précédent, effectivement. Et cætera, le très très mauvais ne serait « acceptable » qu’en annonçant qu’il y a > 0,000001% de chances que c’est bon, ce qui n’a absolument rien d’une validation. Et même le > 5% ne vaut pas validation.

2/ Valeur chiffrée
    Le dernier mot revient je crois aux probabilités conditionnelles : p(A/B), se lisant « probabilité de A sachant B ». J’appelle H0 l’hypothèse nulle (« c’est bon », y = x, « méthode alternative = méthode de référence ») et R le résultat qui a été obtenu sur l’échantillon.
    La loi de calcul est p(A/B) = p(A et B) / p(B) = p(B/A) × p(A) / p(B)
    Ici H0 et non-H0 sont a priori équiprobables donc p(H0) = 50% a priori. A l’extrême, en ne prenant pas en considération non-H0, on aurait p(H0) = 100% donc au total p(H0) = 50% à 100% ; par ailleurs, le résultat ayant été obtenu, on a p(R)= 100%. L’exemple pris ici est p(R/H0) = 6% et on cherche la probabilité que « c’est bon » sachant le résultat R :
    p(H0/R) = p(R/H0) × p(H0) / p(R) = 6% × (50% à 100%) / 100% = 3% à 6%, pas du tout > 95%…
[Idéalement, un calcul bayésien serait aussi effectuable, faisant intervenir p(R/non-H0), mais non-H0 est multiforme, de la plus infime différence à la plus énorme, avec autant de probabilités distinctes].
    Bref, l’accusation « AUCUN rapport » est démontrée fausse, l’approche logique est confirmée juste, à peine retouchée : 6% obtenu n’est pas <= 5%, d'accord, alors il y a 3% à 6% de chances que c’est bon (et pas du tout > 95%). ISO 16140:2010 (ou 2011) ne devrait plus reproduire l'erreur totale d'approche.

----------------------------------
Mise à jour (triste) fin 2013 (23 NOV 2013).
    Finalement, la norme ISO 16140 n’a pas été revue, mais est paru le supplément A1 d’Août 2011 corrigeant certains points. Je l’ai acheté à titre personnel, à la maison, ce jour, et vais ici le discuter :
* page 12/29 : « Il convient par conséquent de vérifier la normalité de la distribution de ces données ». C’est une vérification par non-significativité, valant mise directe à la poubelle… (classiquement opérée avec risque de première espèce 5%, alors qu’avec risque tendant vers zéro on se mettrait à accepter n’importe quoi, accepter à tort là est le problème). Il faudrait vérifier qu’une autre courbe en cloche, genre sinus puissance 8 corrèle significativement moins bien aux données. Pas un mot sur ce sujet, bien sûr, c’est tabou (faisant exploser la plupart des pseudo-démonstrations statistiques).
* page 19/29 : la méthode est dite biaisée si on trouve la valeur t supérieure à 2. Comme d’habitude, il s’agit d’exclure le biais significatif (sans mentionner la valeur de risque de première espèce choisie, qui plus est), et s’il n’y a pas significativité, la méthode est validée. C’est bien de la validation (fautive) par non-significativité : rien n’a changé, au fond.
* page 20/29 : des indicateurs sont considérés significatifs, d’écart-type (répétabilité et reproductibilité) inférieur [ou supérieur] à la référence si <0,5 [ou >2], et l’exemple E.coli donné plus loin conclut : « pas < 0,5 ni > 2 donc sensiblement égal ». C’est là encore la fausse démonstration d’égalité (quasi-égalité) par non-significativité. Poubelle.
* Bilan : la norme « corrigée » en 2011 égare un peu plus le profane en prenant 2 indicateurs méconnus (de Rousseeuw et Mandel), mais ne change rien à l’erreur de fond, lourde : il s’agit de validation par non-significativité en prétendant pourchasser la significativité (seulement), donc avec faible risque de première espèce (non mentionné, sauf pour le rejet des laboratoires aberrants : 5% et 1%). En fait, en faisant tendre vers zéro ce risque de première espèce, on accepterait n’importe quoi, le risque est donc contraire : le risque d’acceptation à tort varie en sens inverse du risque de rejet à tort. On en reste à une confiance > 5% ou > 1%, en faisant croire > 95% ou > 99%. Hold up commis par l’industrie. La méthode alternative sera déclarée sensiblement égale, exempte de biais, alors que si l’on se centrait sur les pires discordances, on pourrait démentir qu’il s’agit d’aléa malencontreux mais qu’il s’agit (parfois) de discordances reproductibles (prouvant la non-égalité), d’où invalidation statistique vraie, par significativité, de méthodes à tort validées par non-significativité…
* Réserve « positive » : Comment valider une méthode alternative alors ? Il s’agirait à mon avis de garantir un taux de discordances inférieur à tant, et d’obtenir un taux significativement plus bas (exemple : garantir 5% maximum de discordances supérieures à 1 log10 et obtenir avec risque de première espèce 5% un intervalle de confiance 0,37%-3,14%). Validation par significativité, ce n’est pourtant pas une invention géniale, mais le pur principe statistique, cela ferait simplement moins accepter de méthodes alternatives (ou cela ferait rejeter bon nombre de celles mal validées). Par ailleurs, les méthodes validées seraient moins présentables, ne garantissant nulle égalité (approximative) à la référence mais seulement un taux de discordances mieux que tel chiffre (sur un vaste échantillonnage, en espérant que le futur ressemble au passé, sans garantie aucune, la logique pure fait mal, oui)… On comprend donc la forte pression marketing, sous laquelle se sont couchés les mathématiciens, pour faire n’importe quoi (pour faussement valider sous des montagnes de complexités impressionnantes) – ici comme ailleurs, certes. C’est de la fraude para-scientifique, organisée. J’attends de pied ferme un démenti mathématique à ce que j’affirme, solidement je crois.

------------------------------
Au cas où je sois assassiné... (26 NOV 2013)
Chef,
    J'ai du mal à imaginer le sujet de la réunion que tu veux organiser avec les BioMaths. J'imagine les biomatheux hurler "qui es tu pour oser nous accuser de fraude, quels sont tes diplômes en stats, toi?".
    Je me vois donc contraint de réexpliquer, une ènième fois, la pure logique montrant leur faute lourde.
    Le sujet de la réunion serait "les validations par non-significativité" (sous-entendu "le scandale des validations par non-significativité"). Je présenterais le problème :
On dit biaisés les produits évalués donnant "ratio alternatif/référence (R) < 0,5 ou bien > 2"
- produit XX : R 1 (intervalle de confiance à 95%: 0,9 à 1,1) --> le produit XX est accepté, pas de problème, les limites du mauvais (0,5 et 2) sont significativement rejetées (avec risque <5% de se tromper, et même <1%)
- produit YY : R 2,1 (intervalle de confiance à 95%: 1,9 à 2,3) --> le vrai statisticien dit qu'il n'y a pas de conclusion, pas assez de valeurs ; le "valideur par non-significativité" dit au contraire que cet intervalle recouvre une partie de la zone bonne, donc YY est accepté "avec risque de se tromper < 5%" ; là, moi je hurle au mensonge, dans le désert. On me rétorque que ce que je dis ce n'est pas vrai (MP), que je marche sur la tête (DM), que nos produits sont bons peu important les chiffres (SC), que c'est une pure affaire de bioMaths n'intéressant pas les biologistes (CF), que je me mets en danger (ma "carrière"? ma vie ?) en disant ça devant tout le monde (AC)... Ah bon, alors continuons :
- produit ZZ : R 4 (intervalle de confiance à 95%: 3 à 5) --> le "valideur par non-significativité" concède que ce n'est pas bon, et y voit la preuve de son honnêteté. Erreur : l'intervalle de confiance à 99,999% s'élargit en 1,9 à 6,1 donc la logique (fausse) appliquée pour accepter YY devrait conduire à prétendre que c'est accepté avec risque < 0,001% de se tromper ! C'est absurde et avez risque prétendu nul, l'intervalle de confiance s'étend à l'infini, et on accepterait absolument n'importe quoi, prétendu "prouvé bon".
    C'est faux. Les stats n'ont pour fonction que de rejeter des hypothèses improbables, pas de valider. Ici, ZZ devait être rejeté avec < 5% de chances de se tromper (et même < 1%), et YY devait conduire à dire : pas de conclusion au risque 5% donc il faut davantage de valeurs ; avec 16 fois plus de valeurs, l'intervalle de confiance à 95% serait restreint en 2,05 à 2,15 d'où rejet (du produit YY, prouvé mauvais). Quand un résultat est non-significatif, il n'y a pas d'autre conclusion valide que "nombre de réplications insuffisant, étude à compléter" (ou "étude non probante, pas de conclusion statistique").
- Pour le produit WW, il nous a été présenté le résultat non-significatif comme une victoire, en ajoutant qu'au vu de cela, la prochaine validation se ferait sur un nombre encore plus réduit de valeurs - c'est là une double erreur.
    Pourquoi les bioMaths de notre société pratiquent-ils donc la validation par non-significativité qui est une erreur ? (présente dans les normes internationales ISO certes, mais nous pouvions le dénoncer sur la place publique). Seule explication que je vois : le consensus des industriels pour la validation malhonnête du "un-peu-mauvais pas-prouvé-très-mauvais donc prétendu-prouvé-bon, et pour pas-cher". C'est effectivement bon pour les bénéfices, c'est bon pour les actionnaires, c'est simplement de la fraude, organisée. Non ? (Les grands discours sur l'honnêteté et la qualité seraient totalement insupportables, auto-contradictoires - d'où ma terrible souffrance/culpabilité, avec le sentiment de corruption par mon salaire m'imposant de ne pas révéler le nom de l'industriel en question).
    Je précise que je suis sous anti-psychotiques depuis des années, et les psychiatres claironnent qu'il faut extérioriser ses sentiments, les expliquer, pas garder tout à l'intérieur au risque d'exploser. Que je parle ici est en effet pour moi une façon de diminuer le risque d'immolation par le feu sur mon lieu de travail. C'est là mon sujet, auto-thérapeutique, mais si mon employeur est honnête, le sujet soulevé mérite action corrective lourde et courageuse... (je crois, je l'ai prouvé).

------------------------------
Etouffer sans tuer, simplement (30 NOV 2013)
    L'entrevue s'est bien passée, finalement, en concédant que ce que je dis est mathématiquement et logiquement indiscutable. Mieux sera fait à l'avenir, chez nous tout au moins, même si nos concurrents et ISO/FDA/Pharmacopées pourront ne pas suivre. 2 réserves toutefois :
- Ce que je qualifie de fautes passées est classé en "imperfections d'expression dans les rapports" : avoir dit que "c'est non-significatif avec risque d'erreur (de première espèce) inférieur à 5%" était juste, il aurait seulement été plus pertinent d'ajouter (pour les décideurs, les évaluateurs, les autorités, les clients) ce que ça signifie : "donc on peut dire que le produit est bon avec un risque inférieur à 95%, oui-oui 95% pas 5%, et même 97,5% pour tel produit à tolérance unilatérale"...
- Je suis convoqué pour visite médicale la semaine prochaine. On va me classer déprimé ou fou, sans doute, pour enterrer mes remises en question. Sans faire d'étude d'impact sur les produits validés à tort, sans les retirer de la vente bien sûr. Et je toucherai le treizième mois statutaire, fruit de ce "talent" gestionnaire... Je souffre, malgré les médicaments.
------------------------------
Espoir ? (01 DEC 2013)
    Bonne surprise au courrier aujourd'hui : Afnor, à qui j'ai acheté la norme, me demande ce que j'en pense*, et si j'accepterais d'être recontacté pour en parler (OUI !!), si j'accepterais de participer à sa révision (euh, oui, si c'est par courier, pas en commission à Paris où triomphe le plus fort en gueule). Mais, sur le principe, c'est chouette qu'ait lieu cette enquête avec proposition de correction. On verra.
* : leur formulaire a un utilitaire de sauvegarde qui ne fonctionne pas (j'ai réessayé trois fois) mais je vais essayer de me souvenir de mes réponses :
- Le document ne comporte pas d'ambuguïtés : pas du tout d'accord (les chiffres de tolérance sont parachutés sans aucune explication de sens)
- Le document n'est pas dépassé : pas du tout d'accord (les validations par non-significativité sont un archaïsme absurde - avec risque prétendu nul on accepterait n'importe quoi)
- Globalement le contenu du document est : pas du tout satisfaisant (1/ Préciser le risque d'erreur choisi ; 2/ Ne plus jamais valider par non-significativité, c'est aberrant ; 3/ Justifier le nombre de réplications employé, et imposer de l'accroître en cas de résultat non significatif).
------------------------------
Danger (05 DEC 2013)
    On m'a dirigé vers un article critiquant les statistiques telles qu'elles sont pratiquées (http://passeurdesciences.blog.lemonde.fr/2013/11/13/une-etude-ebranle-un-pan-de-la-methode-scientifique/) car cela conduit à des résultats peu reproductibles. Peut-être mais attention : le scandale numéro un n'est pas que la recherche publique valide avec des significativités à <5%, au lieu des <0,1% voulus par cet auteur, il est que l'industrie valide avec des non-significativités à <5% (risque en fait <95%), et le passage aux 0,1% serait de ce côté une aubaine... Avec non-significativité à 0,1% on n'accepterait pas que le "un peu mauvais" (prétendu prouvé bon), on accepterait aussi le "franchement mauvais", pour ne rejeter que le très très mauvais. J'admets être paranoïaque, mais si le chercheur prônant le 0,1% est subventionné par l'industrie, je flaire une arnaque énorme.
    J'ai préféré lire sur Internet un article sur les erreurs statistiques (http://www.h2mw.eu/redactionmedicale/2011/11/CMJ%2020%20stat%20errors_T%20Lang_2004.pdf), celle qui me choque étant la n°17 là : "une non-conclusion n'est pas un résultat négatif" (en différence avec tel modèle), "une absence de preuve n'est pas une preuve d'absence" (de différence avec tel modèle). Cela me paraît si évident qu'il aurait été très étonnant que je sois seul au monde à le percevoir. Ou le seul encore en vie ?
    J'ai aussi creusé la démonstration de linéarité par test de "lack of fit" (http://physiologie.envt.fr/spip/IMG/pdf/Validation_ex3.pdf), et ce que je craignais se confirme : ce test ne démontre en rien la linéarité, il ne démontre que la non-linéarité s'il est significatif. Exemple : F mesuré = 8, pour 2 maximum à 5% et 7 maximum à 0,1%... Eh, même ce 8 serait accepté si on parlait de risque à 0,000001%, c'est idiot : plus on dit restreindre le risque, plus on accepte n'importe quoi ! En fait, c'est le risque en refus de l'hypothèse nulle, et s'il n'y a pas refus, il n'y a aucune conclusion. Mais non, les normes ISO et pharmacopées ne l'ont pas compris, semble-t-il, avec moult bénéfices à la clé, millions de dollars pour les patrons et actionnaires, incompétents ou stupides ou sciemment voleurs.
------------------------------
Confirmation triste (08 DEC 2013)
    On m'a suggéré de discuter de tout ça sur des forums Internet de mathématiques, et je viens d'essayer.
– Loin de déceler une erreur dans ce que je dis, on m'a rabroué en me disant que j'enfonce des portes ouvertes, qu'il s'agit d'erreurs très connues, anti-statistiques plutôt que statistiques.
– Il est notoire que les industriels veulent éviter le rejet par erreur et aiment bien l'acceptation par erreur (si c'est à leur bénéfice sans cascade de réclamations gênante). Mais les clients sont complices pour avoir des produits moins chers. Clients et industriels s'accordent donc sur les normes, même fautives. Cela n'a rien à voir avec les sciences exactes que sont les mathématiques. Seul le formalisme difficile sert à éloigner les curieux, à faire savant, à se prétendre (à tort) incontestable...
    Outch, le bilan est comme un coup supplémentaire à l'estomac.