J’ai très envie de suivre la formation statistique « Démontrer l’équivalence (de 2 méthodes analytiques) »
Réflexions sceptiques (pardon) avant stage très souhaitable
par Cmeunier Tudorh, 03-04/01/2020

   Depuis des années, je rêvais de me faire payer par mon employeur (industrie privée biochimique) ce stage chez Cefira, pour un vrai besoin dans mon travail, mais j’ai été mis en invalidité (à 55 ans, jusqu’à la retraite ou mort cancéreuse avant) et ça ne se passera donc pas ainsi. Toutefois je vais essayer ici d’expliquer en quoi c’est un sujet fabuleux, une erreur grave ou une solution géniale (car démontrer statistiquement une différence est facile et simple, mais démontrer statistiquement une équivalence est incroyable, me paraissant faux ou inouï).

Plan :
1/ Questionnaire d’introduction « Faisons Connaissance »
2/ La voie d’équivalence Anova ou autre
3/ La voie Coefficient de corrélation linéaire et la première bissectrice
4/ J’imagine
5/ Réserves

1/ Questionnaire d’introduction « Faisons Connaissance »
   ANCIENNEMENT, j’ai été technicien manipulateur/mesureur dans une étude de validation (en microbiologie automatisée) ayant prétendu démontrer l’équivalence de notre méthode alternative avec la méthode officielle de référence. Les biomathématiciens ont documenté un plein succès et les ventes ont démarré, mais… j’ai démontré (chez moi à la maison) l’erreur logico-mathématique de cette démonstration, qui me choquait depuis le début car illogique. On m’a dit quelque chose comme « tant pis (tais-toi et obéis), c’est comme ça, on ne fait que suivre les procédures officielles ». Ça m’a choqué, mais je me suis tu, acheté par mon salaire, quoique déchiré d’être ainsi complice (avant d’être mis en invalidité pour « fragilité psychiatrique », quand – touché par 3 cancers – j’ai envisagé la position de lanceur d’alerte suicidaire, avec ce sujet et bien d’autres similaires, hum).
   POSITIVEMENT, pour me faire payer le stage éclairant, je n’aurais pas argumenté sur le côté biologique passé mais sur le côté chimique impliquant l’avenir : pour la partie chromatographique de mon travail, je ne savais pas du tout ce qu’il faudrait faire pour prouver (sur chaque molécule mesurée) à un auditeur éventuel que la technique UPLC (ultra hautes performances) que je développe est équivalente à l’ancienne technique HPLC (hautes performances). Si j’étais auditeur, je pourrais casser je crois toutes les voies habituelles.
   PERSONNELLEMENT, je suis un matheux ex-suicidaire, Bac Maths mention Très Bien en 1981 (à l’époque pré-Jospin où ça concernait peut-être 0,05% d’une classe d’âge, parmi 5% suivant cette filière au top), même si j’étais classé « en dépression » depuis 2 ans, n’apprenant plu’ les cours (avec un Q.I. mesuré à 159, il parait qu’on est avantagé, pardon). Cassé sentimentalement, je voulais être mort, mais on m’a dit que je n’avais pas le droit de culpabiliser l’aimée (sans retour) donc il fallait vivre, et j’ai pensé m’enterrer « technicien de labo », sans rapport aucun avec là où je brillais scolairement (et avec mon loisir préféré : le dessin d’avions imaginaires). Dans cette voie, j’ai démontré que des profs de maths se trompaient, mais on m’a dit de me taire sinon ça insulte les grands hommes et le corps enseignant tout entier, alors OK, tristement.

2/ La voie d’équivalence Anova ou autre
   La démonstration d’équivalence microbiologique que j’ai réfutée concernait des matrices où on comptait les germes, la conclusion gagneuse ayant été « notre méthode alternative n'a pas de différence significative avec la méthode de référence ». Cela me semble une erreur totale : démontrer une différence ainsi se fait par comparaison de moyenne, c’est ce qu’on appelle une analyse de variances (AnOVa, variance inter-groupes/variance intra-groupe ou totale), ou sa racine carrée dans le cas de deux groupes, qui s’appelle test du t de Student (à la place du F de Fisher-Snedecor), mais c’est biaisé pour une démonstration d’équivalence. En effet, si les données appariées donnent les nombres « moins deux, zéro, +2 », la moyenne sera dite zéro et il sera affirmé une absence de biais, alors que « moins deux » est une erreur, « +2 » est une erreur, sans biais moyen certes, mais ce n’est pas vrai qu’il y a équivalence si ces « moins deux » et « +2 » sont répétables.
   Par ailleurs, ce que fait l’Anova en matière d’équivalence, c’est échouer à démontrer une différence, à un risque donné. Il est logiquement faux d’en conclure que cela démontre positivement l’opposé d’une différence donc une équivalence, au même risque. En effet, le seuil habituellement fixé est 5%, une différence observée qui n’avait que 2% de chances de se produire par hasard sera déclarée significative (méthode alternative non équivalente à la référence, rejet d’accord), quand une différence observée qui avait 8% de chances de se produire par hasard sera déclarée non significative (faussement dite prouvée équivalente à la référence). Ma réfutation se base sur le changement de valeur du seuil : puisqu’un risque très faible est encore plus rassurant qu’un risque un peu élevé, choisissons 1% au lieu de 5% ; or là, surprise : la méthode rejetée ayant donné 2% mauvais devient alors prouvée bonne avec un risque encore plus faible (1%) ! Et puisqu’un risque (d’erreur) minimal dans la conclusion est bénéfique, il devient souhaitable de faire tendre ce risque vers zéro, mais là surprise : tout devient « prouvé équivalent » même le très très différent, ça prouve l’erreur de principe. C’est une confusion totale, et avec un risque inférieur à dix puissance moins un milliard de milliards de milliards (risque quasi nul), on « démontrerait » que les deux cent mille morts en une minute à Hiroshima le 6 Août 1945 sont décédés de mort naturelle, c’est de la fraude intellectuelle, un mensonge mathématique. C’est confondre le risque en acceptation avec le risque en refus alors qu’ils sont plutôt complémentaires (environ) : ce qu’on appelle risque <5% bon ou mieux <0,1% excellent incroyable (en refus) désigne en fait (en acceptation à tort) quelque chose comme risque <95% nul ou <99,9% certes plus étendu mais nullissime. Ce qui est logique est que seule la significativité apporte conclusion solide, la non-significativité valant non-conclusion (et pas du tout conclusion solide inverse). Un livre professoral en Stats de G.Saporta le disait en clair (en introduction aux tests d’hypothèse) sous la forme « les statistiques ne font que rejeter l’hypothèse nulle, pas prouver l’hypothèse nulle, il faut choisir l’hypothèse nulle comme ce qu’on veut rejeter ». Pour notre technique microbiologique, l’hypothèse nulle était l’égalité, et cela aurait pu rejeter l’égalité (rejeter la méthode alternative à valider) mais c’est une faute d’avoir prétendu que l’insuccès de cela rejette la non-égalité donc prouve l’équivalence validée.
   J'ai lu dans les livres de stats que parfois les spécialistes définissent une hypothèse alternative (H1 en plus de l'hypothèse nulle H0), et l'examiner est dit puissance du test (en plus de confiance du test, vis à vis de H0), mais il y a une infinité d'hypothèses alternatives énonçables, et en choisir une particulière (et la rejeter) ne démontre pas l'équivalence (rejet de toute hypothèse alternative). Impasse ?

3/ La voie Coefficient de corrélation linéaire et la première bissectrice
   J’ai été amené à relire (vers l’an 2010) le protocole de validation chimique (chromatographique) du service « Qualité » que j’avais quitté en 1993, et j’ai été effaré : le principe en était de calculer, avec x = méthode de référence et y = méthode testée, la droite des moindres carrés entre les points de mesure, et affirmer y = x, si (pour cette droite y=ax + b) a n’est pas significativement différent de 1 et b pas significativement différent de 0 (avec coefficient de corrélation r pas significativement différent de 1). C’est la même erreur que ci-dessus : une non-significativité vaut en fait non-conclusion (au sens de : pas assez de mesures pour conclure), et non preuve du contraire comme on le voudrait (équivalence affirmée prouvée). Changer la valeur du risque suffirait à le prouver (Exemple : s’il n’y avait que 0,002% de chances [<<5%] d’obtenir par hasard une valeur aussi éloignée de 0 pour b, très mauvais (rejeté), alors ce serait déclaré très très bon (accepté) avec seuil 0,001%, c’est absurde de la part d’un enfant, ou idiot de la part d’un adulte, ou menteur de la part d’un matheux professionnel).
   Certes, on apprend à l’université que le coefficient de corrélation linéaire est probant en significativité s’il est proche de 1, pas en « succès de non-significativité », mais de quoi s’agit-il ? En fait, on ne fait que tester l’hypothèse nulle d’indépendance totale entre x et y, avec nuage de points épars n’importe comment. Rejeter significativement cela ne prouve pas qu’on suive bien une droite mais qu’il ne s’agit pas d’un nuage informe. La preuve ? Je l’ai montré avec une droite tronquée en plateau, de type chromatographique avec saturation du détecteur au-dessus de telle concentration (saturation totale en hauteur ou partielle en surface) : cette courbe n’est pas du tout une droite (unique, monotone), quantitativement, mais le test statistique de corrélation linéaire continue à être probant, pour dire en fait que ce n’est pas un nuage quelconque, rien de plus. Ça ne prouve donc pas y=ax + b et encore moins y=x (ou « environ =x ») ultérieur.

4/ J’imagine
   Puisque les stats consistent à rejeter un modèle avec explication hasard, on pourrait dire que l’hypothèse nulle est 5% de différence en moyenne (de valeur absolue, sans compenser les sous-estimations par des surestimations fausses aussi), en montrant qu’on fait mieux (on se situe du bon côté) et que l’hypothèse 5% d’erreur (ou pire) est rejetée. Et comme ça se mesure sur échantillon, il y aurait aussi un facteur risque un peu arbitraire, donc ce ne serait pas une simple « équivalence prouvée (à risque inférieur à 5% pour les spécialistes) », mais une « différence absolue moyenne inférieure à 5% prouvée (à risque statistique inférieur à 5% ce qui n’a rien à voir) ». On pourrait avoir autant de conclusions qualitatives que de nombres choisis, ou bien exprimer le résultat sous la forme optimale estimée : différence estimée inférieure à 2,43% (avec risque statistique estimé inférieur à 4,7%).
   Ou bien on pourrait estimer le taux d’erreur <5% (ou <1%), cette estimation de fréquence ayant elle-même un intervalle de confiance (certes pas l’estimation gaussienne qui ne vaut rien mais la fonction béta inverse de source binomiale). Cela vaudrait chiffrage de la faible différence, ceci valant équivalence s’il s’agit de petit chiffre (à définir préalablement, avec protocole accepté par les commanditaires du chiffrage ou utilisateurs d’analyses).
   Bref, ce qu’on appellerait « test d’équivalence » serait un test d’inexactitude inférieure à X % avec exceptions dans environ Y% des cas. Le marketing serait très fâché par cette annonce tellement mois enchanteresse que « prouvé équivalent officiellement », mais ça pourrait être le prix d’une science honnête.

5/ Réserves
   Ce chiffrage ultra-précis est toutefois non satisfaisant, car :
A/ Pour la partie erreur estimée, la modélisation normale/gaussienne (servant aux calculs standards ou des normes dites « Qualité » internationales) est douteuse (et valider le caractère gaussien par non-significativité de la différence est une erreur, comme vu plus haut). La modélisation gaussienne semble garantir que tant de % sont pire qu’annoncé mais ce n’est pas crédible, car ce modèle infini est absurde aux limites : la loi de Gauss conduit à pronostiquer des valeurs négatives insensées (pour des comptages ou des personnes mesurées en centimètres) et la cloche symétrique bornée sin^4 serait bien plus crédible parfois, donnant de tout autres chiffrages sans être prouvée fausse pareillement.
B/ Rien ne prouve que l’échantillon soit représentatif, qu’il soit pris au hasard ne prouve que l’absence de biais évident, mais il n’est pas pour autant « garanti représentatif ». Ce n’est pas une connaissance objective mais une croyance subjective (classiquement oubliée) en la chance de ne pas tomber sur un échantillon atypique (par rapport au futur, inconnu, notamment).
C/ Reste le cas de différences reproductibles sur échantillons ou lots homogènes, un centrage sur ces cas ne respectant pas le moyennage pratiqué pour l’estimation générale (si une matrice discorde de +50% mais représente 0,5% du total, elle ne contredira pas l’estimation « mieux que ±2,43% d’erreur avec risque 4,7%) bien qu’une analyse sur 100% de tels échantillons (congelés ou intra-lot) fasse 100% d’erreur grave, sans du tout équivalence. Autrement dit : après avoir « statistiquement démontré l’équivalence » (qui était le but), on pourrait en s’y prenant autrement « statistiquement démontrer la différence significative » (si tel était le but) : au lieu de prendre 400 matrices testées 1 fois, congeler 20 matrices en 20 aliquotes, mesurer les 2 méthodes avec elles sur 1 aliquote, sur celle(s) discordante(s), répéter 20 fois la mesure pour prouver la différence. Je crois que cette idée (mienne, microbiologique) a récemment réémergé dans les tests d’équivalence pharmaceutique, pour la nouvelle formule levothyrox : au lieu de classer négligeable 8% de cas discordants, il aurait convenu de prouver que ces 8% n’étaient pas un aléa statistique (dans une équivalence générale, approximative) mais un très reproductible groupe de cas sans du tout équivalence.
D/ Dans les matrices biologiques et dans les concentrations chimiques, j’étais gêné différemment. Pour les matrices, on affirme une généralité alors qu’on n’a pas vu plein de matrices envisageables, et sans réplications de chaque matrice, passant à côté d’erreur systématique de nature technique et non aléa statistique ; pour les concentrations chimiques, les calculs font intervenir des pesées/dissolutions/pipetages supposés parfaits mais qui ont une incertitude peu claire (en cloche négligeant les extrêmes ou en rectangle) et mal prise en compte ou pas du tout, en tout cas pas (ou mal) défalquée de l’erreur estimée sur la méthode analytique testée (partie chromatographique ou similaire).
E/ Comment prendre en compte l’incertitude de reproductibilité imparfaite pour chacune des deux méthodes ? Et cette incertitude ne cache-t-elle pas la différence éventuelle entre les méthodes, là où un plus grand nombre de répétitions démontrait la différence, en augmentant le ratio différence constatée sur incertitude faisant recouvrer les intervalles de confiance ? L’incertitude semble l’alliée des valideurs et c’est très suspect. Une des approches ultrasimples de la démonstration d’équivalence est de montrer que la différence entre méthodes n’est pas supérieure (ou pas supérieure significativement) à la différence de réplication intra-méthode, et c’est en un sens ce que fait l’Anova mais… ce recouvrement des intervalles de confiance diminuerait, à méthodes inchangées, avec le nombre de répétitions. Ainsi ce qui est bien validé pour pas cher avec 3 réplications pourrait être invalidé pour très cher avec dix mille réplications, il est clair que le choix industriel portera vers la première voie mais logiquement et mathématiquement c’est une preuve par faux et usage de faux.
F/ Dans mon transfert de l’HPLC vers l’UPLC, l’amélioration des performances (en sensibilité, rapidité/productivité, économie de solvants, etc.) incluait une amélioration de reproductibilité, est-ce un facteur de non-équivalence ruinant tout le projet de démonstration « équivalence (quantitative) », bien que cela aille dans le bon sens (amélioration de la crédibilité des résultats) ? Pour être rigoureux, il faudrait casser le jeu de mots qui cache que l’analyse de variance est une comparaison de moyennes pour ajouter aussi une comparaison de variances (test de Bartlett ou Hartley, etc.), non ?

  Bref, ce n’est pas clair, j’ai vu des fautes apparemment officielles, j’envisage mieux mais ça reste immensément imparfait, douteux.
   J’espère que le formateur aura des réponses convaincantes à mes inquiétudes. (Je ne dirai pas ici ces réponses, pour ne pas pirater ce stage de formation, payant, c’est normal – si honnête comme je l’espère bien sûr).