Test d'équivalence revu

Equivalence et compatibilité, aïe-aïe-aïe ?
(le principe de validation en question)
par A.Métric, 06/04/2013

Mise à jour 2019
Ajout 2020

    A l’occasion d’une conférence bio-industrielle, le 05/04/2013, j’ai été frappé par deux points qui me semblent très douteux :
- l’industriel fournit des certificats d’équivalence pour tels étalons lus avec deux machines différentes ;
- il fournit des certificats de compatibilité pour des moyens de préparation pouvant servir à telle et telle application.
    S’il s’agit de « preuves » statistiques, cela me semble un non-sens lié à la « validation par non-significativité ». J’aborderai donc le sujet en 3 étapes, en aveugle car j’ignore ce que fait l’industriel en question :
1/ Pourquoi la non-significativité n’est jamais probante
2/ Pourquoi la confusion des limites dans la variabilité cache les problèmes
3/ Un rejet du hasard est-il probant

1/ Non-significativité
    Les statistiques sont un moyen de rejeter des hypothèses improbables, aucunement un moyen de valider, de certifier. La première leçon de test statistique affirme ainsi que l’hypothèse nulle, si on n’énonce que elle, doit être définie comme ce que l’on entend rejeter.
    Echouer à rejeter à un risque inférieur à alfa (5% en général) ne signifie absolument pas que l’on a « validé à un risque inférieur à alfa ». C’est presque le contraire, « presque » car cela n’a en fait rien à voir, mais à titre de tendance. En effet, ce qui a été rejeté avec une p-value 2% serait « validable » avec un risque <1%... Et avec risque inférieur à 0,000 000 000 1%, on validerait n’importe quoi, même le très mauvais ce qui est contradictoire. Cela va donc dans le sens risque <95% (et non <5%) ou risque <99% (et non <1%) ou risque <99,999 999 999 9% (et non <0,000 000 000 1%). Mais du coup le certificat avec risque standard (<95%) mérite la poubelle direct. C’est une parodie de certification, c’est mathématiquement un faux en écriture.
    Une non-significativité de différence ne vaut pas preuve d’équivalence, elle vaut non-conclusion avec jugement que le nombre de réplications est trop restreint (ce que pourrait montrer le non-rejet d’une hypothèse alternative énonçant le mauvais minimal).

2/ Les cas aux limites
    Une approche moins statistique, davantage biologique, consiste à passer des « témoins » ou « contrôles qualité ». Si le produit en test donne avec eux les résultats attendus qualitativement alors le produit est jugé « bon », conforme, certifiable tel.
    C’est oublier la triple confusion liée aux « cas bétons », « cas limites », « cas trop informatifs ».
    Pour devenir « témoin », le cas doit être répétable, ne devenir mauvais que si le produit est mauvais, bref il doit s’agir d’un cas en béton armé, insensible aux aléas de manipulation, sans être « trop informatif » de micro-imperfections négligeables (du moins : jugées telles). S’il y a, sur la population des cas, 20% de positifs en béton, 20% de négatifs en béton, et 60% de cas limites basculant de positifs à négatifs (ou vice versa) selon les caractéristiques fines du produit – 56% de normaux et 4% de trop informatifs, alors avoir restreint le contrôle aux cas bétons trompe. Un produit certifié bon peut donner 60% d’erreur…
    Là, les statisticiens peuvent venir à la rescousse, mais mal je pense. En passant 100 cas au hasard, ils verront bien si le produit est bon ou mauvais. Hélas, cela n’est fait souvent qu’en Recherche sur lots d’essai, pas en routine Qualité sur lots de production. Par ailleurs, les 100 cas sont lus comme révélateurs de réponse moyenne aux aléas près, et cela peut cacher un problème. Une réponse de type 90% bon ± 10% conduira à dire « 100% bon est possible, mais masqué par la variabilité biologique », or… si on avait exclu les cas en béton, on aurait pu trouver 70%±20% bon, donc résultat mauvais assuré. Et si on c’était centré sur les « cas trop informatifs » (résultat de type 10% bon±10%), on aurait prouvé le caractère mauvais. En ce sens, c’est la réplication sur cas limites qui informe, et pas du tout la réplication sur cas quelconques chacun vu une seule fois. Ce que je connais des validations biologiques me confirme hélas que les protocoles vont dans la mauvaise direction. Je sais comment invalider statistiquement bon nombre de produits vendus, mais je ne sais pas comment les valider (ni si on peut les valider, même, d’une manière que j’ignore)…

3/ Le rejet du hasard
    A l’université (ou peut-être au lycée maintenant, ou un jour), on apprend que les statistiques ne font pas que rejeter l’égalité, elles font aussi démontrer la corrélation linéaire, et cela ouvre une voie aux validations en général.
    Hélas, j’ai démonté cela : en fait, la corrélation linéaire est « démontrable » pour des cas non-linéaires à nombre de valeurs trop restreint – on ne fait que rejeter l’hypothèse de hasard, de n’importe quoi, et une droite tronquée en plateau est ainsi démontrable être une droite, certifiée ! Dans le même genre une puissance 8 de sinus est démontrable être une loi de Gauss alors qu’elle en diffère totalement aux valeurs extrêmes.

    Bref, mathématiquement comme biologiquement, je pense que les certificats d’équivalence et de compatibilité sont des faux. Je vais peut-être écrire à l’industriel en question pour voir ses réponses, que je présenterais ici, avec joie avec un mea culpa plein de soulagement : le Mediator serait une fraude ponctuelle, non un révélateur d’escroquerie biomathématique généralisée…

--------
Relecture (31/10/2013)
    Je n'ai pas reçu de réponse à ce jour (après six mois) mais je pose un bémol sur le 3e point : j'ai démontré ailleurs qu'une non-droite est aussi "démontrée" être une droite quand le nombre de valeurs est très grand, il suffit de suivre quelque chose de très distinct du nuage de points quelconques qui constitue l'hypothèse nulle. C'est une erreur de méthode, une erreur de logique, une erreur mathématique aussi.
--------
Complément (19/11/2013)
    Il m'a été demandé d'illustrer sur un exemple le problème. Le voici :
- On doit assurer que le nombre de pièces fautives est inférieur ou égal à 1,5% (sur chaque lot). Les statisticiens disent que la mesure doit être faite sur un échantillon de 500 pièces par lot. Les lots A/B/C/D donnent alors les intervalles de confiance suivants (au risque de première espèce 5%): 1,0-1,4% (A)/1,2-1,6% (B)/1,4-2,0% (C)/1,6-2,2% (D).
- Je suis d'accord que le lot A est "validé" (la limite du mauvais 1,5% est significativement rejetée), je suis d'accord que le lot D est refusé (la limite du bon 1,5% est significativement rejetée), je suis en désaccord total sur les lots B et C, qui sont prétendus "validés" (par non-significativité), alors que C a moins de chances d'être bon que mauvais (moyenne 1,7% mauvaise).
- Le "bon possible" n'est pas du tout le "bon prouvé". C'est un jeu de mot littéraire, "entre bon ou mauvais, qu'est-ce qui est prouvé ?", ne percevant pas qu'il existe des cas indécidables, appelant à refaire la mesure sur un effectif bien plus grand. Ici, les lots B et C devraient être recontrôlés sur 3000 pièces pour restreindre leur intervalle de confiance, afin de les faire basculer vers les cas A ou bien D.
- Bien sûr, moins accepter de lots ou de produits, devoir recontrôler au lieu d'accepter directement, ce n'est pas bon pour les bénéfices, d'où le mensonge organisé par l'industrie, apparemment. (Ou ça passe par le calcul de carrière pour les mathématiciens : "donner satisfaction aux demandeurs, peu importe la crédibilité mathématique : personne n'ira fouiller dans nos calculs complexes"). C'est mon diagnostic, sévère, jusqu'à plus ample informé : fraude para-scientifique organisée, avec approbation de toutes les autorités (incompétentes).
--------
Regrets ou hurlements ? (04/07/2014)
    Lors d’une nouvelle conférence, j’ai hélas eu confirmation de toutes mes craintes, quoique indirectement : une combinaison produit-source/usage se voyait refuser le certificat de compatibilité car les erreurs étaient biologiquement choquantes, même si « statistiquement » ça passait, les 48 bons résultats sur 50 (96%) n’étant pas significativement différents du 100% parfait. Tant mieux si la vigilance biologique a là restreint les desiderata marketing (d’affirmation de perfection) mais il n’empêche que la partie statistique de cette étude constitue un faux en écriture. (En n’employant pas le risque classique <5% mais <0,000 000 1% apparemment génial si ça passe, on « validerait » n’importe quoi même le franchement mauvais, puisque ça élargit encore les intervalles de confiance, ce qui prouve l’erreur de raisonnement, totale). J’ai fait part de mes soupirs à la conférencière, en prenant des risques, car les autorités en charge de la fraude dans cette société (facteur d’espoir ?) ont fait signer (au contraire) à tous les employés une charte engageant à ne plus jamais écrire quoi que ce soit qui puisse être retenu contre nous. "De toute façon, tout le monde fait comme ça" me dit-on... (C’est à hurler, à péter les plombs…). Les grands discours sur la qualité, l'éthique, la science, ne sont simplement pas audibles, dans ce contexte, de mensonge général. Pour le fric, les salaires royaux des dirigeants (et la non-misère des "petits", lucides), mais chut, il faut pas le dire, surtout...

(ajout 01/08/2020 : six ans après, en relisant ce site, je ne comprenais pas bien le sens du graphique ci-dessus, pas explicitement commenté/analysé. En fait, en y repensant, il chiffrait/illustrait le principe selon lequel : quand le risque est prétendu abaissé, on accepte un lot de plus en plus mauvais. Autrement dit : la confirmation majeure du calcul mis en graphique est : quand on va vers la gauche, cela descend ([le nombre de pièces correctes acceptable diminue], au lieu de monter [réduire prétendument le risque n’est pas être plus sévère, ce qui serait compréhensible, avec compromis risque/coût, mais c’est être beaucoup moins sévère, le risque le plus bas ou nul paraissant absurdement génial pour ne pas rejeter le lot mauvais, ce qui prouve l’absurdité, la fausseté de la démarche, de validation par non-significativité, élargissant les intervalles de confiance quand on diminue le risque de refus à tort – les tests statistiques ne marchent qu’en rejet, absolument pas en validation/acceptation/équivalence au statut parfait].)
--------
Mise à jour 2019 (05/08/2019) « bioéquivalences » très officielles
   Je vois maintenant la question « démonstration statistique d’équivalence » de manière extérieure, ayant été mis en invalidité à 55 ans pour « troubles psychiatriques », domaine où semble se classer la lucidité mathématique démolissant les mensonges pseudo-scientifiques en bande organisée (lucidité couplée à une honnêteté anormale en monde capitaliste où tout est théoriquement bon pour faire du fric, il ne faut pas ébruiter les mensonges c’est tout...).
A/ Je lis dans Science et Vie n°1221 (Juin 2019, page 7) : « Le Levothyrox va-t-il changer les homologations ? Une étude récente relance le débat sur l'équivalence entre ancienne et nouvelle formule du Levothyrox. (…) l'étude a réanalysé l’essai “de bioéquivalence” entre les deux formules (…) Résultat : dans le sang de 200 volontaires sains, les deux formules avaient en moyenne un comportement quasi identique. “Mais en épluchant les données nous avons montré que cette moyenne recouvre des disparités individuelles très importantes" (…) il aurait fallu, avant de remplacer la formule, s'intéresser aux importantes variations constatées d'un individu a l'autre. Des variations qui pourraient expliquer les symptômes d'une minorité de patients. (…) a respecté les règles d'homologation européennes (…) Par contre cette étude pose la question du bien-fondé de ces règles." Et de se demander si elles sont assez exigeantes »
   Effectivement : alors qu’il est assez facile, et convainquant, de démontrer statistiquement une différence significative, je ne vois pas du tout comment démontrer (honnêtement) une équivalence. Et si cette prétendue équivalence est une non-significativité de la différence, c’est une erreur logico-mathématique, qui est exactement ce que je dénonçais sur ce site (et puis http://www.kristofmeunier.fr/NonSignificatif.htm) depuis des années.
   Plus précisément, l’erreur de principe que j’ai connue consiste à poser l’hypothèse « la formule 2 a un effet y=ax+b quand x est l’effet de la formule 1, et les aléas biologiques font que cette relation n’est pas pile respectée pour chaque patient (variabilité inter-mesures) » ; s’il y a différence moyenne non-significative (au risque 5%) avec y=x, c’est affirmé prouvé « égalité » avec risque < 5%. C’est doublement faux : 1/ ce qui serait refusé avec p-value 4% significatif (mauvais à risque < 5%) serait décrété non-significatif (bon) à risque < 1%, et en prétendant à risque < 0,000000000001% même le très très très mauvais serait (faussement) prouvé bon, c’est une totale erreur de méthode, confondant (à tel risque) « aucune conclusion » et « conclusion prouvée bonne ». 2/ Si un patient donne un résultat très mauvais, ça peut venir de tout autre chose que de la variabilité de mesure (qui aurait donné un résultat bon ou très bon en cas de re-test), il peut s’agir d’une discordance très répétable, sur un patient particulier, l’hypothèse implicite que tous les patients sont semblables étant arbitraire, douteuse (fausse au bénéfice du doute, avec intelligence critique et non croyance aveugle). Par ailleurs parler de moyenne biaise tout, car une valeur anormale basse et une valeur anormale haute « se compensent » en non-effet moyen estimé (non-différence en moyenne), alors qu’il s’agit de deux effets graves, éventuellement (échec thérapeutique d’un côté, sévères effets secondaires de l’autre).
B/ Je vais quand même chercher sur Internet si je vois un descriptif des tests officiels de bioéquivalence. https://www.afmps.be/fr/items-HOME/Generiques/Securite_efficacite_bioequivalence et https://fr.wikipedia.org/wiki/Bio%C3%A9quivalence indiquent que les intervalles de confiance à 90% de plusieurs paramètres (concernant le taux plasmatique de principe actif) doivent être entre 80% et 125% pour le médicament en test comparé à la référence. Cela signifie qu’il serait totalement négligé que 9% (neuf mille sur cent mille) des patients réagissent très différemment, ce qui ne parait pas du tout négligeable pour les très nombreuses personnes concernées... Par ailleurs, si la distribution n’est pas normale, la modélisation des intervalles de confiance sera fausse, pouvant sous-estimer les taux de valeurs atypiques (et il est impossible, je crois, de prouver la normalité d’une distribution sans fautive « validation par non-significativité », cf. mon site http://www.kristofmeunier.fr/Normal_sin.htm ). Ce n’est donc absolument pas probant, cette prétendue bioéquivalence dite « démontrée expérimentalement/mathématiquement ».
   Exemple fictif réduit (sur 20 patients) ci-dessous, l’hypothèse égalité normale étant toute fausse pour une situation qui est en fait majorité égale (nouveau/ancien[%]=100) avec grosse minorité très différente pour 20% des valeurs (nouveau/ancien[%]=128), pas vue en moyennant, ce qui cache tout par hypothèse d’homogénéité, affirmée alors qu'ici fausse :

   Par ailleurs, ça ne traite nullement des effets secondaires (des excipients ?), qui étaient le problème majeur je crois pour le lévothyrox. Bref, j’aurais refusé cette prétendue démonstration d’équivalence, évidemment, arguments à l’appui, mais c’est « validé » abusivement pour faire la fortune des firmes pharmaceutiques, hélas. C’est mathématiquement faux, logiquement faux, mais officiellement valide, financièrement gagnant… (Politiquement, c’est ce genre de pratique frauduleuse qui fait les « gagnants » célébrés par le pouvoir actuel, les « premiers de cordée » en ascension économique, simplement malhonnête il suffit de ne pas l’avouer, ça explique que soient classés fous les vrais matheux et logiciens, éliminés comme souffrants, et certes déchirés par ce qui se passe et par la culpabilité d’être achetés par le salaire reçu…).
C/ Je préciserai simplement mon argumentaire sur deux points :
- Les excipients :
   Pour les vaccins antiviraux, le principe actif est la portion de virus injectée, mais il est célèbre maintenant que la formule complète « qui marche » contient aussi un « booster de réaction immunitaire », comme l’alumine ou je ne sais plu’ quoi. Sans cela, ça ne marche pas en pratique. Alors, comparer uniquement le taux de principe actif entre deux formules (ou deux fabricants : référence et générique) peut donner une parfaite égalité des taux en principe actif mais le premier marchait et le second ne marche pas, le « savoir-faire » industriel (sous secret professionnel) faisant toute la différence. Et ce principe qui vaut pour l’efficacité s’applique aussi en toxicité : un adjuvant secret ou à effet méconnu peut s’avérer biologiquement essentiel pour inhiber une toxicité du principe actif, en activant par exemple un mécanisme de défense de l’organisme (ou inversement : un nouvel excipient cru totalement anodin peut enclencher une réaction maladive du corps en présence de tel principe actif). Changer les excipients peut donc tout changer aux effets du médicament, sans que ce soit mesuré par la surveillance pointilleuse du principe actif seul.
- La répétition sur mêmes patients :
   Tester 1 fois sur 200 patients mélange aléa inter-individu et manque de répétabilité sur chaque individu, sous le vocable « variabilité biologique ». Ainsi, les valeurs 126 à 130 de mon exemple au-dessus sont interprétées comme aléa non répétable survenus par hasard, répéter sur ces patients donnant une valeur normale (comme 100) ou basse équilibrante (comme 60), mais il est tout à fait possible et grave que ce soit très reproductible (de l’ordre de 20 fois sur 20 entre 120 et 145), définissant une sous-population où l’équivalence prétendue est totalement fausse, prouvable statistiquement si le protocole osait poser la question (au lieu de chercher à valider coûte que coûte). C’est ce biais logique que j’avais identifié il y a des années dans les validations de mesurage automatisé sur matrice alimentaire, la conclusion moyennée sans répétition donnant un faux résultat, pouvant être prouvé erroné sur répétition avec matrices à nombreuses aliquotes préalablement congelées.
   Comme d’habitude, la lucidité logico-mathématique n’intéressait personne, l’important étant de faire illusion de sérieux pour faire du fric, mais la pertinence est ailleurs, la vraie science est tout le contraire. Et ce n’est pas tel laboratoire qui a inventé une procédure mauvaise, il s’agit des instructions officielles qui sont aberrantes, complices, au profit financier des firmes et au détriment de la santé publique. Enfin, si les malades du levothyrox nouvelle formule obtiennent que soient abandonnées les aberrations actuelles, j’aurai simplement eu raison trop tôt. En étant cassé pour cela, « c’est vraiment trop injuste » comme disait le petit poussin Caliméro.
   (En ayant quitté mon employeur, je ne ferai hélas jamais le stage statistique que j’avais trouvé : « Comment démontrer l’équivalence de deux méthodes analytiques ? », chez Cefira (2 jours, 1250€ HT, https://www.cefira.com/formation/745/comment-dmontrer-lquivalence-de-deux-mthodes-analytiques ), hélas je n’ai pas les moyens de me l’offrir si ce n’est pas payé par riche employeur). A moins que les formateurs soient intéressés par ma réfutation et en discutent avec moi. A suivre peut-être, si le cancer ne me tue pas avant. Sur le principe, ce n’est pas désespéré, puisque je suis parvenu à inventer une solution dans le cas de la linéarité ( http://www.kristofmeunier.fr/Linearity_F.htm ), solution hélas disparue de mon entreprise avec la mise à la poubelle de l’individu anormal que je suis, pour préférer le mensonge officiel, comme requis par les auditeurs (administratifs, incompétents mathématiquement et techniquement). Il s’agirait de prouver non une équivalence (prétendue), mais une différence estimée inférieure à tant. Enfin, c’est en un sens ce que fait la procédure de bioéquivalence, quelque chose comme ±25% dans 90% des cas, seule la conclusion qualitative « équivalent » étant toute fausse, subjective, décidant arbitrairement de négliger des cas/patients c’est-à-dire des discordances, des fautes s’il y a prétendue équivalence. Quoique ce soit jouer sur les mots, « équivalence » n’étant pas « égalité » mais « à peu près égalité », en décidant en effet de négliger une part des valeurs, qui discorde (éventuellement de manière répétable) voire qui rend très malade ou même tue...
--------
Ajout 2020 (30/07/2020) Millionième confirmation (de confusion générale)
  Mots entendus sur télévision LCI ce matin (par le vulgarisateur scientifique « expert » attitré) : « L’étude de la technologie 5G en service dans un quartier à Bordeaux prouve qu’il n’y a pas d’incidence de la technologie 5G sur la santé » ! Je ne suis absolument pas d’accord : si l’hypothèse nulle « zéro incidence » n’est pas rejetée, elle n’est nullement prouvée juste, ce qui est juste est qu’il n’y a aucune conclusion, l’échantillon étant peut-être trop petit pour voir une petite incidence. Sans chiffrer la petite incidence à rejeter (hypothèse alternative), impossible de conclure (ni même pouvoir chiffrer ce qui serait une taille d'échantillon adéquate), même si affirmer une perfection (« aucune » incidence) est ce que voudraient les services marketing, la société marchande. Que les beaux parleurs prennent les clients pour des idiots n’est pas une surprise, mais que des prétendus scientifiques se prêtent à ce jeu est une supercherie, une faute professionnelle, financièrement intéressée donc c’est une escroquerie pure et simple.
  Pour en revenir au grand titre de ce site, il s'agit bien d'un cas d'équivalence démontrée abusivement, ici il s'agit de "prouver" que 5G est équivalent à "rien avec incidence sur la santé".