Equivalence et compatibilité, aïe-aïe-aïe ?
(le principe de validation en question)
par A.Métric, 06/04/2013

    A l’occasion d’une conférence bio-industrielle, le 05/04/2013, j’ai été frappé par deux points qui me semblent très douteux :
- l’industriel fournit des certificats d’équivalence pour tels étalons lus avec deux machines différentes ;
- il fournit des certificats de compatibilité pour des moyens de préparation pouvant servir à telle et telle application.
    S’il s’agit de « preuves » statistiques, cela me semble un non-sens lié à la « validation par non-significativité ». J’aborderai donc le sujet en 3 étapes, en aveugle car j’ignore ce que fait l’industriel en question :
1/ Pourquoi la non-significativité n’est jamais probante
2/ Pourquoi la confusion des limites dans la variabilité cache les problèmes
3/ Un rejet du hasard est-il probant

1/ Non-significativité
    Les statistiques sont un moyen de rejeter des hypothèses improbables, aucunement un moyen de valider, de certifier. La première leçon de test statistique affirme ainsi que l’hypothèse nulle, si on n’énonce que elle, doit être définie comme ce que l’on entend rejeter.
    Echouer à rejeter à un risque inférieur à alfa (5% en général) ne signifie absolument pas que l’on a « validé à un risque inférieur à alfa ». C’est presque le contraire, « presque » car cela n’a en fait rien à voir, mais à titre de tendance. En effet, ce qui a été rejeté avec une p-value 2% serait « validable » avec un risque <1%... Et avec risque inférieur à 0,000 000 000 1%, on validerait n’importe quoi, même le très mauvais ce qui est contradictoire. Cela va donc dans le sens risque <95% (et non <5%) ou risque <99% (et non <1%) ou risque <99,999 999 999 9% (et non <0,000 000 000 1%). Mais du coup le certificat avec risque standard (<95%) mérite la poubelle direct. C’est une parodie de certification, c’est mathématiquement un faux en écriture.
    Une non-significativité de différence ne vaut pas preuve d’équivalence, elle vaut non-conclusion avec jugement que le nombre de réplications est trop restreint (ce que pourrait montrer le non-rejet d’une hypothèse alternative énonçant le mauvais minimal).

2/ Les cas aux limites
    Une approche moins statistique, davantage biologique, consiste à passer des « témoins » ou « contrôles qualité ». Si le produit en test donne avec eux les résultats attendus qualitativement alors le produit est jugé « bon », conforme, certifiable tel.
    C’est oublier la triple confusion liée aux « cas bétons », « cas limites », « cas trop informatifs ».
    Pour devenir « témoin », le cas doit être répétable, ne devenir mauvais que si le produit est mauvais, bref il doit s’agir d’un cas en béton armé, insensible aux aléas de manipulation, sans être « trop informatif » de micro-imperfections négligeables (du moins : jugées telles). S’il y a, sur la population des cas, 20% de positifs en béton, 20% de négatifs en béton, et 60% de cas limites basculant de positifs à négatifs (ou vice versa) selon les caractéristiques fines du produit – 56% de normaux et 4% de trop informatifs, alors avoir restreint le contrôle aux cas bétons trompe. Un produit certifié bon peut donner 60% d’erreur…
    Là, les statisticiens peuvent venir à la rescousse, mais mal je pense. En passant 100 cas au hasard, ils verront bien si le produit est bon ou mauvais. Hélas, cela n’est fait souvent qu’en Recherche sur lots d’essai, pas en routine Qualité sur lots de production. Par ailleurs, les 100 cas sont lus comme révélateurs de réponse moyenne aux aléas près, et cela peut cacher un problème. Une réponse de type 90% bon ± 10% conduira à dire « 100% bon est possible, mais masqué par la variabilité biologique », or… si on avait exclu les cas en béton, on aurait pu trouver 70%±20% bon, donc résultat mauvais assuré. Et si on c’était centré sur les « cas trop informatifs » (résultat de type 10% bon±10%), on aurait prouvé le caractère mauvais. En ce sens, c’est la réplication sur cas limites qui informe, et pas du tout la réplication sur cas quelconques chacun vu une seule fois. Ce que je connais des validations biologiques me confirme hélas que les protocoles vont dans la mauvaise direction. Je sais comment invalider statistiquement bon nombre de produits vendus, mais je ne sais pas comment les valider (ni si on peut les valider, même, d’une manière que j’ignore)…

3/ Le rejet du hasard
    A l’université (ou peut-être au lycée maintenant, ou un jour), on apprend que les statistiques ne font pas que rejeter l’égalité, elles font aussi démontrer la corrélation linéaire, et cela ouvre une voie aux validations en général.
    Hélas, j’ai démonté cela : en fait, la corrélation linéaire est « démontrable » pour des cas non-linéaires à nombre de valeurs trop restreint – on ne fait que rejeter l’hypothèse de hasard, de n’importe quoi, et une droite tronquée en plateau est ainsi démontrable être une droite, certifiée ! Dans le même genre une puissance 8 de sinus est démontrable être une loi de Gauss alors qu’elle en diffère totalement aux valeurs extrêmes.

    Bref, mathématiquement comme biologiquement, je pense que les certificats d’équivalence et de compatibilité sont des faux. Je vais peut-être écrire à l’industriel en question pour voir ses réponses, que je présenterais ici, avec joie avec un mea culpa plein de soulagement : le Mediator serait une fraude ponctuelle, non un révélateur d’escroquerie biomathématique généralisée…

--------
Relecture (31/10/2013)
    Je n'ai pas reçu de réponse à ce jour (après six mois) mais je pose un bémol sur le 3e point : j'ai démontré ailleurs qu'une non-droite est aussi "démontrée" être une droite quand le nombre de valeurs est très grand, il suffit de suivre quelque chose de très distinct du nuage de points quelconques qui constitue l'hypothèse nulle. C'est une erreur de méthode, une erreur de logique, une erreur mathématique aussi.
--------
Complément (19/11/2013)
    Il m'a été demandé d'illustrer sur un exemple le problème. Le voici :
- On doit assurer que le nombre de pièces fautives est inférieur ou égal à 1,5% (sur chaque lot). Les statisticiens disent que la mesure doit être faite sur un échantillon de 500 pièces par lot. Les lots A/B/C/D donnent alors les intervalles de confiance suivants (au risque de première espèce 5%): 1,0-1,4% (A)/1,2-1,6% (B)/1,4-2,0% (C)/1,6-2,2% (D).
- Je suis d'accord que le lot A est "validé" (la limite du mauvais 1,5% est significativement rejetée), je suis d'accord que le lot D est refusé (la limite du bon 1,5% est significativement rejetée), je suis en désaccord total sur les lots B et C, qui sont prétendus "validés" (par non-significativité), alors que C a moins de chances d'être bon que mauvais (moyenne 1,7% mauvaise).
- Le "bon possible" n'est pas du tout le "bon prouvé". C'est un jeu de mot littéraire, "entre bon ou mauvais, qu'est-ce qui est prouvé ?", ne percevant pas qu'il existe des cas indécidables, appelant à refaire la mesure sur un effectif bien plus grand. Ici, les lots B et C devraient être recontrôlés sur 3000 pièces pour restreindre leur intervalle de confiance, afin de les faire basculer vers les cas A ou bien D.
- Bien sûr, moins accepter de lots ou de produits, devoir recontrôler au lieu d'accepter directement, ce n'est pas bon pour les bénéfices, d'où le mensonge organisé par l'industrie, apparemment. (Ou ça passe par le calcul de carrière pour les mathématiciens : "donner satisfaction aux demandeurs, peu importe la crédibilité mathématique : personne n'ira fouiller dans nos calculs complexes"). C'est mon diagnostic, sévère, jusqu'à plus ample informé : fraude para-scientifique organisée, avec approbation de toutes les autorités (incompétentes).
--------
Regrets ou hurlements ? (04/07/2014)
    Lors d’une nouvelle conférence, j’ai hélas eu confirmation de toutes mes craintes, quoique indirectement : une combinaison produit-source/usage se voyait refuser le certificat de compatibilité car les erreurs étaient biologiquement choquantes, même si « statistiquement » ça passait, les 48 bons résultats sur 50 (96%) n’étant pas significativement différents du 100% parfait. Tant mieux si la vigilance biologique a là restreint les desiderata marketing (d’affirmation de perfection) mais il n’empêche que la partie statistique de cette étude constitue un faux en écriture. (En n’employant pas le risque classique <5% mais <0,000 000 1% apparemment génial si ça passe, on « validerait » n’importe quoi même le franchement mauvais, puisque ça élargit encore les intervalles de confiance, ce qui prouve l’erreur de raisonnement, totale). J’ai fait part de mes soupirs à la conférencière, en prenant des risques, car les autorités en charge de la fraude dans cette société (facteur d’espoir ?) ont fait signer (au contraire) à tous les employés une charte engageant à ne plus jamais écrire quoi que ce soit qui puisse être retenu contre nous. "De toute façon, tout le monde fait comme ça" me dit-on... (C’est à hurler, à péter les plombs…). Les grands discours sur la qualité, l'éthique, la science, ne sont simplement pas audibles, dans ce contexte, de mensonge général. Pour le fric, les salaires royaux des dirigeants (et la non-misère des "petits", lucides), mais chut, il faut pas le dire, surtout...