Le gros-gros mensonge PM=AM
Souvenir de truc professionnel très moche
par Laporte De Dèriert, 03/07/2021
ajout

  Quand, mis en invalidité « pour raison psychiatrique » (souffrance à être complice acheté par mon salaire), j’ai rédigé mon testament professionnel, j’ai oublié je crois un point, scandaleux aussi, qui m’est revenu en songe nocturne il y a quelques heures : la validation « après-midi = matin » sur la gamme de produits dont j’effectuais le contrôle dans les années 1980, avec 2 à 6 collègues techniciennes, chapeautés par ingénieur et pharmacienne (sous commandement d’autres ingénieurs, docteurs et pharmaciens).

Description
  Autrefois, vers 1985-90, il y a plus de 30 ans, j’ai participé indirectement à un projet professionnel (industriel) qui me paraissait mathématiquement « suspect ou faux », mais je ne m’y suis pas intéressé. J’étais triste suicidaire chronique, classé dépressif par les médecins idiots (classant tristesse et inquiétude en maladies), et je ne m’intéressais pas vraiment au monde extérieur (mon amie perdue refusant à jamais de me revoir). A titre alimentaire, je faisais les mesures qui m’étaient commandées, avec assiduité (et inventivité améliorant les techniques) pour mériter salaire, simplement. Je suis mort une seconde fois en 1998, je suis sorti de l’hôpital en 2000, je me suis marié en 2002 et j’ai commencé à ouvrir les yeux, voyant plein de choses choquantes.
  Pour le point que je traite ici, il s’agissait de « Contrôle Qualité » d’une gamme de produits sur laquelle on mesurait une trentaine de paramètres, tous devant être dans les tolérances d’acceptation prédéfinies officiellement. Chaque mesure était une moyenne sur 4 « échantillons » (pris au hasard dans le grand échantillon prélevé pour le contrôle), le test avec ouverture d’emballage étant destructif. Quand les analyses étaient terminées et toutes bonnes, le lot partait en « bon à la vente », et une notion de sous-lot venait du service Production : sous-lot du matin, sous-lot de l’après-midi (traités comme deux lots différents, désignés tels pour les clients). Puis l’encadrement a eu une grande idée : ne pourrait-on pas réunir ces deux sous-lots afin d’avoir un seul lot par jour ? coûtant deux fois moins cher à contrôler, presque (quoique le temps de contrôle ne soit pas totalement proportionnel au nombre de mesures, avec le temps fixe de lancement de nos machines de séparation chimique ou réalisation de nos techniques biologiques). Pour cette étude, j’étais un des opérateurs fournissant les 30 chiffres de paramètres mesurés sur environ 100 couples de sous-lots. Finalement, nous avons été informés que le service Biomathématiques avait brillamment validé la conclusion « pas de différence significative entre les sous-lots appariés, donc on peut les réunir ». Qu’est-ce que j’en pense, maintenant moins « je-m’en-foutiste » ?

Détails secondaires
– Je crois qu’à l’époque j’ai oralement émis un doute sur la validité de la conclusion (j'ai dit quelque chose comme « les statistiques, ça prouve des différences, pas des égalités ») mais cela a été enterré comme hors-sujet, avec des mots comme « chacun son métier, occupe-toi de tes mesures, laisse les chefs et les experts gérer le truc ».
– Je me souviens de marquages 1 à 6 sur les échantillons contrôle (et peut-être les palettes de stockage en production) : de début de matinée à fin d’après-midi. On testait sur 4 exemplaires au hasard, mais s’il y avait valeur mauvaise on recontrôlait sur les 6 sous-classes, en double, pour sauver peut-être une partie du lot (ou expliquer l’anomalie afin de prévenir un problème sur lot ultérieur – je ne sais pas comment c’était géré au niveau décisionnel).
– Après mon départ de ce service CQ :
. La mise en service de machine de production triple a remplacé je crois le test sur 4 par un test sur 6 = 2 fois 3.
. J’ai entendu dire qu’un audit interne (ou inspection externe) avait mis en question le fait de contrôler « sur 4 » (ou 6) aussi bien un petit lot qu’un gros, sans adaptation de la répétition de test à la taille de la population. Si les injonctions à ce sujet avaient été émises plus tôt, peut-être que le projet de réunir les sous-lots n’aurait pas été énoncé.
. Un nouveau chef technique a instauré je crois un recontrôle si 1 des 4 (ou 6) mesures était hors tolérance, sans se limiter à examiner la moyenne. Ça améliorait la qualité, avec risque de sur-qualité (davantage de recontrôles, de rejets, donc de coûts, mais produit meilleur si accepté).

Je casse tout maintenant
  Ceci expliqué, resitué, je peux maintenant détailler ma réfutation de la conclusion dite à tort « mathématique » :
1/ Fausse démonstration par non-significativité
  Mon objection initiale peut énormément être consolidée maintenant (j’ai réfléchi des années de manière argumentée autour de pareil sujet). La conclusion qui a été jugée probante par les responsables a pu être quelque chose comme « le sous-lot Après-midi est en moyenne à -8% (± 10% avec confiance >95%) du sous-lot Matin, cela n’exclut absolument pas la valeur zéro de « après-midi = matin », donc cette estimation « après-midi = matin » est validée statistiquement avec confiance > 95% ». Or cela est faux, mathématiquement faux (et logiquement faux).
  Commençons par la logique pure : ne pas réussir à prouver A ≠ B ne prouve en rien qu’on a prouvé A = B. Si on ne parvient pas à prouver que X est très mauvais, cela ne prouve pas qu’il est très bon (il peut être un peu mauvais). L’absence de preuve (de différence à la perfection) n’est pas preuve d’absence (de différence à la perfection). La vraie conclusion est "pas de conclusion : on ne peut rien affirmer".
  Ensuite au niveau mathématique : si on avait eu une différence -12% (dite mauvaise, >±10% avec confiance >95%) au lieu de -8% (dite bonne, <±10% avec confiance >95%), l’absurde logique suivie aurait permis de mentir en prétendant à une perfection encore plus grande : -12% est bonne, <±15% avec confiance >99,73%. Oui, les intervalles de confiance s’élargissent quand la confiance augmente, il ne s’agit pas de confiance en la validité de la perfection (complémentaire du risque d’acceptation à tort) mais de zone où on évite le rejet à tort (complémentaire du risque de rejet à tort). Bref, si on veut rejeter la perfection prétendue, -12% n’est pas assez loin de zéro si on exige une confiance énorme, mais cela n’a absolument aucun rapport avec l’affirmation que la perfection est validée avec confiance énorme. C’est confondre risque de 1e espèce (rejet à tort de l’hypothèse nulle = perfection) et risque de 2e espèce (acceptation à tort de l’hypothèse nulle = perfection). Clamer que "la conclusion est maitrisée en matière de risque" est super-faux quand on se réfère à un risque erroné, hors-sujet pour cette conclusion (d'acceptation, pas de refus). C’est une faute lourde, méritant note zéro sur 20 éliminatoire en faculté biologie première année, méritant mise à pied pour des mathématiciens professionnels (faute professionnelle grave). Du moins en théorie, si le monde était honnête, ce qu’il n’est pas du tout : en vrai, on fait taire les petits objecteurs, et les chefs incompétents triomphent, clamant qu’il faut faire confiance aux experts. Sociologiquement, c’est vainqueur, mensonger et erroné mais ça marche (les auditeurs et inspecteurs étant incompétents en logique et en maths n’y voient que du feu : ils se focalisent sur les datages et habilitations).
  Note : une ambiguïté est évidente, car les biologistes ne parlent jamais de « perfection prouvée » tout au plus pourraient-ils reconnaître « quasi-perfection jugée acceptable » ; c’est simplement de l’incompétence crasse. Ce qui est fait mathématiquement quand une seule hypothèse est émise (dite hypothèse nulle) c’est qu’est testée cette hypothèse pile, avec aléa acceptés. Dire « environ bien » évite certes de définir ce que l’on définit par « bien » (subjectivement ?) donnant une fausse allure d’objectivité, comme « issue des mathématiques », ce qui est totalement faux. C’est criant en matière d’innocuité, pour un produit chimique ou vaccin : les décideurs adorent clamer « c’est prouvé sans danger », ils seraient très gênés d’avouer mathématiquement « il semble que ça tue dans moins d’un cas sur cent (si notre échantillon est représentatif, ce qui n’est pas prouvé, pas prouvable même) ». [Quand je dis dans le titre que PM=AM est un mensonge, ça ne signifie pas qu’il est prouvé que PM≠AM, mais qu’il n’est pas du tout prouvé que PM=AM (ni même que PM est environ égal à AM) et que l’affirmer prouvé est menteur.]
2/ Globalisation douteuse
   L’autre problème concerne la « moyenne » employée pour faire la comparaison après-midi/matin. Si tel paramètre a un score -60% et un autre un score +60%, la moyenne sera 0% de différence, parfait, mais il est faux d’affirmer que chaque paramètre se situe proche de 0%. En fait, la modélisation employée n’est pas pertinente : il a été considéré que tous les paramètres se comportent pareil, avec un même score (de différence après-midi - matin), qui est estimé en moyenne ± aléa de répétabilité imparfaite. On aboutit à une erreur logique comparable au point précédent : ne pas réussir à « prouver que tous les paramètres chutent » ce n’est pas du tout « prouver que tous les paramètres ne chutent pas ».
   Enfin, comme je n’ai pas eu en copie le rapport sur l’étude d’équivalence, je ne garantis pas que cette erreur-ci a été commise. Il n’est pas impossible qu’il y ait eu 30 conclusions « équivalence » sur 30 paramètres, plutôt que 1 conclusion « équivalence » sur tous les paramètres mis ensemble, mais j’en doute car, quand sur le produit nouveau suivant apparait un 31e paramètre, il est considéré que l’équivalence matin/après-midi est acquise sans la challenger/documenter (ce qui est parfaitement compatible avec une conclusion « tous paramètres », pas du tout avec « chaque paramètre doit être analysé séparément »).
   Un autre aspect de la globalisation erronée ne porte pas sur les paramètres mais sur les lots. Il a été considéré que tous les lots se comportent pareil, normalement, avec un même score ± aléa. Mais si un lot anormal a chuté fort dans la journée, cela sera noyé dans la différence moyenne, oubliant que chaque lot est particulier. On affirmera « non, globalement, il n’y a pas de problème », cachant que « oui, ponctuellement, on a documenté un problème ». Enfin, ce n’est pas simple, avec les maximes « le zéro défaut n’existe pas », « on cherche les très gros problèmes pas les petites imperfections », etc.
3/ Source de la confusion
   Le problème commun à ces erreurs 1 et 2 me semble être la demande erronée formulée par l’encadrement : « prouvé bon ou bien prouvé mauvais ?? ». C’est ignorer une troisième réponse, presque systématique en vrai : « ni prouvé-bon ni prouvé-mauvais, incertain ». L’oublier verbeusement, dans un esprit littéraire détestant les mathématiques (et l'oublier dans un esprit philosophique de croyance scientiste détestant la sagesse sceptique), c’est commettre une bourde totale : « pas prouvé-mauvais donc prouvé-bon », eh bien non, c’est totalement faux, même si la rhétorique verbeuse, blablateuse, peut faire illusion auprès d’esprit crédules ou inattentifs. Toute l’industrie semble fonctionner ainsi, dans tous les pays.
  Les mathématiciens décevraient énormément ces décideurs idiots s’ils les déjugeaient, alors apparemment ils leur donnent raison (à tort) et documentent de chiffres mal pensés les conclusions qui étaient escomptées, avec gros salaires à la clé (et grand prestige pour leur discipline, « efficace » à faire ce qui était attendu d’elle, industriellement). Il n’y a que le petit matheux amateur et sans ambition qui proteste et casse tout, puisque c’est intégralement faux. Enfin, s’il s’écrase devant l’autorité, il survit, mais s’il persiste et prouve par A+B, olah on le fait taire sévèrement en lui donnant tous les torts et s’il en souffre c’est classé souffrance psychotique, d’où mise en invalidité pour cause psychiatrique, éliminé, yes ! Victoire (de la malhonnêteté et de l’incompétence alliées).
  Quand mon frère ainé (reprenant des études dans une seconde voie universitaire je crois, en cours du soir) m’avait demandé de l’aide en statistique (à moi le petit frère à bosse des maths), je lui ai expliqué l’impossibilité de répondre à « prouvé bon ou bien prouvé mauvais ?? », et il a conclu « mais c’est nul, ces stats ! » et j’ai souri simplement : ce n’est pas tout à fait nul mais c’est humble, ça ne plait pas aux décideurs fonceurs (si c’est pratiqué honnêtement – ou si ça l’était puisqu’effectivement, ce n’est pas le cas).
  Autre point : le glorieux président de la république Emmanuel Macron (jugé « très très intelligent » par mon père et « grand intellectuel » par la plupart des journalistes dits objectifs) a déclaré « ne pas croire les scientifiques, c’est être paranoïaque ! » (donc fou). Au sens propre, ces déclarations présidentielles sont fausses et idiotes, mais je conviens qu’il y a une lecture compréhensible : « prouver en faute les faux scientifiques menteurs, ça conduit à être classé fou et ʺsoignéʺ (comme en ex-URSS) »… Oui, hélas, tellement. Malhonnêteté et incompétence triomphent, c'est confirmé, jusque tout en haut en haut.

Ajout 04/07/2021 : illustration fictive
  Bien sûr, plus de 30 ans après et n'ayant jamais reçu le rapport, je ne peux pas présenter les chiffres preuves d'invalidation ni montrer comment une modification des valeurs prouverait ce que je dénonce. Simplement, sur un petit exemple fictif (de 20 paramètres fois 1 lot, pas 30 paramètres fois 100 lots inmontrable), je peux illustrer ce que je disais :

  La fonction de calcul d'Excel pour le t de Student calculé rend n'importe quoi, je n'en comprends pas les variables, mais en reprenant le principe "différence delta divisée par l'écart-type des deltas", on retrouve bien le principe à illustrer.
  Lecture :
- Les statistiques logiques consistent à dire pour le cas au centre (vert = mon approbation) : rejet de la perfection PM = AM avec confiance > 95% et > 99,73% (significativité statistique de la différence, conclusion correcte).
- L'erreur classiquement commise est le cas à gauche (rouge = ma dénonciation) : dire validée la perfection PM = AM ("environ" pour les non-mathématiciens), alors que c'est faux : il n'y a pas rejet de PM = AM, il n'y a pas de conclusion positive. Si on émettait une hypothèse alternative de différence -8%, elle serait beaucoup plus plausible que 0% (et les mesures ont été lancées sans définir en rien quelque chose comme "±10% = négligeable", non, ce sont les mathématiques n'examinant que 0% qui prétendent dire "OK oui prouvé acceptable", à tort).
- La preuve d'erreur de la "démonstration par non-significativité" est le tableau de droite (rouge = ma dénonciation) : on aurait là logiquement rejeté PM = AM en estimant confiance > 95%, mais... puisque les statisticiens incriminés raisonnent mal, ils pourraient dire qu'est validé PM = AM avec confiance > 99,73%. Contradiction, erreur totale. (Et si l'on dit que c'est la conclusion de plus grande confiance qui l'emporte, ça conduit à dire que n'importe quelle distribution de PM et AM même immensément différents (par exemple PM toujours moitié de AM) valide PM = AM avec confance 100%, ce qui est faux, prouvé faux, mal pensé, confondant risque d'acceptation cherché avec risque de rejet plus facile à calculer et donnant bien plus de validations, fausses.)