NF ISO PROBLÈME
Normes statistiques mensongères ?
par Binomial-man, 01/07/2008

    … Longtemps, j'ai évité d'écrire ce texte car la norme NF/ISO (française/internationale) qui me choquait concernait très précisément mon propre domaine d'activité professionnelle ; en recevant mon salaire (de travailleur manuel exécutant), j'acceptais d'être "acheté" pour me taire, sans attirer des ennuis sur mon employeur, bienveillant à mon égard. J'ai donc raisonné en termes de généralités sans désigner le texte NF/ISO fautif (mathématiquement et logiquement), qui n'aurait simplement jamais dû être entériné ni devenir officiel. Si nos concurrents en ont profité, pourquoi pas nous ? certes…
    … Depuis, au hasard d'études de simple détail, pareillement choquantes, j'ai rencontré 2 autres textes NF/ISO, beaucoup plus généraux, qui sont aussi aberrants, mathématiquement et logiquement. Je les discute ici, eux.

NF EN ISO 11137-2 §7.1 (*) – je crois y lire : "2 = 1 (ou moins)… officiellement"

BASE
    Sur un lot d'objets, pas tous testables (test destructif), on doit garantir un taux non-conforme de, au maximum, 1% ("Niveau d'Assurance", NAS). Que faire ? La norme dit de tester 100 objets, et d'accepter (tout le lot, bon à vendre) si on trouve 0 ou 1 ou 2 non conformes, refuser si 3 ou davantage. Un tableau de "Justification", chiffré ultra précisément, explique que cela découle de mathématiques probabilistes ("loi de Poisson") :

(tableau t1)

    [Personnellement, j'ai fait ces calculs à la maison, je ne cite pas bêtement le texte car je n'ai pas l'original, et je préfère comprendre ce que je fais : il s'agit chez moi de probabilités binomiales d'avoir X positifs sur 100, la probabilité générale étant 1% – cette loi binomiale n'étant pas douteuse contrairement à la paramétrique loi de Poisson, mais exprimant simplement le nombre de cas positifs sur le nombre de cas possibles obtenu par combinatoire exhaustive, cas jugés a priori équi-probables].
    L'argumentaire implicite est le suivant : si on refusait dès l'observation 2/100, on se tromperait dans 26% (=100%-74%) des lots à taux 1%. Donc on refuse seulement dès l'observation 3/100, qui fait quand même jeter à tort 8% (=100%-92%), ce qu'accepte généreusement l'industriel (suivant les normes officielles) pour assurer la qualité.

MA CONTESTATION
    Au lieu de partir de la présupposition que tous les lots sont bons, il me semble pertinent de partir en aveugle ("scientifiquement" au sens épistémologique) de l'échantillon observé. Que dit-il ? Si on observe 2 objets non conformes sur un échantillon de 100, cela ressemble plus à un taux de 2% sur la population du lot qu'à un taux de 1%, même si celui-ci n'est pas impossible.
    Prenons en aveugle l'hypothèse d'équi-probabilité pour les 10 taux de 0% à 9%. Si le lot est déclaré bon sans test, le risque d'erreur est de 80% (seules les 2 hypothèses 0% et 1% étant correctes sur les 10 hypothèses équiprobables). Maintenant, effectuons le test sur 100 objets ; si on en observe 2 non conformes, cela correspond (voir tableau ci-après) à 19% de chances de venir des hypothèses taux 0% ou 1% (sur la population). Donc, dans l'acceptation de la norme NF/ISO, il y a un risque d'erreur de 81%… pire que sans aucun test, cela vaut à mes yeux invalidation (quoique ce soit en aval du modèle arbitraire à 10 hypothèses 0% à 9% sans envisager les taux 0,1% ou 90% – on en reparlera).

(tableau t2)

    Note : si on avait rejeté, selon mon intuition première, les lots avec observations > 1/100 (au lieu de > 2/100), on aurait quand même eu – en cas d'observation 1/100 – un risque d'erreur atteignant 59%, plus d'une chance sur deux, inadmissible. Trancher au vu d'un échantillon de 100 objets, de n'importe quelle façon, paraît donc insatisfaisant : il convient de remettre en question l'emploi d'un échantillon aussi petit [même si le taux 1% n'est ici mis en balance qu'avec d'autres pourcentages entiers, sans envisager des taux comme 1,0000001% qu'il s'agirait de différencier de 1,0000000%, exigence infinie clairement irréalisable].

MA SOLUTION
    Le principe de l'induction statistique paraît admissible : on conclura sur la population au vu d'un échantillon réduit, testé/détruit pour cela, on quantifiera simplement le risque (la probabilité) de se tromper, et l'usage fixe souvent ce taux à 5% (soit 1/20) [sauf domaine grave où l'on peut requérir 1% ou 1 par million, mais voyons déjà où le classique 5% nous conduit].
    Je poserais :
– Demande 1 : pour conclure que le taux est 1% plutôt qu'une autre hypothèse (2%), il faut que 1% soit l'hypothèse de premier choix pour le résultat observé.
– Demande 2 : pour conclure à 1% plutôt qu'à une autre hypothèse, il faut que le risque d'erreur (d'acceptation à tort) soit inférieur ou égal à 5%.
    Quel est l'effectif nécessaire pour cela ? Centrons-nous d'abord sur la demande 1, en refusant dès que 1% n'est plus l'hypothèse la plus probable. [Ci-dessous, les valeurs max ont été obtenues par tâtonnement pour basculer de – en + la case de 2e hypothèse.]

(tableau t3)


    Le calcul révèle ainsi une surprise : même en accroissant la taille de l'échantillon, la demande 2 ne peut pas être satisfaite (pour des effectifs jusqu'à 9 000 – le chiffre 10 000 dépassant les capacités binomiales de mon outil de calcul personnel). Il faut donc renoncer à se baser sur la limite de la demande 1 : il faut aller au-delà, refuser dans certains cas pour lesquels la première hypothèse était bien le taux acceptable 1%. En visant un taux d'acceptation à tort < 5% (si possible, en requérant au minimum zéro non conforme sur l'échantillon sans pouvoir demander moins), cela donne les résultats suivants :

(tableau t4)


    Il n'y a pas de solution pour un effectif échantillon de 100 objets. Par contre, dès 200 objets on obtient cette possibilité de se limiter à 5% d'acceptation à tort – et la limite serait sans doute entre 100 et 200 si on se donnait la peine de la chercher. MAIS cela se fait avec un risque de rejet à tort de 87%, totalement inacceptable industriellement pour des produits de prix raisonnable. Donc, il faut augmenter encore la taille d'échantillon. Avec effectif échantillon de 3000 objets, on concilie 5% de rejets à tort et 5% d'acceptation à tort.
    Le détail montre que la valeur idéale est un échantillon de 2992 objets :

(tableau t5)

    Toutefois, ceci est calculé sur l'exacte hypothèse de 10 possibilités équiprobables 0% à 9%, or ceci est arbitraire. Il convient donc d'envisager une autre hypothèse pour voir le chiffre obtenu. Par exemple une progression géométrique : 0%, 1%, 2%, 4%, 8%, 16%, 32%, 64% soit 8 possibilités balayant mieux les possibles. Mais le résultat est parfaitement inchangé.

(tableau t6 = tableau t5, pour la portion résultats non masquée)

    Bref, il fallait un échantillon 30 fois plus important qu'annoncé par la norme NF/ISO. Mais, évidemment, un échantillon beaucoup plus gros coûte beaucoup plus cher à tester (et ne pas vendre), ce qui conduirait l'industriel à augmenter beaucoup le prix de vente unitaire. Et, certes, le client peut vouloir payer moins cher un produit moins sûr.

CONCLUSION
    En toute honnêteté, il ne fallait absolument pas dire qu'accepter un résultat 2/100 prouve un taux 1% maximum, mais il aurait fallu préciser que pour prouver un taux 1% maximum (avec un risque d'erreur statistique inductive <5%) le chiffre idéal est 2992 objets testés (avec 39 non conformes maximum). En pratique industrielle, cet effectif est réduit pour des raisons de coût en accroissant d'autant les risques d'acceptation à tort. En réduisant jusqu'à 100 objets, et en se centrant exclusivement sur les rejets à tort (en oubliant totalement les acceptations à tort), certains couples industriel/client (le client étant parfaitement informé de la situation) peuvent convenir d'accepter 2 non-conformes sur 100 objets testés, cela ne garantissant aucunement un taux de 1% maximum non conforme, même avec confiance statistique limitée à 95%.
    Il est clair que cet énoncé lucide n'était pas commercialement présentable, ni recevable, ça expliquerait que l'honnêteté mathématique ait été mise à la poubelle.


NF ISO 2859 - 1 : 2000 (**) – je crois y lire : "0/800 garantit au plus 1/6667… officiellement"

BASE
    Sur un lot d'objets, pas tous testables (test destructif), on doit garantir un taux de non-conformité, au maximum, égal à 0,015% ("Niveau de Qualité Acceptable", NQA). Que faire ? La norme dit de tester 800 objets, et d'accepter (tout le lot, bon à vendre) si on trouve Zéro non conforme, refuser si Un ou davantage. De très multiples tableaux confirment cela, en fonction de la taille du lot (ici : 2 à 150 000 objets normalement, 2 à 35 000 avec sévérité spéciale), et avec des diagrammes illustrant les probabilités de rejets dans divers cas. Au milieu d'une foule d'annexes chiffrées, un tableau (qualifié de binomial) quantifie le risque client, de signification mystérieuse, le texte ayant donné en introduction une définition peu claire assortie du commentaire "usuellement 10%". Pour le NQA 0,015% le risque client est ainsi chiffré à 0,287%, pour le NQA suivant (0,025%) il est de 0,290% mais ce chiffre n'est donné que pour un cas particulier composite, demandant de se reporter à d'autres pages, extrêmement complexes.
    L'introduction du texte disait que le but était de minimiser les coûts et prévenir les dérives de production préjudiciables au client.

MA CONTESTATION
    Aucune explication mathématique n'est donnée pour justifier l'effectif 800 requis, mais on peut en mesurer les conséquences. Pourquoi pas plus ? Pourquoi pas moins ?

(tableau u1)

    Il s'agit donc d'accepter 11% de rejet à tort sur les lots "limite", à taux de non conformité égal pile 0,015%. Puisqu'un échantillon plus petit ferait moins de rejet à tort, il est clair que le chiffre 800 est choisi comme compromis pour minimiser aussi les acceptations à tort.
    [De ce côté, le fait d'avoir cité 0,025% dans la même norme suggère des hypothèses de 0,005% en 0,005%. Les hypothèses 0,020% (1/5000) ou 0,025% (1/4000) etc. ne sont aucunement invalidées par le résultat 0/800, encore moins par 0/600.]
    On prétend garantir 0,015%, cela fait 1/6666,7. Pour vérifier cela, il paraîtrait judicieux de prendre un échantillon de 6 667 objets, en acceptant 1 non conforme et refusant 2 (même s'il y a un risque non nul d'en obtenir 2 quand le taux moyen sur la population est 1/6666,7). Ou bien en l'exprimant sous la forme 0,5/3333,3, on prendrait un échantillon de 3334 objets, en acceptant 0 non conforme et refusant 1.
    Effectuer les calculs binomiaux associés montre que l'effectif 800 entraîne un risque d'acceptation à tort de 55%, certes meilleur que le 56% obtenu avec effectif 600, mais moins bon que le 40% obtenu avec effectif 3334. En acceptant 1 non conforme sur le test, l'effectif 6667 ne convient pas (risque d'acceptation à tort 61%, pire que le 60% sans aucun test) et l'idéal relatif semble l'effectif 10 181 objets, équilibrant les risques d'acceptation à tort et rejet à tort à 45% (sous hypothèse de 10 classes à pas 0,005%).

(tableau u2)

    45% de rejet à tort serait inadmissible, pour l'industriel prêt à accepter 11%. Là semble la clé, donc l'effectif du test est arbitrairement limité à 800. Mais, si le client admet un risque d'erreur 10% pour l'induction d'échantillon à population, quel taux lui est garanti par le résultat 0/800 ?
    La réponse est qu'est exclu le taux de 0,2874% (ou supérieur), soit 1/348, ce qui confirme pile le chiffre mystérieux de la norme. Et il est clair que ce taux 10% n'intervient que là, puisqu'il aurait conduit ailleurs à revendiquer 0,1317% au lieu de 0,015%, ou à choisir 702 objets au lieu de 800.

(tableau u3)

    Bref, on affirme un taux de non-conformes (mieux que) 1/6667 en qualité de produit et, en fait, on garantit au client un taux (mieux que) 1/348. Pourquoi ? Pour ne pas trop jeter de lots conformes, et pour réduire le coût du test.

MA SOLUTION
    Enoncer en clair que la qualité annoncée n'est aucunement la qualité garantie (même pas avec degré de confiance usuel : 95% ou 90%).
    Signaler que le taux d'acceptation à tort est estimé à 55%.
    Chiffrer les garanties données en fonction des risques client envisageables : que l'industriel chiffre son niveau de qualité acceptable (taux de non-conformité) à <1/6667 garantit en fait à l'utilisateur <1/348 avec risque 10%, <1/268 avec risque 5%, <1/174 avec risque 1%, <1/116 avec risque 1‰.

CONCLUSION
    Le contexte, illustré par ces 2 normes, m'attriste : les industriels occidentaux (se gaussant de la piètre qualité Made in China) mentent manifestement quand leur bagou commercial "Qualité" consiste à garantir une vigilance de test rigoureux, totalement en faveur des clients, avec une objectivité scientifique, pureté mathématique. Ces normes me semblent révéler un système pseudo-scientifique visant le profit en mentant sur la crédibilité – grâce au soutien (mathématiquement erroné) d'experts officiels signataires, avec approbation des universitaires, et avec un formalisme mathématique (ou une avalanche de chiffres et diagrammes) dissuadant le profane de tout examen. Sauf anormal "matheux amateur" dans mon genre (Bac C mention très bien, travailleur manuel employé non cadre, réformé du service militaire pour troubles psychiatriques, soigné pour tendances suicidaires). Si je ne suis pas lu, ça n'a aucune importance, j'aurais vidé mon sac, craché ma bile. Je mets ça sur Internet pour sauvegarde au cas où mon domicile brûle.
    Je ne suis peut-être pas cher payé (à l'échelle locale), mais je conteste fermement la supériorité des experts professeurs approbateurs, qui me semblent avoir été grassement payés pour entériner des mensonges. Que les applicateurs diplômés soient aveugles est hélas logique, suivant ce qui est enseigné comme le Bien. De ce côté, ce n'est pas le principe scientifique qui est pourri, mais les individus dominants ayant le pouvoir en blouse blanche.
    Si je me trompe mathématiquement (cliquer sur les noms de tableaux affiche les formules de calcul que j'ai employées), il faudrait que cela soit démontré mathématiquement, logiquement, non au nom de l'autorité, de la force oppressive, de la menace répressive. L'enjeu est, je crois, la crédilibilité Qualité, la crédibilité industrialo-commerciale des affirmations type "client-Roi", la crédibilité de la technocratie et de l'éducation occidentales.

---------------------------------------------------------------------------
(*) NF EN ISO 11137-2: Juillet 2006 Stérilisation des produits de santé, Irradiation ; Etablissement de la dose stérilisante
(**) NF ISO 2859-1: Avril 2000 Règles d'échantillonnage pour les contrôles par attributs ; Procédures d'échantillonnage pour les contrôles lot par lot, indexés d'après le niveau de qualité acceptable (NQA)


Correction 04 Juin 2015 : pour NF-ISO 11137, comme je critique les normes officielles, je peux me critiquer. A mon avis, à tête réfléchie, il n’est pas correct de dire que 39/2992=1,34% de mauvais garantit que le taux de mauvais est inférieur ou égal à 1%. En effet si 1,34% comme 1,49% s’arrondissent à 1%, il aurait fallu dire qu’on entendait prouver que le taux de mauvais était inférieur à 1,5% et non inférieur ou égal à 1%. De même, il n’est pas obligatoire de ne considérer que les hypothèses 1%, 2% etc. Sur un lot, le taux de mauvais peut parfaitement s’avérer 1,4% si on vérifiait la population entière du lot et pas seulement un échantillon, et il serait incorrect d’affirmer que ce 1,4% est inférieur ou égal à 1%. D’où ma demande 3 : prouver que le taux de mauvais ne dépasse pas ce 1,00000%, pour cela prouver qu’on est en-dessous. J’utilise la fonction beta d’intervalle de confiance (moins absurde que la fonction gaussienne donnant une probabilité non nulle à des nombres négatifs d’objets) :
- Avec 0 mauvais exigé, il faut monter à 299 objets pour garantir (avec risque 5%) que l’on ne dépasse pas 1,000000%.
- Si 1 mauvais est rencontré sur 299, il faut monter à 473 objets vérifiés pour garantir ne pas dépasser 1,000000% mauvais, donc le recontrôle devra porter au minimum sur 473-299=174 objets, à trouver tous bons. Soit un taux mauvais de 0,21%, bien plus exigeant que le 1,34% annoncé plus haut.
- Avec un effectif de 2992 comme envisagé avant, le taux de mauvais maximum serait de 20/2992 soit 0,67%. Plus on augmente la taille d’échantillon, moins on prend de risque dans l’estimation de taux sur la population, et donc on tend vers accepter 0,99% (exemple 948/cent mille=0,95% convient).
  Bref, pour démontrer que 1% de mauvais au plus, ce n’est pas 2/100 au maximum acceptable, c’est 0/299 ou 1/473 ou 2/628 (ou 948/100000). Faire un contrôle plus petit moins cher, et refusant moins de lots, est industriellement bien plus rentable, c’est simplement menteur, escroq.


Ajout 13 Juin 2015 : je reviens sur l'erreur du "2/100 valide 1%" avec une autre approche, sans hypothèse, et avec graphique horrible des taux d'erreur commis en prétendant le contraire, dans l'ajout du 12 Juin 2015 à mon site http://www.kristofmeunier.fr/NonSignificatif.htm