Maths décrypteuses amusantes
Analyse critique de la norme ISO 7218 :2007 paragraphe 10.3.2.4.1 (Cas d’une boîte contenant moins de 10 colonies)
par Binom Yalle, 08 OCT 2011

  Je n’ai pas le temps à mon boulot d’analyser ça, et ce n’est pas mon métier, les Maths, alors je le fais à titre de loisir récréatif, en week-end.

• Base résumée :
  [Contexte, pour qui « débarque » sur le sujet : si on met 1g d’aliment sur une boîte de culture, et que poussent 30 colonies bactériennes, le laboratoire d’analyse répond « l’estimation est égale à 30 bactéries par g », la norme dit ici : « attention si moins de 10 colonies par boîte », (autrement dit : moins de 10 puissance 1, autrement dit log10 inférieur à 1, les dénombrements bactériens se faisant sur des amplitudes dépassant le million, de <1/100g à > 100000/g). (Bien sûr g est remplaçable par kg ou dg ou mg etc. le "gramme" veut dire ici "échantillon moyen virtuel d'éléments discontinus pas présents partout", exemple : un tiers d'individu bactérien, quand "boîte" veut dire "quantité équivalente mais effectivement prise, au hasard", exemple zéro ou un ou deux individus bactériens)]
   Une limite de détermination peut être définie, pour que l’incertitude relative reste modérée : x= 1/CV² dans le cas d’une distribution de Poisson. Un Coefficient de Variation 50% est dit raisonnable en microbiologie, d’où x=4, donc rendu de résultat obligatoirement comme : "< 4" (bactéries par gramme dans l’exemple cité) si 1 ou 2 ou 3 colonies par boîte (non "= 1", ou 2 ou 3).

• Mes objections :
1/ Je ne crois pas à la loi de Poisson, qui est un dérivé de loi binomiale devenu injustifié maintenant que les ordinateurs modernes gèrent la loi binomiale (Wikipedia confirme : "Lorsque n tend vers l'infini et que p tend vers 0 avec np = a, la loi binomiale converge vers une loi de Poisson de paramètre a. En pratique, on remplace la loi binomiale par une loi de Poisson dès que n > 30 et np < 5 ou dès que n > 50 et p < 0.1." La pratique d'avant l'informatique performante est préhistorique, pas convaincante). Et j’ai invalidé les tests statistiques de suivi de loi, ailleurs, donc l’éventuelle « démonstration statistique que ça suit une loi de Poisson » serait pour le moins suspecte.
2/ Pourquoi tirer un chiffre super-précis d’un CV 50% pifométrique, paraissant déjà énorme, pas du tout évident ?
3/ Le CV sur valeurs brutes n’est peut-être pas la mesure judicieuse pour les dénombrements microbiens, il est plus satisfaisant de normer l’écart-type des log10, pour que ±2 écart-types fassent maximum 1 log10 (même si ce ±2 écart-types est une convention gaussienne, pas binomiale, pour 95% des mesures)
4/ Vers le bas de la zone des quantifications possibles, la notion de ±2 écart-types conduit à une aberration : la norme acceptant CV 50% accepterait des chiffrages à ±100%, c’est à dire presque « n’importe quoi »… Il faudrait vraiment expliquer d’où vient ce chiffre 50% parachuté comme raisonnable (hélas, ça renvoie à une autre norme dont je n’ai pas pris note de contenu : ISO 13843, à supposer que ce soit davantage convainquant que les normes habituelles, qui parachutent des chiffres sans démonstration de bien-fondé).

• Mes réponses :
* 0/ Je pars en sens inverse, de concentration connue, je ne vois pas comment on peut partir du résultat pour modéliser. Si quelqu’un fait mieux, ce serait mieux, oui.
* 1/ Avec loi binomiale : je trouve que 1 bactérie par gramme donne sur boîte de 1g un CV de 100%, 2/g : CV 71%, 3/g : CV 58%, 4/g : CV 50%, 5/g : CV 45%, 6/g : CV : 41%, 7/g : CV : 38%. D’accord ça confirme le 50% de CV pour 4/g de Poisson, mais l’évolution est continue, sans expliquer le caractère « raisonnable » de la décision d’exclusion pile au-dessus de 50%.
* 2&4&3/ Modélisation binomiale :
– la concentration vraie 1/g donne par boîte 0 à 3 dans 98% des mesures (0 à 2 dans 92%, 1 à 100 dans 63%). Donc si on exige de couvrir minimum 95% des mesures, on s’attend à obtenir 0 à 3/boîte.
– la concentration vraie 2/g couvre minimum 95% des mesures avec les réponses 0 à 5/boîte (pas 0 à 4, ni 1 à 100).
– la concentration vraie 3/g couvre minimum 95% des mesures avec les réponses 0 à 6/boîte ou 1 à 11 (pas 0 à 5, ni 1 à 10).
– la concentration vraie 4/g couvre minimum 95% des mesures avec les réponses 1 à 8/boîte (ou 0 à 8, ou 1 à 9, pas 0 à 7, ni 2 à 100).
– la concentration vraie 5/g couvre minimum 95% des mesures avec les réponses 1 à 9/boîte, ou 2 à 11 (ou 0 à 9, ou 1 à 11, pas 0 à 8, ni 2 à 10, ni 3 à 100).
– la concentration vraie 6/g couvre minimum 95% des mesures avec les réponses 1 à 10/boîte, ou 2 à 11 (ou 0 à 10, ou 1 à 11, pas 3 à 100).
– la concentration vraie 7/g couvre minimum 95% des mesures avec les réponses 2 à 12/boîte, ou 3 à 13 (ou 1 à 12, pas 0 à 11, ni 2 à 11, ni 3 à 100).
   Ceci établi, il est utile de reprendre le principe : « ± 2 écart-types (soit 95% des valeurs, estimé très grossièrement) » compris dans 1 log 10 ; cela ne conduit pas nécessairement à en conclure « écart-type maximal < 0,25 log10 », il est plus judicieux (sans aucune hypothèse gaussienne superflue) de noter qu’il faut que l’amplitude la plus restreinte contenant 95% des valeurs ne doit pas dépasser 1 log 10. Cela revient à dire, pour les minima et maxima de l’amplitude la plus restreinte contenant 95% des valeurs : log10(max)-log10(min)<1, autrement dit max/min <10. Alors effectivement, ce ratio n’est pas calculable quand le minimum est 0, mais cela donne tout de même, pour 7/6/5/4/3 par g : les ratios 4,3/5,5/5,5/8/11. On franchit effectivement la barrière ratio=10 quand on passe de 4/g à 3/g. Ouf, on confirme le saut en ce point.
* 0’/ On voit que, même avec 7/g, il est usuel d’obtenir le résultat 3 ou 2/boîte, donc obtenir ce résultat ne conduit pas du tout à dire « on a seulement prouvé que <4 », cela conduit à dire que « on a trouvé <4, ce n'est pas forcément vrai, et on ne peut pas chiffrer plus précisément car les concentrations concernées ne sont pas mesurables avec précision satisfaisante, avec variations de moins d’un log10 ».

• Bilan :
   La norme avait raison de dire « attention en dessous de 4 par boîte », mais au lieu d’en démontrer la logique (venant logiquement du besoin clair « 95% des mesures dans 1 log10 »), cela était parachuté sur des arbitraires chiffrés étranges, des formules contestables (et méconnues) embrouillant pour rien, cachant la logique pour parler aux « instruits » dénués d’esprit critique. (Ça semble construit comme une vaste tromperie : il y a trois lignes entières pour dire que le CV est appelé RSD à l'américaine et ici codé w, avant de balancer une formule prétendue incontestable en invoquant la célèbre distribution de Poisson ; apparemment, ça semble construit pour que le technicien dise "j'y comprends rien" et que son chef le rassure "moi j'ai tout compris, mais difficile de t'expliquer, tu as pas fait assez d'études supérieures", alors qu'il n'a en fait rien compris non plus, seulement connaissance préalable que CV se dit RSD en américain en ayant entendu des profs invoquer la loi de Poisson ; eh bien non, ça ne suffisait pas à comprendre, et les rédacteurs de cette norme n'ont visiblement rien compris à ce qu'ils affirment, sinon ils l'exprimeraient de manière pertinente, convaincante, partant d'un besoin utilisateur.) Ce n’est pas grave, c’est seulement triste. Ou amusant, c’est vrai, mieux vaut en rire.