Rébellion statistique, ou Naufrage statistique ?
(par le seul noyé, ou seul survivant)

I/ DÉCHÉANCE, écrit le 1er Aout 2010 (+ ajouts 29 Décembre 2010, 15 Octobre 2011)

   Je suis très choqué par les statistiques, et ça ne veut dire :
– ni que sont troublants les comptages (statistiques descriptives – qui sont certes en aval de l’axiome réaliste, mais ce n’est pas ici le sujet)
– ni que sont fausses les mathématiques impliquées en statistiques inductives (décrivant la population au seul vu d’un petit échantillon, avec risque d’erreur chiffré).
   Ce qui s’avère nauséabond est la très courante utilisation mauvaise, mathématiquement erronée, des statistiques inductives, auxquelles les utilisateurs font dire ce qu’ils demandaient et non ce que permettent effectivement de conclure les chiffres. Les statisticiens ne signalant pas le malentendu semblent (jusqu’à preuve du contraire) simplement complices, et/ou achetés.
   Je donnerai deux exemples à charge avant de tenter en sauvetage un compromis, raté.

1- Démonstrations de linéarité

   Un fabricant d’appareils de mesure (ou un comité réunissant ces fabricants) veut que leurs appareils répondent « linéairement », donnant une mesure chiffrée égale à la valeur « vraie » via un calcul très simple électroniquement (ou informatiquement). Evidemment, les aléas de répétabilité font que la relation n’est pas pile parfaitement établie à chaque mesure, mais on espère que la relation est : linéarité essentielle + micro-aléa au hasard (dans la fourchette d’incertitude déterminée).
   Les responsables ressortent des oubliettes leurs cours universitaires et demandent donc que l’on prouve statistiquement cette linéarité. Soit ils le font eux-mêmes en arguant de leurs diplômes, soit ils embauchent de jeunes statisticiens, virés pour faute professionnelle s’ils rechignent ou objectent, j’imagine.

a) chromatographie etc.
   Dans des publications scientifiques, plusieurs centaines dans le domaine des dosages HPLC par exemple, on peut lire quelque chose comme : « linéarité prouvée parfaite : coefficient de corrélation linéaire R > 0,99 » (la valeur idéale absolue étant 1,00 soit 100% et >99% paraît quasi parfait), « statistiquement significative avec risque d’erreur inférieur à 0,01% ! ».
   A la fin des années 1980, jeune technicien biochimiste, j’ai été choqué par ce calcul ainsi publié (donc « scientifiquement approuvé ») dans presque chaque article, car je trouvais expérimentalement qu’une technique sous-dosant de 60% à forte concentration saturante (donc rendant une réponse 40% là où l’on voulait 100%) se voyait qualifiée de linéaire à plus de 99%, même si les concentrations saturantes représentaient 30% de la gamme de mesures.
   Une première explication s’est avérée le jeu de mot portant sur « linéaire ». En langage courant, « linéaire » désigne une droite (y=ax+b) mais en langage mathématique français : « linéaire » désigne une proportionnalité (y=ax) tandis qu’une droite quelconque est dite affine (y=ax+b). En matière de dosage, la « linéarité » examinée avec R se référait implicitement à une droite affine optimale, donc ne passant pas forcément par zéro-zéro et requérant 2 étalons de calibration distants, alors que nous voulions (comme tous les utilisateurs ou presque) une proportionnalité (type loi de Beer-Lambert) ne requérant qu’un seul étalon de calibration.
   J’ai donc remplacé le mystérieux coefficient de linéarité R (pour 2 étalons minimum) par l’Indice de Linéarité IL (de mon invention, pour 1 étalon) = Facteur de réponse minimal / Facteur de réponse maximal, le Facteur de réponse (théoriquement constant) étant classiquement (requis par les logiciels de calculs HPLC) : le ratio concentration sur mesure (a=y/x venant de y=ax). Bref, j’obtenais un très pertinent indicateur quantitatif de linéarité égal à l’erreur maximale relative pour cause de non-linéarité (enfin: son complémentaire plutôt, parfait à 100% soit 0% d'erreur). Et la méthode de dosage officiellement validée avec R>0,99 quasi 1,00 dégringolait à IL=0,40 très loin de 1,00, en dépeignant enfin la situation très mauvaise (d’où, pour améliorer : réduction de la gamme dosable, recours obligé à multiples étalons, etc.).
   La seconde explication, je ne l’ai pas vue tout de suite, je la décrirai plus loin. Mais il ne fallait en tout cas pas gober l’indice statistique R comme une boîte noire répondant indéniablement (« sauf experts de très haut vol ») au besoin de maîtrise en qualité de mesure, ce qu’approxime bien mieux l’Erreur Maximale Tolérée.

b) bactéries etc.
   Dans les années 2000, (sortant de l’hôpital,) j’ai été choqué par une autre « linéarité » abusive : la norme officielle internationale concernant les techniques de dénombrements bactériens exigeait leur linéarité. Or la démonstration de celle-ci se limitait à un test statistique requérant un résultat non significatif avec risque de première espèce inférieur ou égal à 5%. Aïe… réveillant le douloureux souvenir d’un test d’équivalence entre sous-lots qui m’avait choqué quinze ans plus tôt dans un autre service, mes objections d’alors étant reçues avec haussement d’épaules par les « supérieurs » (sachant réciter par cœur le dictionnaire des médicaments, quel talent !) et les « experts » (officiellement mathématiciens).
   J’ai encore signalé que c’était absurde : une non-significativité en la matière vaut non-conclusion et non pas du tout : démonstration de linéarité (ou d’égalité autrefois). On m’a cette fois fait taire en me traitant de pointilliste « ayatollah de la sur-qualité » perfectionniste absurde. Paf dans les dents. Hélas, il se trouve que j’ai mathématiquement raison, et qu’il s’agit d’un mensonge éhonté. Je crains que ce soit une bombe valant aussi pour les démonstrations d’innocuité qui fondent la pharmacie (et la chimie moderne, voire maintenant l’agriculture).
   Je prends quatre exemples, quatre techniques de mesure :
A/ Risque de première espèce (pour rejeter l’hypothèse « nulle » dite de linéarité) mesuré = 6%
B/ Risque 2%
C/ Risque 0,2%
D/ Risque 0,000 002%
   Avec le seuil de décision à 5%, donc « risque de se tromper inférieur à 5% », les officiels concluent que la technique A est démontrée linéaire, bonne (vendable certifiée), les hypothétiques techniques B-C-D étant démontrées non linéaires, mauvaises (refusées avec rigueur « honnête »). Au quidam, « même pas cadre », osant dire que c’est (cette démonstration de validité pour A) une erreur de logique, on hurle que c’est un rigide débile ne comprenant rien aux statistiques, domaine où l’on tolère de se tromper dans moins de 5% des cas sans exiger un impossible 0% d’erreur ! Hiérarchiquement ligoté, le petit se tait, et continue de toucher son salaire garant de ce silence. Mais il se trouve qu’il avait raison mathématiquement, et que les haut-diplômés sont donc des ânes prétentieux, ou des malhonnêtes chers payés.
   Explication : on peut dire qu’avec une rigueur accrue, pour un produit haut de gamme, on va choisir un seuil d’erreur inférieur à 1% au lieu du classique 5%. Et alors ? B deviendrait « prouvé linéaire » ? avec moins de 1% de chances de se tromper ? alors qu’on l’avait prétendu « prouvé non-linéaire » avec moins de 5% de chances de se tromper ? Ça paraît contradictoire. Mais… le moindre risque paraît préférable, considérons B validé… prouvé linéaire, tandis que les mauvais C et D seraient prouvés non-linéaires. Mais pour une autre application, létale, ce risque 1% est jugé trop élevé, on requiert de trancher à 0,1% et… C devient « prouvé linéaire » ! Et… pour une application pouvant entraîner des morts humaines de villes entières (en cas d’erreur de mesure, genre réacteur nucléaire), on requiert 0,000 001% comme risque maximal, alors… l’horrible D devient « prouvé linéaire » ! Plus on prétend restreindre le risque d’erreur en validation, plus on valide de choses mauvaises, dangereuses risquant de tuer ! Ne faudrait-il pas écouter le modeste quidam qui contestait ? (C’est fictif, ça ne tue guère en fait, donc il n’est pas écouté).
   Il disait simplement que les démonstrations ne valent qu’en significativité, la non-significativité valant absence de conclusion, il s’agit rien moins que de l’introduction capitale, très compréhensible, à la première leçon de test-statistique (grand grand merci à mon ex-professeur injustement mal-aimé Monsieur Cerf…). A est non-linéaire avec risque inférieur à 7% et sans conclusion avec risque inférieur à 5%, B est non-linéaire avec risque inférieur à 3% et sans conclusion avec risque inférieur à 1% (C est non-linéaire avec risque inférieur à 0,3% et sans conclusion avec risque inférieur à 0,1%, D est non-linéaire avec risque inférieur à 0,000 003% et sans conclusion avec risque inférieur à 0,000 001%). Là est la parfaite logique : il ne faut pas se satisfaire de chiffres prétendus affirmer B est prouvé faux avec moins de 5% de chances de se tromper, et B est prouvé vrai avec moins de 1% de chances de se tromper. C’est contradictoire (> 95% de chances que ce soit faux + > 99% de chances que ce soit vrai dépasse largement les 100% qui constituent la totalité des cas, ça prouve l’erreur). Le détail des chiffres et de leur signification précise est : B est prouvé non-linéaire avec moins de 5% de chances de se tromper, et si on exige moins de 1% de chances de se tromper alors on ne peut rien conclure.
   « MAIS » hurleront les supérieurs, « ce n’est pas ÇA qu’on voulait ! On ne voulait pas rejeter, prouver faux, on voulait prouver bon ! ». La réponse honnête est alors : « mathématiquement, ce test ne le permet pas ». « MAIS on vous a embauché pour prouver bons nos produits ! enfin : pas vous, petit biologiste inférieur, mais nos grands statisticiens professionnels ! Et ils ont été tout à fait d’accord, eux ! Avec un avis expert, professionnel, diplômé spécialement en la matière ! ». Hélas oui, alors il faut se taire, salaire (et traites bancaires, épouse…) oblige. Mais, mathématiquement, c’était imparable (jusqu’à preuve mathématique du contraire).

c) chevaux etc.
   Une stagiaire doctorante voulant créer des tests équins nous a dit un jour être frustrée que, quand on a trop de valeurs, l’Analyse en Composantes Principales trouve tout significatif, devenant un outil inutilisable… « faute de connaître trop bien le sujet », ce qui paraît absurde.
   Oui, je suis d’accord avec ce caractère absurde, mais cela me semblait révéler un malentendu plus profond. Je l’avais entrevu en 1983 à l’université, où notre professeur Monsieur Cerf nous avait judicieusement dit que dans le test de corrélation linéaire, il fallait prendre le risque 1% car avec 5% tout et n’importe quoi serait à tort « prouvé linéaire ». A l’époque, comme il convient quand on est étudiant, j’avais pris des notes et l’avais appliqué, ceux qui "cherchent à comprendre et à approuver" avant d’obéir étant recalés. Mais, quand j’ai acheté puis étudié un bon gros livre de statistiques (d’un Monsieur Saporta) pour mes loisirs d’analyses biblio-aérophiles, j’ai compris le détail du problème : le test de corrélation linéaire ne prouve en rien qu’il y a linéarité, il ne fait que rejeter significativement (sauf non-conclusion) l’hypothèse d’un nuage de points quelconques. Alors effectivement, il devient significatif dès qu’il y a une tendance, bien loin de la linéarité effective. En abaissant le risque seuil à 1%, on réduit cela mais le problème de fond demeure.
   Je l’ai montré (à la maison) avec un exemple cet été, l’enrichissant du paramètre « nombre de valeurs » : si on prend un modèle de dosage avant saturation (une ligne brisée, pente puis plateau horizontal), avec aléa nul, un nombre très réduit de 4 valeurs donnera une non-conclusion (non en linéarité, ça peut être un nuage quelconque), 6 valeurs donnent un test significatif à risque inférieur à 5% (oui, on rejette l’hypothèse nuage de points quelconques) mais pas à risque inférieur à 1% (non, ce n’est pas prouvé une droite). On retombe bien sur l‘énoncé du cours, merci. Toutefois, 9 valeurs donnent un test significatif à 1% mais pas à risque inférieur à 0,05%, 17 valeurs donnent un test significatif à 0,0001% mais pas à 0,00005%. Ce ne sont pas que des chiffres quelconques qui traduisent qu’une conclusion est toujours assortie d’un risque, attention : c’est la preuve qu’on réalise une erreur de conclusion si on se méprend sur le sens de la significativité. Ici, une non-droite certaine (pour celui qui programme les valeurs) se voit qualifiée de « droite démontrée », sauf à restreindre très très fort le « risque (de conclusion à tort) », immensément au-delà de l’usuel en statistiques. Et cela apparaît d’autant mieux que le nombre de valeurs est grand, limitant l’incertitude de l’extrapolation depuis l’échantillon vers la population : paradoxalement, plus on connaît la distribution plus on tend à faussement conclure à une linéarité. L’évidence serait apparue d’emblée si on s’était contenté de conclure : je rejette ou accepte l’hypothèse « nuages de points » sans prétendre démontrer la linéarité, qui est hors-sujet même si le détail du calcul emploie l’outil de se référer à une droite optimale. (Là est la seconde erreur des publications HPLC, hélas approuvées).
   Bref, même quand on ne commet pas l’hérésie de prendre pour démonstrative une non-significativité, la significativité peut conduire à des erreurs complètes en matière de démonstration prétendue. Il n’est nullement mauvais d’avoir énormément de valeurs collectées avant d’inférer, ça ne fait souvent que révéler une erreur de fond. Rejeter une hypothèse (dite nulle) n’est aucunement prouver valide son complémentaire arbitrairement choisi parmi une foule de possibilités. Le risque d’erreur de première espèce n’est qu’interne à l’hypothèse que l’on entend rejeter, il n’a rien à voir avec la crédibilité de cette hypothèse, dont les innombrables concurrentes ne sont pas examinées.
   Eh, la science s’effondrerait, avec cette façon (rigoureuse) de penser !? Peut-être, oui. La biologie (et les sciences humaines) en premier, apparemment.

d) gélules etc.
   Le « Guide de validation des méthodes de dosage biologique » [Commission SFSTP, Société Française des Sciences et Techniques Pharmaceutiques, STP Pharma Pratiques 12(6) 317-336 2002] répète comme bonnes et justes les démarches que je qualifiais d’horreurs en b) et c).
   Ainsi, pour démontrer une linéarité, la seule exigence est de vérifier significatif le « test de l’existence d’une pente significative (test F, seuil 1%) » et non-significatif le « test d’écart à la linéarité (test F, seuil 5%) ». On retrouve parachuté le besoin de 1% plutôt que 5% pour dire que c’est linéaire, en ne percevant pas que cela ne fait qu’écarter le nuage de points sans prouver en rien la linéarité ; on retrouve aussi parachuté la « validation par non-significativité » avec faible risque de 1e espèce 5% (principe fautif, je l’ai démontré), en ne percevant pas que celui-ci n’est défini que pour les rejets. La conjonction des 2 erreurs s’annule-t-elle en devenant pertinente ? Il faudrait le prouver mathématiquement. Si c’est parachuté comme loi indubitable, un contre-exemple suffit à l’invalider. Je le donne assez facilement avec ma droite ascendante tronquée en plateau :
x   y
0   0
1   1
2   2
3   3
4   4
5   5
6   5
7   5   pente F = 56 soit p = 0,1 % < 1%, significatif, « très OK »
8   5   écarts F = 1 soit p = 35% > 5%, non-significatif, « très OK »
   La courbe cassée est alors « démontrée linéaire » totalement à tort. Mais la contestation de l’autorité (même par l’intelligence critique, argumentée, mathématiquement prouvée) n’est pas tolérée par notre enseignement français, parental comme « scientifique supérieur ». Tout le système pharmaceutique (et universitaire) s’écroule ?
   Confirmons avec un autre paragraphe : pour démontrer l’exactitude, il est affirmé que la méthode est exacte si le test de différence (Mesure – Référence) est non-significatif : intervalle de confiance contenant la valeur zéro. Autrement dit plus loin : il s’agit avec l’étude de linéarité d’établir que la droite optimale y = ax+b vaut y = x (justesse), ce qu’en pratique on détermine en disant « a n’est pas significativement différent de 1 et b n’est pas significativement différent de zéro ». … Tout ceci est clamé sans percevoir qu’en remplaçant le risque <5% (faible mais un peu gênant) par <0,0001% (génial) on se mettrait à tout accepter, à valider n’importe quoi (au lieu d’accepter une pente de 0,9 à 1,1 par exemple, on l’accepterait de 0,1 à 100)… Le risque d’erreur <5% en rejet va en fait dans le sens de risque <95% en acceptation (donc risque <0,0001% en rejet devient risque <99,9999% en acceptation, ce qui me semble prouver le caractère idiot, ou malhonnête, de cette prétendue validation). Les plus hautes commissions d’experts, responsables de la Santé Publique, ne l’ont pas compris – ou pas avoué, pour mieux se remplir les poches. Les professeurs enseignant à réciter et appliquer, sans réfléchir et sans oser douter, seraient complices. Aïe, ça fait mal d’arriver à cette conclusion, ma famille étant enseignante. J'espère me tromper, mais j'attends la démonstration mathématique de cette erreur.

2- Démonstrations de normalité

   Hormis les professeurs fonctionnaires, non soumis à pression hiérarchique pour rendre les résultats attendus, des statisticiens honnêtes semblent exister, parmi les étudiants n’ayant pas encore de travail rémunéré. On peut donc espérer qu’ils aient la lucidité de prévenir les pseudo-démonstrations abusives. Toutefois, s’ils n’ont pas éclaté de rire quand leurs professeurs leur ont exposé les tests « paramétriques », il reste un problème.
   Les premiers tests présentés, en statistiques inductives, sont basés sur l’exigence « paramétrique » : « si et seulement si les valeurs suivent une loi normale ». Or, ce vocable appelle immédiatement la question du fond de la classe-amphi « éh, attendez msieu, comment on démontre que ça suit une loi normale ? ». Et la réponse logique est : « patience, vous verrez ça dans un autre cours ». Or le cours en question… (je ne l’ai hélas pas eu car on n’avait des maths qu’en première année, mais d’après le test de Kolmogorov-Smirnov rapporté par Saporta) paf, c’est une pseudo-démonstration par non-significativité, donc invalide, je l’ai montré plus haut. « Ne pas rejeter l’hypothèse de normalité » n’est aucunement la démontrer valide ! Zéro pointé ! (Enfin, les élèves ne sont pas habilités à recaler leurs enseignants, mais ce serait la situation, je crois).
   Je le sais, on me répond que « il n’y a pas que les mathématiques dans la vie, la confiance en soi et l’intuition comptent davantage pour l’entreprise », « le verbe commercial et le charisme jovial sont bien plus importants que l’injuste outil de sélection scolaire bêtement matheux à lunettes », etc. Je soupire, voyant triompher les malhonnêtes menteurs, c’est tout. D’ailleurs pas « triompher » de moi, puisque je n’ai pas d’ambition sociale, n’essayant que de bien faire mon travail, essentiellement manuel.

   Pire : à supposer qu’il soit développé un test concluant à la normalité par significativité… je suis prêt à le casser aussi. Une erreur (de conclusion) évidente interviendrait avec des mesures bornées : ne pouvant pas être moins que le minimum et pas plus que le maximum. Exemple : on met des souris, droguées par la substance instable XYZ141, sur un long parcours étroit, avec un fromage odorant au bout, et on mesure quelle borne elles ont atteint en 27 secondes, temps d’extinction du produit. On obtient la courbe suivante :
Borne 0 (départ sans bouger) : 0 souris
Borne 1 : 0 souris
Borne 2 : 1 souris
Borne 3 : 7 souris
Borne 4 : 24 souris
Borne 5 : 37 souris
Borne 6 : 24 souris
Borne 7 ; 7 souris
Borne 8 : 1 souris
Borne 9 : 0 souris
Borne 10 (fromage et mur final) : 0 souris
   Cela correspond pile à une loi normale de moyenne borne 5 et d’écart-type 1,05 borne (loi cumulée pour passer en mode discontinu). MAIS il se trouve que je suis tombé sur cette distribution par tâtonnements, en jouant avec une toute autre fonction-cloche : sin^8 de dixièmes de pi radians. Autrement dit, ce qui ressemble à une loi normale peut être en fait totalement différent. Or le formalisme mathématique, une fois « démontré » le caractère normal de la distribution, emploiera des détails très précis de cette loi, supposée vraie, ce qui est faux. Ici, avec mon sinus à la puissance 8, c’est absolument 0,0000…% des souris qui sont à la borne 10, alors que le formalisme normal ne faisait qu’arrondir un 0,0003% théorique prétendu garanti, à tort (l’expérience sur un million de souris le prouverait totalement) ! Cette fausse normalité affirme aussi que 0,000002% des souris ont atteint la borne 11, en fait inexistante par construction. C’est idiot ? Oui, c’est la situation, des statistiques, pour la pseudo-science qui trahit les mathématiques mais prétend en tirer son incontestabilité.
   J’ai lu dans un Science & Vie que les techniques d’investissement boursier étaient pareillement bâties sur la loi normale, pourtant démontrée fausse par son incapacité à inclure les krachs, mais employée quand même… L’argent facile compte plus que l’honnêteté, dans ce monde, apparemment.

3- La fausse lumière (des statistiques non-paramétriques)

   Les statistiques inductives ne sont pas pourries, non. J’en apprécie le principe, et l’ai décliné avec joie : j’ai inventé dans les années 1980-90 le test de somme des rangs (pour les dimensions d’articles dans une encyclopédie aéronautique) avant d’apprendre qu’il existait déjà, sous forme de rang moyen. Ce test ne faisant absolument aucun appel aux lois paramétriques, contrairement à l’écart-réduit, Student et Anova des cours universitaires, je voyais là une piste fabuleuse pour restaurer la logique statistique pure.
   Hélas… (J’explique)
   Je reprends mon encyclopédie alphabétique en la simplifiant en 4 tomes : les volumes 1-2-3-4 correspondent à des tailles moyennes d’article 30,6 lignes – 31,9 lignes – 7,9 lignes – 8,7 lignes (soit en rang : 3e-4e-1er-2e), avec un saut choquant entre les volumes 2 et 3. La question statistique est : cette différence est-elle imputable au hasard ? (sous-entendu : ou à une volonté délibérée de bâcler la fin, les premiers tomes ayant ferré le client, prisonnier). On voudrait dire : il y a moins de 5% de chances que se produise par hasard cette distribution de rangs, donc je rejette l’hypothèse hasard.
   Les cas sont :
1-2-3-4, 1-2-4-3, 1-3-2-4, 1-3-4-2, 1-4-2-3, 1-4-3-2,
2-1-3-4, 2-1-4-3, 2-3-1-4, 2-3-4-1, 2-4-1-3, 2-4-3-1,
3-1-2-4, 3-1-4-2, 3-2-1-4, 3-2-4-1, 3-4-1-2, 3-4-2-1,
4-1-2-3, 4-1-3-2, 4-2-1-3, 4-2-3-1, 4-3-1-2, 4-3-2-1.
   Chaque cas représente 1/24 = 4,17% ce qui est certes moins de 5% mais ça n’a rien de probant en soi, ce qui est probant ce serait de sommer les cas assez normaux et de dire que l’on se situe bizarrement dans les 5% les plus anormaux. Il suffit d'essayer.
   Pour les 24 cas, la différence de rang moyen entre 2 premiers livres et deux derniers est :
-2 ; -2 ; -1 ; -1 ; 0 ; 0 ;
-2 ; -2 ; 0 ; 0 ; 1 ; 1 ;
-1 ; -1 ; 0 ; 0 ; 2 ; 2 ;
0 ; 0 ; 1 ; 1 ; 2 ; 2 ;
   Donc les possibilités sont dénombrables :
-2 : 4 cas, -1 : 4 cas, 0 : 8 cas ; 1 : 4 cas ; 2 : 4 cas
   Soit en effectif cumulé :
-2 maximum : 4 cas (17%), -1 maximum : 8 cas (33%), 0 maximum : 16 cas (67%), 1 maximum : 20 cas (83%), 2 maximum : 24 cas (100%).
   Pour cette encyclopédie, on a atteint le chiffre 2, qui appartient au 17% (100%-83%) les plus anormaux, ce n’est pas significatif avec moins de 5% de chances de se tromper, donc l’hypothèse hasard n’est pas rejetée (c’est un exemple, car la vraie collection avait 12 tomes, soit beaucoup plus de combinaisons à dénombrer, conduisant à rejeter le hasard avec moins de 1% de risque, même en lecture bilatérale considérant aussi anormale une évolution opposée).
   MAIS le dénombrement des cas ci-dessus a ignoré à tort le cas d’ex æquo, qui sont en principe possibles. Certes, l’égalité au sein des 2 volumes de chaque demi-encyclopédie n’a aucune importance, donnant la même différence de rang moyen, et l’usage consiste donc à employer une convention moyennant les rangs des deux ex-aequo (ce n’est pas comme en sport où il y a deux premiers éventuels, médailles d ‘or, ici les rangs 1 et 2 deviennent deux rangs 1½, de même moyenne). Mais, dans le dénombrement des possibles, il y a les cas où les ex æquo seraient des membres de sous-groupes distincts, et cela devient critique.
   Indépendamment de l’ordre, il y aurait donc les cas 1-2-3-4 ; 1½-1½-3-4 ; 1-2½-2½-4 ; 1-2-3½-3½ ; 2-2-2-4 ; 1-3-3-3 ; 2½-2½-2½-2½ soit 7 groupes de cas à décliner comme le premier. C’est faisable théoriquement mais attention : la plausibilité de ces cas spéciaux serait très différente selon que la situation soit un nombre de quarts de pages par article (de 1 page maximum, chaque volume ne comptant qu’une page) soit 4 possibilités de chiffrages avec ex æquo très plausibles, ou bien des nombres de lignes allant de 1 à 619 sommés puis moyennés sur des milliers d’articles par volume, la probabilité de deux ratio égaux étant infime, quasi nulle. Entre les deux, comment pondérer cela ? De cette pondération dépendra entièrement le résultat chiffré… or elle paraît subjective. Pour une mesure à résolution connue, des formules existent peut-être, mais pour des ratios entre nombres quelconques, je n’en ai jamais entendu parler. Finalement, je ne connaîs donc pas la moindre statistique (inductive) convaincante…

II/ LE CRI – 2 Août 2010 (+ 29 Décembre 2010, 15 Octobre 2011)

   … Stéphane (statisticien compagnon de la doctorante citée), ou Monsieur Cerf (mon ex-professeur), au secours !
On ne me répond pas ? Slah (ex-professeur particulier de mon frère, ami de la famille): au secours ! (il a hélas décliné la demande, ceci n'étant pas son domaine d'expertise)

III/ …