VARIANCE CASSÉE

Révolution statistique !!! (n°2...)
les Maths à l’envers, c'est "amusant" (même si ça prend la tête)

(par A. Naurmalle, 03/03/2012, planète Terre – semble-t-il)
© peut-être : Solian® et Abilify®, qui maintiennent le rédacteur stabilisé

(Révolution n°1)
(ajout/objection)
ILLUMINATION 2015 !

Au lieu d’apprendre, je pense qu’il vaut mieux contester, jusqu’à admettre ce qui est effectivement incontestable. Cette démarche n’apporte rien en diplômes (de récitation, façon Moyen-Age biblique, façon modernité scientiste), mais elle me paraît intellectuellement puissante et belle.

[Travaux dirigés à la fac Toulouse Purpan, 1e année de médecine 1981-82, rêve d’époque inspiré de faits réels concernant une contestation algorithmique]

. Prof P (magistral) : – La variance estimée est a priori biaisée, car elle est calculée par rapport à la moyenne apparente la mieux centrée sur l’échantillon, la moyenne vraie sur la population sera forcément moins centrée ici, donc l’estimateur de variance (par rapport à la moyenne vraie) est biaisé ; on démontre ainsi qu’il faut multiplier par k sur k-1, k étant l’effectif de l’échantillon ; avez-vous compris ?
. élève e (moi si je n’avais pas été abruti par les médicaments d’alors) : – msieur, j’ai entendu, compris ce que vous disiez, mais (sauf vot’ respect) j’y crois pas : démontrez-nous ce que vous dites « démontré ».
. P (sans doute) : – On n’a pas le temps, le seul point important est que vous devez savoir appliquer cette loi, indubitable.
. e (conciliant) : – dites-moi dans quel livre se trouve la démonstration, je vais essayer de la casser.
. P (vraisemblablement choqué) : – Vous n’êtes pas là pour ça ! Vous allez prendre zéro à l’examen ! La science impose la discipline !
. e (18/20 en Maths au Bac section Maths, 17/20 en Philo au Bac sur un sujet de philo des sciences) : – vous me saquerez si vous voulez, général, vous promouvrez vos soldats obéissants, mais votre crédibilité serait nulle, votre salaire : volé. J’émets scientifiquement l’hypothèse que votre loi est fausse, testons-là pour conclure (en réfutation ou corroboration), c’est ça la science, même si on se lance pas dans la démonstration énorme de validation, de science exacte.
. P (hilare) : – Chiche ! Si tu veux délirer au lieu d’apprendre, petit con, tu vas prendre zéro à l’examen et devenir éboueur ! Mais si ça t’amuse… Au fait, toi tu devrais rembourser le montant public payé à tes professeurs et sur tes tickets restaurants, puisque tu n’en fais qu’à ta tête au lieu de suivre le chemin prévu.
. e (triste) : – je voulais devenir balayeur, oui, mais vous avez trompé mes parents (contribuables) en les faisant croire que la science officielle incarnait le bien, le crédible, alors que vous n’êtes qu’une chapelle comme les autres. Mais OK, je veux pas de drame familial, je réciterai et appliquerai vos diktats. Un jour je les casserai.
. P (vainqueur) : – Bla-bla-bla, pauvre ignare.
. e (souriant) : – si y s’avère que j’ai raison, on me donnera le Prix Nobel ? ou la médaille Fields ? ou… un coup de pied aux fesses ?
. P (triomphateur)** : – Oui, gare à tes fesses et rentre dans le rang.

[30 ans après], e :

. Je prends une population de 4 chiffres 1-2-3-4, ça fait une variance (sur cette population) de 1,25. Je prends tous les échantillons possibles (1-2 ; 1-3 ; 1-4 ; 2-3 ; 2-4 ;3-4), je calcule leur variance non-estimée (donc « façon population »), leur moyenne est 0,833 effectivement biaisée sous-estimée. La formule du prof disait pour chacune de la multiplier par k/(k-1) soit ici 2/1=2. Toutes les variances sur groupes réduits auraient été à multiplier par 2, donc la moyenne est multipliée par 2 : 1,667. Faux ! Il fallait trouver 1,25 ouille ! Le multiplicateur à appliquer au 0,833 pour arriver à 1,25 était en fait 1,5=3/2, incroyablement simple, le prof se serait gouré ? Je refuserais les sous du Nobel mais au micro, je dirais crotte au prof P (j’ai oublié son nom)…
. Pour voir si ce 3/2 au lieu de 2/1 est (peut-être) général ou un cas particulier par hasard, je remplace le 4 par une valeur 20. Non, zut, la moyenne devient décimale bizarre, ça complique les calculs, allez je remplace le 4 par 22, moyenne de la population : 7, variance 75,5 boum ça change effectivement drôlement le tableau. Mais : pareillement on a 6 cas, 6 variances non-estimées, de moyenne : 50,33. Pareil qu’avant, je multiplie par 2-1=2, et ça me fait une variance estimée égale à 100,67 au lieu de 75,5 ouille ! Eh ! Et pour arriver à 75,5 il fallait multiplier 50,33 par 1,5=3/2 bingo ! 2 buts à zéro, pour l’élève e écrasant le prof P en match retour ? (sans arbitre dictateur autoritaire aveugle)…
. Bon, mais ce 3/2, c’est quoi, en formule « compréhensible » ? C’est (k+1)/k, avec k comme taille d’échantillon et n comme taille de population, ou bien c’est (n-1)/k ? ou bien (n-1)/(n-2) ? Non, en reprenant les calculs à la main sans tableur, ça apparaît surtout comme un (1/4)/(1/6)=6/4=3/2, et ces 4 et 6 sont n=4 et 6= nombre de combinaisons de k parmi n, le fameux Cnp (que j’écrirai ici c), je crois que ça fait n!/[p!*(n-p)!] soit ici (4×3×2×1)/[(2×1)×(2×1)]=24/4=6 OK. Mais il faut confirmer avec d’autres n et k, ou bien attaquer la formule générale… ouille, non, débroussaillons, « testons », « scientifiquement » (vraiment).
. Je prends donc une population de 3 chiffres, éh – au fait – ça fait penser à une bourde de démonstrateur nul : le mec, il voit 3/2 avec 3 et il dit ça fait 3/(3-1) alors que… c’est pas ça du tout l’origine, bref, je prenais le cas de population n=3, avec chiffres… hop : 1-2-22 de variance vraie 93,556. Il y a 3 cas d’échantillons à k=2 : 1-2 ; 1-22 ; 2-22. Leurs variances non estimées ont pour moyenne 70,17 sous-estimée comme d’habitude, OK, et la formule du cours dit de multiplier par 2/(2-1)=2, résultat 140,33 faux encore une fois, ça confirme la nullité du cours. Il aurait fallu multiplier par 1,333 = 4/3, tout simple encore ! Génial ! Mais c’est quoi ce chiffre simple ? Au dénominateur 3=n comme le 4 tout à l’heure du 6/4, et le nombre de combinaisons de 2 parmi 3 est… mince 3, pas le 4 qu’on voulait au numérateur. Crotte de bique. Et ça ne colle pas avec le (k+1)/k qui aurait intéressé le prof, voulant calculer la variance estimée sans connaître l’effectif n de la population. En tout cas, le fait que le facteur (3/2 ou 4/3) diffère selon n, pour un même k, implique qu’il faut continuer pour comprendre, en terre inconnue, en oubliant totalement le cours, faux, démontré ! Partir à l’aventure…
. Je prends donc une population de 5 chiffres (pour encore des échantillons de 2 pour éviter l’explosion combinatoire) : 1-2-3-4-22 de variance vraie 61,84. Il y a 10 échantillons de k=2 (1-2 ; 1-3 ; 1-4 ; 1-22 ; 2-3 ; 2-4 ; 2-22 ; 3-4 ; 3-22 ; 4-22), qui ont pour moyenne de variances 38,65 – et multiplié par 2/(2-1)=2 à la façon du prof, ça donne 77,30 encore faux, pour 61,84 à trouver. Il fallait multiplier non pas par 2 mais par 1,6 pile, soit 16/10. Mais, attends attends : 16/10=8/5 et le 5 au dénominateur continue la série : facteur 4/3 pour n=3, 6/4 pour n=4, 8/5 pour n=5, excellent. Mais le numérateur c’est quoi, reliant à k qui intervient forcément ? k=2 est constant dans les trois cas, donc n intervient aussi. Hop : k×(n-1), donc le facteur multiplicateur ne serait pas du tout le k/(k-1) du cours mais k × (n-1)/n, ce qui nous fait bien avec k=2 et n= 3 ; 4 ; 5 : 4/3 ; 6/4 ; 8/5. Génial, bouh mais ça serait une bombe, rendant incalculable un écart-type estimé sans connaître l’effectif de la population ! Et quand cet effectif est l’infini, ça devient quoi ? Euh, si n est l’infini, (n-1)/n paraît indéterminé, incalculable. En tout cas pas ramenant à k/(k-1).
. Est-ce qu’en changeant les valeurs des 5 nombres on conserve le 16/10 correcteur ? Je prends 105-0-3-4-22, et oui : pareil, le facteur 2 est faux, le facteur 1,6 est juste. Bouh, émotion !
. Maintenant, je change k : paf, osé ! k=3 et n=4 pour commencer. Par exemple la série : 1-2-3-22 avec les échantillons de k=3 : 1-2-3 ; 1-2-22 ; 1-3-22 ; 2-3-22, c’est tout. Calcul, et : encore la moyenne des variances d’échantillons est sous-estimée, d’accord, la correction par 3/(3-1)=1,5 est fausse, d’accord, il fallait corriger par 1,125=8/9. Aïe, aucun rapport avec k × (n-1)/n, ça ressemble plutôt à une sorte de 2×n/k² ou (k-1)×n/(n-1)². Non, ne pas dire n’importe quoi, il semble falloir partir dans les équations pour trouver la clé. Adieu veaux, vaches cochons, si je ne suis pas revenu dans un mois, déclarez-moi perdu corps et biens…
. Non, c’est rude mais facile, et ça se vérifie assez simplement*** :
Je prends le cas le plus simple : k=2 (la variance n’a pas de sens sur k=1), et n=3 (plus grand que k pour que k soit échantillon et n population). Bref, on a 3 chiffres x, x’, x’’.
Etape 1 : le calcul sur la population, développé et simplifié, on aboutit à : Vn= (x²+x’²+x’’²-xx’-xx’’-x’x’’)×6/27, et cette formule calcule bien la variance sans calculer la moyenne. Etape 2 : le calcul sur l’échantillon xx’, on aboutit à : V1= (x²+x’²-2xx’)/4
Et de même pour les cas xx’’ et x’x’’ : V2= (x²+x’’²-2xx’’)/4 et V3= (x’²+x’’²-2x’x’’)/4
On en tire la moyenne de variance sur tous les échantillons sans facteur correcteur, qui se simplifie en : Vk= (x²+x’²+x’’²-xx’-xx’’-x’x’’)×2/12
Bien sûr les chiffres se simplifient, et si on appelle cette parenthèse à 6 composants : S, on voit que le ratio Vn/Vk = (S×6/27)/(S×2/12)= 6×12/(2×27)= 12/9= 4/3
Il est donc prouvé que quels que soient les chiffres xx’x’’ le facteur correcteur sera toujours ce 4/3=1,33, discordant de la valeur 2 du cours, qui est prouvé faux sans pouvoir imputer un bug au tableur ou quoi.
. Mais je ne venais pas là pour ça : quels sont les liens entre n,k, 6-27-2-12 ? Le 27 dans Vn venait de moyenne sur 3 et avec carré de moyenne sur 3, bref c’était n³. Outch, c’était pas prévu ça. Le 12 dans Vk venait de moyenne des 3 cas, donc de c=3 (conséquence de k=2 avec n=3), et de la moyenne sur 2 avec carré de moyenne sur 2, donc k³, mais un facteur 2 disparaissait à cause de la symétrie (une différence et la différence opposée ont le même carré), ce qui ne se généralise pas forcément si k est différent de 2. De même, la valeur 6 apparaissait avec les développements de carrés faisant apparaître des 2 et des 4, le 6 apparaissant avec 4+4-2 (le 2 final apparaît lui aussi par développement de carré). Là encore, faute de formule générale sur les carrés de sommes à k éléments, difficile d’en tirer une loi générale.
. Quand même, hors facteurs de développement des carrés, le facteur de correction de la variance sur échantillon a au numérateur (quelque chose fois) c×k³ et au dénominateur (quelque chose fois) n³.
. Avec ça, essayons d’en tirer quelque chose, déjà. Le tableau se lira ainsi : k est choisi librement >1, n est choisi librement >k, il en découle c, de k le cours tire un facteur correcteur, mais l'essai pratique (sur plusieurs jeux de valeurs formant population) donne indépendamment une valeur vraie de facteur correcteur calculé, la colonne avec des cubes est une hypothèse de formule qui pourrait approximer le facteur correcteur vrai :

Waouh ! Je tiens le monstre, (presque) cerné ! une tendance est éclatante : le dénominateur du ratio calculé est la racine carrée du dénominateur de c×k³/n³. Et le numérateur serait la moitié, sur les dernières lignes, mais pas la première, crotte ! Mais c’était presque magique…
J’ajoute le quatrième point, pour voir :

Tiens ? Ça ressemble à la première ligne, racine au dénominateur, identique au numérateur.
Quel rapport entre les lignes extrêmes ? Elles ont n=4 mais ça paraît anecdotique. Les propriétés n=2×k et n=k+1 ne correspondent qu’à moitié, sans être le facteur.
. Il paraît donc sage d’envisager 2 formules, et on verra quelles sont les confirmées :

Le tableau fait apparaître une explication possible : le ratio correcteur serait c×k³/(2×√n³) s’il est >1, mais le double sinon. C’est très facile en programmation informatique (fonction IF en Basic ou Si en tableur) mais il est peu probable que les équations accouchent d’un truc pareil. En conséquence, les 3 premières vérifications à envisager semblent les k;n : 2;6 (pour tester la conditionnelle si <1), le petit 4;5 qui ne « coûte pas cher » avec son petit c, et le 3;6 étrange avec peut-être autre chose que des entiers.
. En commençant par le plus facile : 4;5 à seulement 5 cas, on ne tombe ni sur l’envisagé 32/5 ni sur la solution de secours 64/5 mais sur 16/15. Mystère. Mais c’est toujours >1 et toujours constant en changeant les chiffres, une formule doit exister.
. Par contre, génial : le cas 2;6 accouche pile du ratio 5/3 attendu, avec « comme » un enclenchement de la conditionnelle imaginée.
. Enfin, semi-génial, le cas 3;6 donne un nombre irrationnel (décimal non périodique) qui n’est effectivement pas un quotient d’entiers, c’est magnifiquement confirmé (en aveugle !) mais ce n’est aucune des 2 valeurs envisagées : 1,18452 au lieu de 3,536 et 1,678.
. Bref, je ne tiens pas la formule miracle, mais je tourne autour :

. Bilan :
– Il est confirmé que la variance sur échantillon est biaisée, sous-estimée en moyenne en prenant tous les cas d’échantillons possibles, il faut un correcteur multiplicateur >1.
– Il est totalement faux de dire que ce multiplicateur est k/(k-1), celui-ci était toujours trop grand sur les 7 familles de cas calculés (combinaisons de k et n, quel que soit le détail des valeurs présentes en ces nombres).
– Ce multiplicateur n’est nullement indépendant de la taille de la population mais en dépend entièrement. Il semble (5 fois sur 7) qu’elle intervient directement par une puissance cubique de l’effectif total de population et par le nombre de combinaisons qui fait intervenir la factorielle de cet effectif.
– La formule de calcul n’a pas été ici trouvée, mais la conséquence est déjà énorme : il est faux de prétendre estimer sans biais la variance à partir d’un échantillon sans connaître l’effectif de la population dont il est issu.
– Toutefois, les valeurs obtenues semblent tendre vers la valeur officielle quand la population grandit. Il est donc envisageable que le calcul officiel soit juste aux limites seulement, sur population d’effectif infini. Eh prof P, il aurait fallu le dire ! Et, pour bien faire : il faudrait distinguer deux situations :
. effectif potentiel de mesure infini : la formule du cours est envisageable, mais resterait à démontrer (exemple : températures en fait mesurables tous les milliardièmes de microseconde).
. effectif de mesure réduit car mesure complète chère ou ultérieure : la formule du cours est assurément fausse (exemple : échantillon de sondage pré-électoral, échantillon de contrôle d’un lot avant la vente du reste). Ne pas l’avoir envisagé rend non crédible le prof P ayant prétendu dispenser de l’indubitable, comme ses propres professeurs avant lui : c’est du dogme, pas de la mathématique, c’est du scientisme et pas de la science.

Je vais pouvoir me rendormir. J’ai tordu le cou à ce point dérangeant dans ma mémoire. Les mathématiques comme moyen d’apaisement et de réconfort : oui, ça existe. C’en est la preuve.

** note : ce méchant prof P cauchemardesque n’est pas du tout Alain Cerf, lumineux prof l’année suivante à l’IUT de Montpellier, et m’ayant inculqué les éléments ayant généré la révolution n°1, après 25 ans de digestion (et de travail manuel).
*** manuscrit ci-dessous en image (infernal à taper en html) :

-------------------------- Ajout/objection 23-24/09/2015
J’ai repensé à quelque chose : et s’il y avait eu malentendu sur la variance sans biais ? J’explique ce point en deux temps, avant de le vérifier :
1- Il est notoire que l’écart-type statistique est une moyenne quadratique de l’écart à la moyenne, est-ce que la variance-moyenne ne serait pas aussi prise comme moyenne quadratique des variances sur échantillon ?
2- Sans moyenne quadratique, l’équivalent de l’écart-type est l’écart absolu moyen (moyenne des valeurs absolues d’écarts à la moyenne), qui est additif contrairement à l’écart-type (ce sont de ce côté les variances qui sont additives, pondérant davantage les grandes valeurs).
Vérification : Je prends, encore plus simple que ci-dessus, la population des nombres 1 ; 2 ; 3, moyenne 2, variance = (1²+0²+1²)/3 = 2/3 = 0,667 ; les échantillons sont [1 ; 2], [1 ; 3], [2 ; 3], de moyennes 1,5 ; 2 ; 2,5 ; les numérateurs de variances sur échantillons sont 2*0,5² ; 2*1² ; 2*0,5² ; en divisant avec la formule des échantillons (n-1 et pas n), ça donne 0,5 ; 2 ; 0,5, moyenne 3/3 = 1 (avec n=2 au lieu de n-1=1, cela aurait donné 0,5 effectivement sous-estimé), et moyenne quadratique √(0,5²+2²+0,5²)/3=√4,5/3 = 1,22. Ainsi, la variance par moyenne quadratique (1,22) est encore plus loin de la vérité (0,667) que la variance par moyenne normale (1,00), elle-même plus loin que la version avec n sans n-1 (0,5). Il n’y avait donc pas malentendu sur le terme « moyenne » (de l’écart à la moyenne). La formule du cours reste donc pleinement fausse. En faisant varier les chiffres de la population, est-ce confirmé constant ? Oui : alors qu’en moyenne arithmétique, on surestime constamment de 50% la variance (dans ce cas de N=3 et n=2), en moyenne quadratique, on surestime de 84% :

Par contre, il parait très intéressant que la moyenne des échantillons avec n-1 est toujours égale à la valeur vraie avec n-1, donc un facteur correcteur semblerait nous donner la solution : calculer la variance avec n-1 puis multiplier par (n-1)/n redonnerait ce qu’il faut. Mais non… :

  Effectivement, si – sur chaque échantillon – on multiplie par ce n, cela revient à calculer la variance avec n et pas n-1, ce qui donne (en moyenne) un résultat biaisé, sous-estimé.
  Bref… oui, il semble (sur des exemples, sans démonstration exhaustive) que la formule de variance avec n-1 (à la place de n) sur les échantillons donne un estimateur non biaisé, mais celui-ci n’est pas un estimateur de la variance vraie de la population, mais un estimateur de la variance avec n-1 (à la place de n) sur la population, surestimée avec un facteur n/(n-1). Et il n’y a pas de formule correctrice, partant de l’échantillon, pour accéder à la variance vraie de la population sans retomber à l’estimateur biaisé avec n à la place de n-1.
  Toutefois, la surestimation est ici de 3/2 et ce n’est pas n’importe quoi mais k/(k-1) avec k = nombre d’échantillons distincts [ou N/(N-1) quoique on est sensé calculer la variance des échantillons sans savoir la taille exacte de la population]. Mais on retombe là sur la problématique initiale, avec les C(n, p), nombre de combinaisons de p éléments parmi n, exploration qui avait échoué. Donc… oui, il est confirmé que l’estimation avec n-1 au lieu de n sur échantillons est non-biaisée, mais fausse (surestimée) pour donner (même en moyenne, avec tous les échantillons possibles, même en moyenne quadratique) la valeur vraie de la variance sur la population. Ce n'est toutefois pas n'importe quoi : une variance surestimée diminue les indicateurs de différence normalisée genre t (différence divisée par l'écart-type), conduisant à davantage de non-significativité. Cela fait moins d'erreurs par fausse significativité, mais davantage d'erreurs par fautive "validation par non-significativité" (absurdité injustifiable en elle-même, discutée sur mon site Non-significatif.)

-------------------------- Complément 26/09/2015
  Je me souviens qu'on nous avait dit, en cours de statistiques, que la variance sur échantillon avec n était biaisée car se rapportant à la moyenne sur l'échantillon (optimalement centrée pour cet échantillon) au lieu de la moyenne pour la population. Effectivement, cela se vérifie :

  L'erreur n'était pas dans ce diagnostic de problème mais dans la prétention à détenir la solution : donner un estimateur correct (avec la correction n/[n-1]) de la variance de la population au vu d'un échantillon. Eh bien non, puisqu'on ignore la moyenne vraie sur la population, rien ne semble donner accès à cette variance correcte, et cela ruine l'intégralité des statistiques (branche inductive, prétendant inférer un jugement sur la population au vu d'un échantillon).
  Il reste qu'entre la valeur /n sous-estimée et la valeur /(n-1) surestimée, on pourrait prendre un estimateur moyen, ou une fourchette Centre ± Demi-différence. Ce n'est donc pas désespéré, mais cela ferait certes bien moins savant que l'énoncé péremptoire "divisez par n-1 et hop, vous obtenez la variance". Je préfère la justesse mathématique à la grandiloquence faussement savante, personnellement.

-------------------------- Autre complément 03/10/2015
  J'ai mis un constat d'erreur en Discussion de page Wikipedia sur la Variance, mais j'ai dit ça rapidement sans même mentionner que la surestimation de 50% (pour échantillons de 2 valeurs sur 3) était indépendante des valeurs. Pour compléter ça, j'ai voulu ajouter une généralisation, et j'ai un peu tâtonné, mais ça a donné ça (toujours en prenant 1;2;3;4;5 etc. et remplaçant la dernière valeur par 100 puis par 0,01 pour vérifier) :

-------------------------- Conséquence logique ? 06/10/2015
  J’imagine que les ouvrages de statistiques futurs auront un Théorème de Meunier (ou Théorème de Malcor-Meunier en incluant le nom de mon arrière-grand-père officieux, mathématicien) :
  Variance = (Moyenne des écarts²) × n/(n-1) × (N-1)/N, pour un échantillon d’effectif n pris dans une population d’effectif N.
  L’ancienne loi, sans le second multiplicateur, était totalement fausse avec son signe =, il fallait lire « environ égal à (et "quasiment égal à" pour N très grand) », mais la prétendue démonstration qui l’oubliait était totalement erronée. Avec triomphe (pendant des siècles) des réciteurs benêts sur les démontreurs logiques, c’est affligeant, c’est presque le contraire des vraies mathématiques.

-------------------------- Réserve 08/10/2015
(J'ai ajouté ceci à Wikipedia)
  Non, bien sûr : un théorème est forcément « démontré », de A à Z, en partant des axiomes pris en compte, et je n’ai pas réussi à faire cela. Ce serait plutôt une Conjecture de Meunier (à la Fermat : ça marche mais ce n’est pas prouvé universel), j’ai démontré que dans 6 types de situation, avec 3 exemples chacune, donc 18 fois sur 18 : la formule du cours était totalement fausse, alors que prétendument « démontrée », et 18 fois sur 18, ma formule corrigée donnait le vrai résultat (moyenne des échantillons = valeur de la population).
  Tiens, pour étoffer un peu ça, sans y passer des années, je peux ajouter les 5 genres de N= 6 à 10, en me limitant cette fois au cas n=N-1 donc k=N possibilités, sans continuer à pointer toutes les combinaisons. Et oui, ça vérifie encore mon v(n parmi N)=(moyenne des écarts²)×n/(n-1)×(N-1)/N, avec les ratios correcteurs (à la formule du cours) : 6/5, 7/6, 8/7, 9/8 et 10/9.
  La bombe est lancée. Ça mériterait « étude d’impact » : comment une erreur grossière a-t-elle pu être tenue pour vraie mondialement pendant des siècles, et enseignée en université, publiée en ouvrages savants, etc. ? Cela ne ruine-t-il pas l’édifice mathématique prétendu pur (« sciences exactes ») ?
  En tout cas, reste pour les vrais mathématiciens (s’il y en a) un vrai challenge : comment démontrer vraie la conjecture de Meunier ? (remplaçant la faute classique, à chasser des cours et ne plus jamais déclarer « démontrée » puisqu’erronée).
(Et le tableau correspondant est celui-ci :)

-------------------------- Vérification 09/10/2015
A la réflexion, le fait que je n'ai pas trouvé la formule en 2012, mais qu'elle me soit "apparue" en présentant autrement en 2015, pourrait cacher une contradiction : peut-etre que mes exemples 2012 contredisaient la prétendue loi-2015. Le vérifier serait impératif.
A l'examen minutieux, tout s'explique sauf 1 cas montrant une discordance ! Mais, examen de vérification fait : je m'étais trompé en 2012... et cela ajoute 3 confirmations aux 11 déjà resencées, fois 3 exemples de chiffres, donc : la formule 2015 a dit la vérité 3x14=42 fois sur 42 (quand la formule du cours se trompait 42 fois sur 42).

-------------------------- Suite et semi-abandon 13/10/2015
Finalement, le Théorème de Meunier ne sera pas, ou pas celui que je pensais :
- Sur Wikipedia, j’ai été méchamment rabroué par plusieurs personnes me disant que je me trompais forcément (elle ne vérifiaient pas pour voir), avant que quelqu’un tombe sur un ouvrage méconnu (mais évident selon lui) disant presque exactement ma formule : (moyenne des écarts²)×n/(n-1) est un estimateur de V ×N/(N-1) pour les échantillonnages sans remise. Ce qui en pratique revient bien à dire que V=(somme des écarts²)×n/(n-1)×(N-1)/N. Pour ne pas avouer qu’on m’avait condamné totalement à tort, il a été dit que le tirage sans remise est hyper-particulier, ne ressemblant à rien de pratique. J’ai répondu qu’au contraire, il est le principal mode d’échantillonnage : on prélève un échantillon puis on le mesure, il est extrêmement rare qu’on mesure la première pièce puis qu’on la remette dans le pool pour en tirer une autre (éventuellement la même), etc. J’ai dit qu’à mon travail, il s’agit de contrôler des produits à usage unique, donc sans remise (impossible), et dans les publications techniques que je lis, ce sont souvent des mesures de concentrations en prises de sang répétées, et il est hors de question de réinjecter ce sang au patient. J’aurais pu aussi signaler les analyses alimentaires, ou l’échantillon est broyé (« stomaché ») puis filtré puis mesuré, il est totalement hors de question de remettre ce qui reste en stock après mesure.
- Mais la personne m’ayant donné raison (sans le dire) me condamnait pour avoir dit que la formule standard est fautive alors qu’elle était certaine pour les échantillonnages avec remise. Et j’ai répondu que non, elle est fausse aussi, je l’avais prouvé en répondant à une première objection me condamnant pour avoir pratiqué un échantillonnage sans remise. Avec échantillons n=2 à partir de population N=3, la formule du cours donne 75% de la valeur vraie (de la population), avec 6 cas équiprobables, et il faut multiplier par 4/3 pour avoir 100%. J’ai trouvé ensuite qu’avec n=2 parmi 4 [et n=3 parmi 4], on obtient avec la formule du cours 80% de la valeur vraie, avec 10 cas équiprobables [et 20 cas], donc il faut multiplier par 5/4 pour avoir 100%.
- Donc : au lieu de V(n,N)=(moyenne des écarts²)×n/(n-1), il semble qu’on a
sans remise : V(n,N)=(moyenne des écarts²)×n/(n-1)×(N-1)/N
avec remise : V(n,N)=(moyenne des écarts²)×n/(n-1)×(N+1)/N
- Mais je ne vais plus me battre là-bas, avec des professeurs malhonnêtes, insultant les gens osant contredire leurs prétendues lois (prétendument démontrées), tester la justesse/fausseté de ces lois étant apparemment hérétique… Bousculant les fausses supériorités en place, en tout cas.

-------------------------- Complément encore 14/10/2015
   Je reviens sur la quasi-universalité prétendue du tirage avec remise. Prenons l’exemple d’un sondage téléphonique à 12 questions, le protocole visant cette fois un tirage avec remise : après chaque appel, l’interviewer demande à l’ordinateur quel numéro appeler ensuite, sans liste prédéfinie (qui serait exempte de doublon ou triplet, façon "sans remise"), mais… si ça retombe sur quelqu’un ayant déjà répondu (déjà accepté de perdre 5 minutes à répondre), il est évident qu’il enverra promener l’interviewer, en criant qu’il a déjà répondu et ne veut plus être dérangé par cette histoire. Donc le prétendu tirage avec remise sera en pratique un tirage sans remise, sans l’avouer. Et c’est une nouvelle erreur.
   Le contradicteur, professeur, clamait que l’emploi-type des échantillons statistiques est de vérifier si un dé est pipé, les mesures antérieures ne changeant rien aux mesures ensuite, donc c’est le mode « avec remise ». Toutefois :
– C’est un artefact scolaire. L’emploi des statistiques est immensément fréquent dans l’industrie, dans la biologie, et l’exemple-type n’est pas en salle de classe (lycéenne ou universitaire). Les vraies questions sont ailleurs.
– La question du dé pipé ou non est un exemple intéressant en ceci qu’il m’est utile pour montrer le scandale des fallacieuses « validations par non-significativité » : s’il est légitime de conclure au rejet significatif de non-pipé (4/4 réponses 6, par exemple avec un risque de première espèce, rejet à tort, ≤ 0,1%), il est faux de prétendre valider le caractère non-pipé : selon que l’hypothèse alternative est 100% de 6 ou 20% ou 17%, au lieu du 16,67% théorique non pipé, le risque d’acceptation à tort (du caractère non-pipé) fluctuera complètement, et – si on ne l’a pas énoncée, comme d’habitude en industrie et biologie – on conclura faussement "acceptation justifiée, à petit risque près" là où la réponse légitime devrait être « pas de conclusion au risque requis (un échantillon plus grand pourrait conclure à un rejet) ».

-------------------------- « Crank » 16/10/2015
   Le fier professeur qui m’a le plus « cassé » sur la Variance, à tort donc, signait Bergmann ou un nom comme ça, et il m’a traité de « crank », mot que j’ignorais. Une page Wikipedia anglaise explique de quoi il s’agit, mais j’ai préféré cliquer sur la page française liée. Or celle-ci s’appelle « les Fous Littéraires », parlant des individus se croyant bons alors qu’ils ne sont même pas publiés, et publiant donc souvent à compte d’auteur. C’est intéressant, et je regrette que cette question n’ait pas été abordée dans mes cours de littérature (en classe scientifique) au lycée, pour dissuader les naïfs rêves de « devenir auteur » chez les jeunes. Toutefois, je ferais d’énormes réserves, et je les fais ici plutôt que sur Wikipedia/Discussion, puisque je suis un "sale crank" moi-même, ignoré/condamné comme tel :
– Le fait d’être publié n’a pratiquement aucun rapport avec la valeur intrinsèque de l’écrit soumis, l’important semble 1/ de faire partie d’une communauté influente, pistonnante (Israélites, Francs-Maçons, familles de célébrités, homosexuels, etc.) ; 2/ de respecter les dominations en place (sans déboulonner les prétendus « grands hommes » que l’école fait adorer au nom du « respect »).
– Un ami de mes parents, écrivain amateur, était ainsi un « fou littéraire », rédigeant des centaines de nouvelles sans jamais être publié, sur des amours entre Français expatriés et jeunes femmes arabes, notamment. Puis il a conçu un recueil différent, commençant cette fois par l’histoire d’un jeune héros juif pendant la Shoah, enfant innocent persécuté par les méchants Français… il a aussitôt été publié. Non, ce n’est pas la valeur littéraire du tout qui fait la publication, mais le fait de s’insérer dans la propagande en place (sioniste en l’occurrence, en « réparation de »).
– Mon premier livre était une philosophie révolutionnaire, partant de questions enfantines et démolissant les réponses adultes, invalidant la Science (et la Philosophie classique, la pensée dite cartésienne, etc.). Les éditeurs français n’ont même pas répondu, toutefois un éditeur étranger m’a expliqué que c’était incroyablement logique, mais que ça ne pouvait s’insérer dans aucune de ses collections, désolés. Donc Pensée Logique = Poubelle, Philosophie = Bla-bla érudit…
– Maintenant, quand j’ose prouver que telle prétendue loi mathématique est fausse, on me traite de fou car je ne suis pas publié, et personne personne ne vérifie en prenant des nombres au hasard et effectuant tout simplement les calculs, non. Comme si ce n’était absolument pas ça, le sujet mathématique.
   Bref, on traite de fous ceux qui ont raison contre l’ordre en place, comme à l’apogée du stalinisme. Sauf que c’est menteusement chez nous au nom d’objectivité et liberté. Je suis d’accord qu’en littérature, le jugement est par principe subjectif, mais la philosophie et les mathématiques sont volées quand la logique et le calcul sont interdits au nom du respect des anciens (interdit de montrer qu’ils ont eu tort) pour laisser triompher les érudits à tête vide (de pertinence) mal-pleine (gavée de récitation)… Pour les brimés dans ce schéma, le mot anglais « crank », valant « excentrique », est moins choquant, sans prétendre rejeter médicalement des psychopathes (en fait ; rebelles osant avoir raison contre les dominants).
   Du coup, c'est toute l'éducation reçue qui vacille : l'école a-t-elle cherché à me rendre lucide et inventif (comme ce serait son honneur me semble-t-il) ou à m'écraser pour faire de moi un mouton servile, chien au service des dominants ? Je crains hélas que ce soit la seconde hypothèse qui soit la bonne. Ça explique en tout cas trois choses mystérieuses : 1/ la dictature orthographique (à l'époque) avec exclusion des rebelles osant inventer mieux ; 2/ l'interdiction en cours de philosophie de répondre "je n'aime pas tel auteur" au prof, nous insultant comme petits cons ; 3/ la présentation en "Sciences" (et Histoire-Géographie) de prétendues vérités, à réciter (avec jonglage), des mauvaises notes sanctionnant les expériences ne les confirmant pas, des années avant de voir en philosophie des sciences que c'était en fait contestable sur le principe.
   Finalement, m'avoir traité de sale crank m'aide à comprendre le contexte horrible, oui.

-------------------------- Eveil épistémologique 18/11/2015
  (Après un dur mot paternel « je ne te crois pas »)…
  Etant enfant, je croyais que l’amour de la Science, c’était le vœu de penser juste et vrai, découvrir ce qui est vraiment, loin des discours menteurs et des légendes n’importe comment.
  Et puis, à 17 ans en classe scientifique, j’ai découvert la pensée de Karl Popper, la philosophie des Sciences, l’épistémologie, et j’ai été convaincu que les sciences dites humaines sont du bla-bla avec leurs écoles se marchant les unes sur les autres, pas des Sciences. Mais restaient dans mon esprit « valides » les sciences dures, falsifiables honnêtement, sans discours a posteriori expliquant n’importe quoi n’importe comment.
  Et puis, vers 25 ans ?, j’ai découvert la pensée de Paul Feyerabend, la théorie anarchiste de la connaissance, et j’ai été convaincu qu’en sciences dures aussi, tout n’est affaire que de pressions, stratégies, dominations temporaires. (Et j’ai personnellement, par un autre angle, démoli le dogme réaliste sous-tendant les sciences expérimentales). Mais restaient dans mon esprit « valides » les sciences exactes, mathématiques, en aval d’axiomes reconnus récusables.
  Maintenant à 51 ans, avec cette affaire Internet de la Variance n/n-1, je constate qu’en prétendues mathématiques, tout n’est aussi affaire que de domination : la plupart des professeurs exigent le respect de leur supériorité, exigent l’adoration des grands hommes passés, absolument personne ne fait les calculs et vérifie mes démolitions prouvées par a+b… De l’extérieur, on condamne mes « théories » démenties par les jugements prétendus « experts », on ne me « croit pas », personne ne calcule, tout le monde refuse l’évidence des chiffres.
  Il ne faut pas forcément en pleurer, on peut hausser les épaules et sourire que tout soit ainsi pourri jusqu’à l’os. On peut rêver à mieux, il suffit de fermer les yeux.

-------------------------- Preuve au propre 19/09/2018
  La démonstration manuscrite présentée plus haut est maintenant mise au propre avec l'éditeur d'équations de MS Word, presque au propre, même si la gestion des apostrophes semble aléatoire, peu contrôlable.

-------------------------- Preuve expérimentale 18/01/2019
Puisque la démonstration mathématique ci-dessus est effrayante pour les profanes, on peut présenter la preuve chiffrée sur exemples libres, à choisir par l'incrédule. Les tableurs ci-dessous montrent comment faire :
Exemple sans remise

Formules sans remise

Exemple avec remise

Formules avec remise

-------------------------- Preuve bis 20/02/2019
Pour appuyer ma démonstration, il convient de traiter aussi les cas "tirages avec remise".

  Donc : non seulement la formule de l'université est fausse (sa prétendue démonstration Wikipedia est erronée) mais elle ne pose même pas la question adéquate : pour calculer la variance, non seulement il faut connaître l'effectif de la population (pas seulement de l'échantillon), mais en plus il faut établir si l'échantillon est constitué sans remise (cas le plus courant, prélevant un échantillon dans la population) ou bien avec remise (en remettant dans la population l'individu examiné avant d'en tirer un au hasard à nouveau).

-------------------------- Explication triste 21/02/2019
  Certes, sur mes deux démonstrations, rapprochées l’une de l’autre, on peut noter que la moyenne entre le facteur 4/3 (sans remise) et 8/3 (avec remise) est 6/3=2 (formule universitaire), [Autrement dit la moyenne entre (N-1)/N et (N+1)/N = N/N = 1, donc pas besoin de connaître N] MAIS dire que l’on connait le résultat sans se poser la question du cas où l’on se trouve constitue une erreur mathématique.
  Démonstration simplissime, par un parallèle niveau 8 ans d’âge mental : « les trains XD324 sont vendus en deux versions, soit A qui roule à 400km/h, soit B qui roule à 200km/h, en combien d’heures un train XD324 traverse-t-il une distance de 300km ? ». La réponse « universitaire », incroyable, fausse, est : « on l’a prouvé, c’est trop compliqué à vous expliquer, la réponse est 9/8=1,125 heure ». C’est faux, la réponse juste est : « on ne peut pas le savoir si on ignore s’il s’agit d’une version A ou B, si c’est A la réponse est 3/4 d’heure, si c’est B la réponse est 3/2=1,5 heure ». Je maintiens qu’il y a eu erreur mathématique de l’université (et de logiciel Excel etc.), erreur entière, erreur grave (prétendant accéder à la connaissance là où c’est entièrement faux). C’est un principe scientiste, certes, mais c’est totalement illogique.

-------------------------- Parallèle complété 27/02/2019
  A la réflexion, mon parallèle avec des trains n’était qu’une introduction imparfaite. Pour mieux illustrer l’aberration de la variance officielle, je prendrai un petit train militaire (à passagers soldats sans enfants petits et légers) de type codé MY325, qui existe en deux versions, toutes deux roulant à 200km/h sans passager (en fait, il y aura N= 0 à 100 passagers). Version ouverte, avec aérodynamisme freiné par les passagers : vitesse = 200 – N ; version fermée, avec ralentissement par cahots diminué par la masse des passagers : vitesse = 200 + N. La vitesse peut donc être de 100km/h (ouvert avec 100 passagers) à 300 km/h (fermé avec 100 passagers). Question : pour faire 200km, quel temps met le train MY325 n°47 le 26 février 2019 juste après midi ? Réponse juste : ce temps est inconnu tant qu’on ne connait pas le type (ouvert ou bien fermé) et le nombre de passagers, 200 réponses différentes étant possibles (de 200/100=2 heures à 200/300=0,667 heure) ; réponse façon variance universitaire : ce temps est de 1,000 heure ! (pas besoin de connaître le type du train n°47 ni le nombre de passagers cette fois-là). L’université a simplement tort, et si elle prétend démontrer sa formule, cette démonstration est erronée : on ne moyenne pas impunément quand des cas distincts donnent des réponses différentes. Peut-être que la réponse universitaire est « juste en moyenne » mais elle prétend à une connaissance là où la vraie situation est une ignorance, ce qui constitue une faute tant logique que mathématique. En termes de prévision d’horaire, la « météo » universitaire ferroviaire se trompera dans sa prédiction avec une probabilité 199/200= 99,5%, c’est abominable là où les mathématiques sont théoriquement parfaites.

-------------------------- Suite de démonstration 24/04/2019
  Il est un peu insatisfaisant de n'avoir apporté la preuve de ma formule que dans le cas n=2 N=3 (avec et sans remise) ; j'ajoute ici le cas n=2 N=4, qui confirme encore :

-------------------------- Suite bis 24/04/2019 après-midi
Pour clore proprement le cas n=2 N=4, j'ajoute la démonstration avec remise :

-------------------------- Complément encore 26/06/2019
Pour ne pas traiter le cas N=4 que dans le sous-cas n=2, j'ajoute la démonstration avec n=3 :

-------------------------- Achèvement partiel 28/06/2019
En compétant le cas N=4 n=3 avec le "tirage avac remise", on aboutit à un ensemble cohérent :

Ainsi, la démonstration totale par A+B, quelles que soient les valeurs x, a couvert 6 pans : N=3 n=2, N=4 n=2, N=4 n=3, avec et sans remise. Avec 6 succès sur 6 pour ma formule, 6 échecs sur 6 pour la formule universitaire (donc prouvée mensongère). Idéalement, il faudrait/suffirait accéder à N quelconque (>2), n quelconque (entre 2 et N-1), mais je ne connais pas les formules développées que cela donne. En tout cas, la preuve de faute universitaire est faite, consolidée.

-------------------------- Bilan analysé 06/07/2019 (+ corrections 16/07/2019)
  Maintenant que j’ai prouvé par A+B que j’ai raison et que l’université a tort, il convient de me pencher sur les insultes me qualifiant de crank/ « fou littéraire » (croyant avoir raison sans avoir le statut social autorisant à parler avec autorité) sur Wikipedia/discussion, chapitre Variance. Il n’est pas vrai que j’insulte la totalité des grands hommes et des enseignants : j’ai mathématiquement PROUVÉ qu’ils sont des escrocs ou minables malhonnêtes. Comment est-ce possible ?
  J’en reviens à ma découverte des Maths ultra-dures, avec surprise, en classe de Seconde (2eC2, Lycée Pierre de Fermat à Toulouse, 1978-79) : le prof de Maths démontrait tout à immense vitesse au tableau, et nous courions après pour réussir à noter en retard avant qu’il efface les écrits précédents. Mon camarade Patrice ~~Lerin~~ Le Reun ~~(prénom et orthographe incertains, j’ai oublié)~~, à l’esprit plus vif que moi (qui vais très loin mais démarre très lentement) a objecté : « M’sieu, attendez, je comprends pas ». Et l’enseignant, Monsieur Trille ou un nom comme ça, avait été choqué : « Mais (jeunes imbéciles) vous n’êtes pas là pour comprendre : vous comprendrez chez vous, en relisant ! ». Or, tous autant que nous étions, nous avons rapidement compris (sans nous consulter) la technique « qui marche » scolairement : ignorer totalement les démonstrations pour apprendre par cœur les théorèmes résultats, et s’entrainer à les employer. Même si les démonstrations (prétendues) sont peut-être fausses. Et c’est ainsi que ça marche, du tonnerre : on diplôme les admirateurs de célébrités sachant bien jongler avec les prétendues vérités, sans logique aucune. Cela rejoint les lettres, la philosophie, l’Histoire-Géo : s’interdire de contester (ou démontrer nulles) les célébrités, mais les vénérer et savoir pérorer en les citant (si au lieu d’invalider Voltaire, Descartes, Déclaration Universelle des Droits de l’Homme, « à la maison » après le Bac, je l’avais fait au lycée, j’aurais été saqué voire exclu). C’est une école débilitante et prétentieuse à tort. Tout le système est bancal. Ou était bancal, à l’époque où ~~10%~~ 30% d’une classe d’âge avait le Bac, maintenant le niveau a été écroulé pour que 90% ait le Bac et c’est sans doute encore pire. Mutilation de l’intelligence rebelle, de l’intelligence critique, de la logique. Pour élire les moutons, très activement formés au néant mental. C’est affligeant.
  Non, contrairement à ma famille, je n’aurais pas pu devenir enseignant, j’aurais été viré pour insubordination bien avant d’être admis. J’étais incapable de devenir petit officier de l’endoctrinement à la stupidité prétentieuse. Si je m'éteins de ce cancer prochainement, je suis content d'avoir (à mon passage "sur Terre") cassé ce scandale, sur le plan théorique sans que ça n'intéresse personne.
  (Mais je dis merci à mon prof de Maths à l’IUT, Monsieur Cerf, qui a fait germer en moi les éléments-clés à la démolition des fautives « validations par non-significativité » dans l’industrie, vaste scandale étouffé, caché derrière des murs d’équations, que j’ai finalement démolies, des décennies après).

-------------------------- Extension utile 11/08/2019
  J’avais posé n < N, mais à la réflexion, il est immensément intéressant d’envisager le cas limite n = N c’est-à-dire mesurer un échantillon aussi grand que la population.
  En tirage sans remise, ça doit redonner la même formule que sans échantillonnage puisqu’on examine tous les éléments et une seule fois chacun, tandis qu’avec remise ça doit donner quelque chose de différent (car pour N=2 par exemple, au cas x1x2 s’ajoutent les cas x1x1 et x2x2, de variance nulle mais avec division du total par 3 et non plu’ par 1). Est-ce que donc mes formules d’appliquent avec n < N plutôt que n < N ? Oui :