Passer les analyses ADN au crible Bayésien
Par A.Naurmalle, 18 JUN 2015

(Mes réflexions de cette nuit sont parties dans une direction bizarre, peut-être pas inintéressante) :
J’ai récemment employé le théorème de Bayes pour prouver « sans hypothèse » l’erreur lourde des « validations par non significativité », mais :
- est-ce que ce théorème de Bayes ne ruine pas aussi les analyses ADN ? (d’identification humaine ou microbienne)
- est-ce que je pourrais calmer ma tête en surchauffe (avec arrêt-maladie « psychiatrique ») par cette réflexion semi-professionnelle incongrue ?
J’essaye. Voyons où ça mène.
* Douter du théorème de Bayes aussi
Puisque je suis une victime du très sévère endoctrinement « seconde-C 1979 », il me faut tout re-démontrer, ré-inventer, pas du tout réciter bêtement ce que disent les autorités. [J’en suis mort, tombé amoureux de la dernière de la classe, pas d’accord, mais c’était le prix de l’intelligence critique, je le comprends aujourd’hui].
Tout vient d’un comptage de pions, de propriétés indépendantes A et B (comme jaune et carré), dans des ensembles : nombre de A parmi B = nombre de A et B / nombre de B.
Et pareillement : nombre de B parmi A = nombre de A et B / nombre de A.
Donc nombre de A et B = simultanément « nombre de B * nombre de A parmi B » = « nombre de A * nombre de B parmi A ».
Donc nombre de A parmi B = nombre de B parmi A * nombre de A / nombre de B
Et nombre de B = nombre de A et B + nombre de non-A et B = (nombre de A * nombre de B parmi A) + (nombre de non-A * nombre de B parmi non-A), d’où en final :
Nombre de A parmi B = nombre de B parmi A * nombre de A / [(nombre de A * nombre de B parmi A)+(nombre de non-A * nombre de B parmi non-A)]
C’est le théorème de Bayes, d’accord.
* Application aux tests ADN corrigés
Le séquençage ADN Y d’une cellule d’enfant garçon donne 99% de similarité avec le candidat-père 1 et 84% de similarité avec le candidat-père 2. Habituellement, la réponse rendue était « l’hypothèse père 1 l’emporte avec confiance 99% », mais, en appliquant le théorème de Bayes, qu’en est-il ?
(A priori, on confère équiprobabilité aux 2 candidats pères : 50%, c’est le principe scientifique du « test en aveugle », objectif).
p(père 1/résultat) = p(résultat/père 1) * 50% / [p(résultat/père 1) * 50% + p(résultat/père 2) * 50%] = 99%/(99%+84%) = 54%
Cela semble une correction juste, quoique embarrassante, admettant 46% de chances de se tromper et pas du tout 1%...
* Réserves
- En théorie, ce résultat est lui-même relatif à la prise en compte (ou non) du bon candidat : si on n’a pas examiné le candidat-père 3 qui aurait donné 99,999% de similarité, la conclusion est 100% erronée même si elle a prétendu à 46% de risque seulement.
- Inversement, avec une maman à mille amants, l’équiprobabilité en donnée d’entrée pondère le futur père désigné par une probabilité 0,1% au lieu de 50%, et la similarité plus forte fera faiblement augmenter ce 0,1%, en continuant à pronostiquer plus de 99% d’erreur.
- Donc, en pratique, il est compréhensible de rendre le résultat « 99% de similarité », mais il ne signifie pas du tout « risque 1% de se tromper ».
- Plus généralement en Science expérimentale, les prétendues « lois » ne sont peut-être pas « validées » en termes de « prouvées justes à risque infime près », la situation serait qu’elles sont comparées à un nombre très restreint de modélisations opposées. Je l’ai d’ailleurs démontré avec les invalides « preuves de linéarité » par R ou R² normé, qui ne font que rejeter le candidat « n’importe quoi » sans du tout déceler les imperfections, que révèlent un examen plus fin, en erreur relative par exemple.

------------------
* Réserves-bis (19 JUN 2015)
Il y a au moins trois autres groupes de réserves, évidentes, que j’ai oubliés en première analyse hier :
- Caractères non indépendants. Le séquençage ADN ne correspond pas du tout aux pions du théorème de Bayes : on ne compte pas du tout 99% de bases jaunes et 84% de bases carrées, il s’agit d’une même séquence unique (immense mot en alphabet à 4 lettres) qui correspond pile à la séquence étiquetée jaune à 99%, et pile à la séquence étiquetée carrée à 84%. Cela peut prêter à divers calculs, mais pas bayésiens en première analyse. Les différences sont « expliquées » par mutation, et il est possible de pondérer différemment les différentes mutations possibles (délétion d’une base par exemple moins probable qu’une erreur de base, ajout de base insérée plus ou moins probable, mutation silencieuse avec triplet changé codant pour le même acide aminé éventuellement négligée, remplacement d’une base purique par une autre base purique éventuellement moins ou davantage pénalisé qu’un remplacement par une base pyrimidique, création/délétion d'un couple fort CG plus ou moins important qu'un changement de AT en TA, etc.).
- Caractères contestables. La séquence obtenue n’est pas la séquence « vraie incontestable » à la différence des pions manifestement jaunes ou pas, carrés ou pas. Le processus de séquençage, actuellement, utilise des analyses de fragments, les ressemblances étant automatiquement (informatiquement) interprétées en recouvrements possibles pour proposer une séquence « consensus » de petits morceaux bout à bout. Avec risque d’erreur non nul, non quantifié généralement. Par ailleurs, l’alphabet à 4 lettres est une simplification souvent vraie mais pas absolue, un A modifié pouvant par exemple être compté A dans 25% des cas et compté rien dans 75% des cas.
- Lois contestables. Le fait que les enfants aient presque le même ADN que les parents, que les cellules d’un organisme (ou d’une colonie bactérienne) aient toutes presque le même ADN, désigne la loi scientifique actuellement dominante. Ce n’est pas démontré être la Vérité vraie, il s’agit plutôt d’un consensus entre leaders d’opinion en blouses blanches. Un futur changement de paradigme pourrait le contester. Par ailleurs, cela est relatif à une certaine philosophie : le matérialisme réaliste, choisissant d’interdire que soit envisagé un ADN « n’importe comment » (logiquement possible) qui serait librement inventé/créé par le Créateur (pour les Croyants, ou par leur Démon trompeur) ou par le Moi qui rêve peut-être (pour les sceptiques).
- Tout ceci fait que le chiffrage « 46% d’erreur, pas du tout 1% » énoncé plus haut n’est absolument pas une vérité mathématique incontestable. Ce n’est que le résultat d’un calcul envisageant la question habituelle sous un autre angle, très contestable aussi. C'est utile à percevoir, même si je n'entrevois pas d'équivalent pour réhabiliter les fautives "validations par non-significativité".

------------------
* Réserve encore (11 MAR 2020)
  En me relisant, je vois une réfutation bien plus simple/immédiate des pourcentages rendus avec la conclusion en identification, qui ne valent pas du tout "pourcentage de confiance", "indice du risque d'erreur, complémentaire" (confiance 99% pour 1% risque d'erreur) :
- Quand le meilleur candidat est à 99% de similarité et le second à 98%, choisir le second en conclusion a + de 50% de risque d'erreur (puisqu'un autre résultat est davantage probable) et non 2%.
- Quand il y a deux candidats ex aequo à 99% de similarité (très au-dessus des autres candidats comparés), les données disponibles donnent 50% de chances de se tromper si on ne retient que l'un d'eux, et non 1% de chances de se tromper.
  Donc non, la précision "tel résultat rendu à 99%" ne veut pas du tout dire "avec confiance 99%, risque 1%", il s'agit de similarité sans grande signification.
  Une autre objection serait d'observer que si on ajoute des zones ADN non discriminantes (par exemple en ADN total au lieu d'ADN ciblé sur zone variable), la valeur 99% grimperait artificiellement à 99,99999% sans que ce soit davantage discriminant en identification, sans que ça réduise automatiquement le risque d'erreur.