Doutes ADN

Le doute « à Déhenne »
Inconfort d’ex-technicien bactério-généticien
par CME (28/02/2019)

  A l’époque où je travaillais (à temps partiel) sur l’identification bactérienne par séquençage ADN (2012-2018), j’évitais de me poser des questions sur les objections de principe à cette activité : tandis que j’étais très choqué par d’autres problèmes dans d’autres domaines (« qualité », métrologie, antibiogramme, chromatographie) là je n’avais pas les idées claires, même si j’avais vaguement conscience d’objections potentielles. J’essayais de faire ce qui m’était demandé, comme cela m’était demandé, et c’était une forme de professionnalisme me paraissant acceptable, puisqu’il n’y avait pas d’horreur antilogique évidente. Maintenant que j’ai été classé en invalidité, après 34 ans de travail, j’envisage de répondre à mon ancienne chef me demandant si j’ai le sentiment qu’on a fait du bon boulot (dans le domaine de l’identification bactérienne par séquençage). Il va s’agir de réflexions désordonnées, un peu dans tous les sens, pouvant intéresser Françoise A, Marilyne RP, Valérie C.
  Objections à ce que je faisais :
- Souches-types ± invalidées. Des demandeurs d’analyse se mettaient en colère quand un exemplaire de la souche-type d’une espèce était rendu par nous avec une autre identification, proche mais différente (alors qu’il ne s’agissait pas d’une erreur grossière ayant identifié un contaminant). Par définition, disaient-ils non sans raison, cette souche-type est de cette espèce, on n’a seulement besoin de la confirmation officielle par la méthode de référence qu’est devenue l’identification ADN. Mais… les experts de nos logiciels d’analyse informatiques le contestaient, confirmant leurs identifications discordantes, attribuant ces déclarations de souches-types à des erreurs méthodologiques en voie de correction. Certes, quand j’y repense : en contexte taxonomique évolutif on peut avoir le cas suivant : l’espèce a s’est vue scindée en a0 et a1, mais la souche type de a1 s’avère très différente de toutes les a1 suivantes et mériterait de générer la nouvelle espèce a2. Mais… ce pourraient être ces nouvelles a1 qui seraient dénommées a2 (plutôt que l’ancienne chef de file), on n’en sait rien pour le moment. Mais… il est exigé de répondre, en prétendant donner réponse de référence, ce n’est pas confortable (je n’aime pas affirmer avoir raison quand je pense avoir tort peut-être).
- Discordances entre scores et mismatches. Avec certains réglages paramétriques (valeurs par défaut selon certains moteurs de calcul blast), l’identification attendue peut n’apparaître qu’au centième rang des meilleures candidates, quoique qu’avec zéro mismatch, quand toutes les meilleurs candidates ont 30 mismatches ou davantage, mais sur de plus grandes longueurs de gène. C’est l’inconvénient d’une boîte noire, automatisant les calculs de manière indispensable mais sans qu’on maitrise le sens des choix implicites, en fait très contestables. (Et il n’est pas sûr que l’identification avec zéro mismatch soit la bonne, peut-être est-elle simplement ce qui avait été obtenu avec un autre paramétrage, la vérité vraie étant inconnue).
- Cas des alignements sans Blast. En évitant le calcul global de la technique Blast, plus puissante par certains côtés mais perdant de l’information, les alignements étaient parfois préférés, et l’on tranchait à la base près quand on voyait une corrélation entre espèce et telle base en telle position, mais c’était peu probant car la concordance était toujours effectuée sur quelques souches seulement, sans garantir qu’il n’y a pas de contrexemple un peu rare mais répétable.
- Relativisme de principe. La référence (nom d’espèce trouvée matchant bien avec la séquence d’inconnu fournie) est relative à la méthode employée, pas forcément immensément fiable. Quand il y a convergence de plusieurs souches de même espèce donnant un bon score, on espère que c’est fiable, mais c’est peu solide, ça ne résiste pas au doute systématique (qui est théoriquement le principe scientifique).
- Caractère partiel. Il est dit qu’y a plusieurs copies de gêne 16S (ou rpoB etc.) par individu bactérien, discordants possiblement, alors : trancher parfois au vu de 1 mismatch (par exemple : premier choix accepté à 1 mismatch, second choix non retenu à 2 mismatches) est discutable, car on n’a pas idée de la reproductibilité du résultat, pour affirmer que la différence observée est significative. Et si on refuse de répondre tant qu’on n’a pas de grosse différence entre premier choix et second choix (exemple : 4 mismatches de différence), les demandeurs d’analyse sont insatisfaits par la forte fréquence de réponses « incertain » non concluantes, mettant en question le recours à cette technique. Je ne vois pas de solution miracle à cela. Et, là où il y a décision franche, genre premier choix à zéro mismatch, second choix à quatre mismatches, ce n’est que temporaire, et la vérité pourra être différente quand le panorama aura été enrichi par des chaînons manquants à 1-2-3 mismatches, sans donc aboutir à une vérité franche intemporelle.
- Gène ciblé pas universel. Avoir travaillé sur un gène à la fois, déclaré discriminant dans telle publication scientifique, ne garantit pas en principe que cette discrimination est parfaite, et non contredite sur un autre gène. L'idéal est l'approche multigène que nous ne faisions pas, ou génôme total qui commençait à peine, mais où l'information est diluée dans la masse de données, d'où résultat éventuellement moins dicriminant qu'avec ciblage, je ne sais pas. (Ajout 01/03/2019 : c'est aussi une question de "bruit de fond" : la reproductibilité du séquençage n'est pas démontrée 100,0000% et donc en analysant une immense longueur se cumulent plein de petits ratés rares qui sont "comme" des discordances significatives).
- Problème de taxonomie. Sur le principe même, on ne dit pas le vrai en identification, mais c’est une façon de parler actuelle tout en sachant que des distinctions pourront être définies dans le futur. Même en taxonomie animale, la notion d’espèce est relative, tel individu appartient à telle espèce présuppose que chaque espèce est clairement définie et immuablement, ce qui n’est pas vrai. Exemple, si les périodes de reproduction sont de janvier à mai pour les pigeons A, de mai à Septembre pour les pigeons B, de Septembre à Décembre pour les pigeons C, de Décembre à Février pour les pigeons D, en termes d’espèce on a A=B, B=C, C=D, D=A, mais A n’est pas égal à C. Il ne s’agit pas d’égalité au sens mathématique mais de regard subjectif porté sur les choses, compte tenu de nos conventions.
- Spécificité bactérienne. Il y a le problème des espèces définies par des caractères phénotypiques (comme les colonies rhizoïdes), le résultat de ressemblance ADN discordant du critère de définition des espèces. Un descendant de telle espèce mais ayant perdu le caractère de la définition phénotypique est-il une nouvelle espèce ou un cas particulier de la même espèce ? ça semble très subjectif d’en décider. De même fixer, de manière génétique pure, les critères d’hybridation ADN-ADN à >80,0% ou autre semble subjectif, et il n’y a aucunement saut qualitatif entre 79,9% et 80,1%, seulement une convention humaine, une façon de parler en se fixant des règles arbitraires, révisables un jour.
- Impossibilité éventuelle de taxonomie darwinienne. Bacillus cereus sous-espèce cytotoxicus est devenue une espèce à part entière Bacillus cytotoxicus, puisqu’elle a perdu un fragment ADN énorme d’un million de paires de bases, et c’est compté subjectivement comme devenant une nouvelle espèce, alors que la logique « enfant de » pouvait la laisser dans l’espèce mère, ce n’est pas clair, ça semble très subjectif. C’est un problème certes universel : le premier humain était-il un enfant de singes (selon la logique darwinienne, hors créationnisme) ?
- Cas inverse. Génétiquement, il n’est plu’ sûr que le genre Shigella soit défini, puisque les Shigelles ne se distinguent pas génétiquement des Escherichia coli, les chaînons manquants ayant été découverts depuis les temps anciens ayant défini ces germes comme totalement distincts. Quand un demandeur d’analyse exige qu’on lui dise si telle souche est une Shigelle ou un Escherichia, on répond hélas « incertain » en étant mal reçu, et si on tranchait sur base de micro-différence, ce pourrait être très bientôt démenti, ce n’est pas satisfaisant non plu’.
- Horizontalité. Les transferts horizontaux de gènes sont aussi un problème de classification ou signification. Un Escherichia ayant acquis 30% de gènes Pseudomonas est-il clairement un Escherichia ? ou un Pseudomonas ? Ou une nouvelle espèce hybride ? Dans le continuum des taux d’acquisition, comment définir un critère quantitatif séparant fiablement des taxons qualitatifs ? Avec nos logiciels, on rend des réponses, mais personnellement je ne comprenais pas bien ce que je faisais à ce sujet. La division à certains moments des Bacillus en multitude d’espèces (à 1 seule souche représentant) avant de stopper cette dérive, ou l’article disant que Pseudomonas fluorescens est en fait un continuum de germes notablement différents, tout cela rendait la situation très floue, je n’avais pas les idées claires.
- Principe d’identification suspect. En revenant tout au fond de la question « identification », pourquoi chercher à quelle espèce ressemble une souche inconnue ? Autrefois, le paradigme était que si l’on connait l’identité à l’espèce, on connait la pathogénicité et les résistances aux antibiotiques, mais, depuis, il est apparu que l’espèce Escherichia coli comprend à la fois une majorité de souches totalement non pathogènes et d’autres qui sont très pathogènes mortelles ; de même l’antibiogramme s’individualise à la souche, car l’identité ne suffit en rien à prévoir toutes les résistances. Ce n’est pas totalement inintéressant de connaitre l’identité, car cela permet de corriger certaines erreurs nées d’artefacts (cas de résistances naturelles se trouvant par malchance inexprimées telle fois), mais l’identité n’a plu' la même importance qu’autrefois. Enfin, pour acquérir cette connaissance, les centres de référence par genre pratiquent quantité de tests, très chers, mais atteindre leur niveau d’expertise n’est guère possible pour d’autres laboratoires, et pour un coût raisonnable. Qu’on nous demande une identification de référence aurait donc presque dû conduire à la réponse : « demandez au centre de référence, nous ne sommes pas autant experts et le devenir serait bien trop cher, et impossible pour tous les genres bactériens à la fois ». Donc « mettez-moi au chômage… ».
  Oui, c’était inconfortable, pas mathématiquement faux absurde mais immensément imparfait, ça explique que je ne voulais pas trop y penser, me situant comme machine en location et non comme décideur valideur formel.

------------------------------------------ Ajout 13/04/2019, Assemblage de novo suspect
  Un peu en dehors de mon travail, mais toujours dans le domaine du séquençage bactérien, j’ai été immensément surpris par l’affirmation que la plupart des germes identifiés par biologie moléculaire ne cultivaient pas in vitro, étant donc définis exclusivement par leur ADN. Comment ont été « validées » ces identifications effectuées ? Qu’est-ce qui prouve que les séquences observées sont des germes vivants et pas des déchets nucléiques dénués de vie ? Et si on trouve une séquence de gènes U-V-W, qu’est-ce qui prouve que cela correspond aux germes U, V, W et pas deux germes UV et W (ou UW et V, ou VW et U) voire un seul germe UVW ? Avant de croire les prétendus experts (en « bio-informatique ») j’aurais souhaité des explications convaincantes, qui n’étaient données par personne.
  Le séquençage d’ADN bactérien que je connaissais ("Sanger") exigeait culture bactérienne pure, sinon on n’obtenait non-réponse dite « double-signal » autrement dit contradiction, comment l’analyse globale d'ADN microbiote (exemple : flore intestinale) peut-elle partir d’un très immense mélange de germes pour en extraire les différents composants ? La réponse usuelle est que c’est une prouesse informatique, mais – même si l’on n’effectue pas soi-même les milliards de calculs éventuels – il faudrait expliquer le principe pour devenir crédible. (Enfin, je pouvais obéir professionnellement, et faire semblant de croire ce que les formateurs affirmaient, mais ce n’était en rien convainquant sous cette forme – je ne serais nullement surpris si dans 10 ou 30 ans la plupart des germes « actuels » étaient invalidés comme constituant des artefacts mal interprétés).

------------------------------------------ Ajout 28/01/2021, Les questions compétentes qui peuvent tout casser à la panique covid-anglais organisée
  Mon métier (2012-2018) était l’identification par séquençage génétique (en bactériologie ADN certes pas virologie ARN),. C’était très particulier, peu connu, mais maintenant toutes les télévisions expliquent au grand public que le séquençage génétique des virus covid19 se développe énormément, pour mesurer (avec certitude scientifique incontestable) si le variant anglais se répand et à quel rythme. Je l’entends, mais la réponse « variant anglais : oui ou bien non ? » des laboratoires me parait tout sauf une évidence objective, « scientifique donc incontestable », hum je doute. J’explique les questions qui se poseraient à moi si j’étais encore dans le métier :
1/ Génome total ou non ?
2/ Zéro discordance (mismatch) ou combien ?
3/ Quelle corrélation génotypie/phénotypie ?
4/ Quelle reproductibilité ?
5/ Quelle spécificité ?
  Je développe :
1/ L’ARN viral de Sars-Cov-2 (agent viral de la maladie covid19) fait environ 30.000 bases (d’après https://insb.cnrs.fr/fr/cnrsinfo/larn-polymerase-du-sars-cov2-est-elle-son-talon-dachille ), alors que ce que nous pratiquions était le séquençage bactérien du gène 16S (ou parfois rpoB ou autre, j’ai un peu oublié) de moins de 1.500 bases, le séquençage total étant envisagé mais beaucoup plus cher, pas routinier (pas encore en 2018 en tout cas), et un peu problématique car peu discriminant (confondant ratés ponctuels aléatoires et différences systématiques très significatives). Or si on dit d’après 1 seul gène (sur 20 ou 30) que c’est tel variant, cela peut être démenti par les variations sur les autres gènes. Affirmer au vu d’un seul gène, au nom du savoir expert, est a priori un mensonge à l’égard des incompétents ne sachant pas qu’il s’agit d’un abus de pouvoir. Je veille et le dénonce.
2/ A supposer que soit pratiqué en routine le séquençage total (long et cher, mais peut-être moins qu’avant), l’objection précédente tombe, mais se pose une autre objection que je connaissais en bactériologie : combien de mismatches tolère-t-on pour affirmer une identité ? Il y avait le cas où le germe inconnu X ne correspond (en séquence de ce gène) pile à rien, mais les plus proches connus décrits sont le variant U (avec 1 base discordante) puis les variants V et W (avec 33 et 36 discordances), dans ce cas on affirmait « c’est rendu avec l’identité U », bien que ce puisse être une autre bestiole Y, qui sera décrite dans le futur, avec toujours cette unique discordance par rapport à U. Donc l’affirmation « ce germe est un cas de variant anglais » ne serait pas fiable, mais temporaire incertaine (en fait fausse, attendant progrès de la science qui établira que c’était une erreur totale). Pire : il y a des cas avec U’/V’/W’ non pas à 1/33/36 mais 6/7/9 et on hésitait entre répondre « U’ meilleur choix » ou « non réponse » ou « U’/V’ non discriminé », la réponse n’est pas objective mais éminemment subjective. Souvent les demandeurs d’analyse contestaient nos conclusions et soit c’était imposé par acte d’autorité de la responsable, soit on se couchait en « si vous n’y croyez pas, la réponse est : non-réponse, tant pis pour vous ». C’est effectivement affaire de croyance subjective, fonction des aléas (vaguement psycho-sociologiques) de dominance, ce n’est pas du tout de la science dure, objective, « crédible », non. La réponse relève un peu du « n’importe quoi » (mais j’étais acheté par mon salaire, sans droit à le dire, et les chartes à signer exigeaient qu’on n’écrive jamais un mot négatif – étouffement en règle des objections pertinentes).
3/ On nous dit (quelque chose comme) « le variant anglais est 70% plus contagieux et 40% plus mortel », mais comment cela a-t-il été établi ? Est-ce sur du génome total avec zéro mismatch ? C’est possible mais je pense que ce serait très cher à obtenir et très décevant (trouvant très rarement ledit variant, pile parfait). Sinon, avoir 1 mismatch (et/ou séquence inconnue sur les gènes non analysés) n’autorise pas à dire que cette version-là (inconnue ici analysée et prétendue « identifiée »), potentiellement un peu différente, a les mêmes propriétés comportementales (caractères infectieux et pathogène). Si le groupage n’est pas fiable, la corrélation entre groupes taxonomiques et propriétés médicales ne vaut rien de rien. Passer ces détails techniques sous silence (« réservé aux experts ») cacherait un mensonge, total, énorme. En bactériologie, cela a été reconnu (dans les années 1980 ?) avec l’apparition du recours exigé aux tests antibiogrammes individualisés, en laissant tomber les fausses généralités de type « telle identité donc telles résistances, telles sensibilités », mais en virologie, cette individualisation pertinente (sans généralisation abusive, inductive) passerait je pense par des cultures cellulaires très chères, donc je ne pense pas que ce soit fait, et l’erreur de principe doit perdurer, vraisemblablement. Autre chose : je pense que n’est nullement prouvé que chaque représentant du variant anglais a les caractères (de contagion et pouvoir pathogène) indiqués, ce n’est qu’une vague estimation grossière sur ce qui a été dénommé « variant anglais » à un moment donné (avant révision éventuelle) ; inversement, je pense que n’est nullement prouvé qu’aucun variant non-anglais ne présente ces caractères. En faire une relation de cause à effet, est une erreur logique, une association d’idées à la Pavlov (stupide bestiale) généralisant à tort.
4/ Avant d’accepter cet outil diagnostic (qu’est le séquençage génétique du variant anglais), il faudrait savoir quelle est la reproductibilité de ce test : parfaite/excellente ou médiocre/mauvaise ? Et cela à deux niveaux : techniquement, est-ce qu’un même virus donne systématiquement le même résultat de séquençage ou bien les aléas techniques donnent-ils des petits ratés prétendus acceptables (pris en compte même s’il pourrait s’agir de vraies différences bien détectées) – et si cela est analysé par rapport à une technique de référence, celle-ci ne peut-elle jamais se tromper ou bien est-il posé arbitrairement qu’elle ne se trompe jamais (en disant crotte au « principe de précaution » qui envisagerait l’erreur) ; par ailleurs, un malade infecté par deux virus (variants chinois et anglais, ou grippe + covid anglais, etc. en proportion 99/1 ou 50/50 ou 1/99) donne-t-il systématiquement une réponse positive au test « variant anglais » ?
5/ Comment a-t-il été prouvé qu’aucun autre variant ne donne de positivité au test de recherche covid19 anglais ? Il est à craindre que le test ait été pratiqué avec quelques autres variants répandus et non tous les variants possibles et imaginables (au nombre supérieur à 4 puissance trente mille, car s'ajoutent délétions et insertions/ajouts, soit un nombre infini...). En biochimie séparative, j’avais techniquement prouvé (avant d’être mis dehors en invalidité psychiatrique) que le chapitre spécificité de nos validations était mensonger (parmi autres mensonges, certes ce n’était pas le pire), n’examinant en rien tout ce qui est possible. Sauf démonstration explicite du contraire, j’ai le même diagnostic pour ce nouvel outil diagnostic : faux et usage de faux.
   Bref, je pense que ce séquençage est un très imparfait outil dont sont cachées les fautes. « La Science ne ment pas » nous dit-on, et c’est un mensonge (pratiqué officiellement, richement, en éliminant les subalternes compétents lanceurs d’alerte documentée, prouvée). Certes, depuis toujours et encore actuellement, « on sait que » cache « on croit savoir que », donc « on croit que » (et on peut se tromper, même si on interdit de le signaler/prouver).

------------------------------------------ Ajout 29/01/2021, Précision
  Quand je disais qu’affirmer une identité au vu d’un seul gène est un mensonge explicite, je ne disais pas que j’ai menti pendant 6 ans, non : en bactériologie, l’identité est une espèce, une généalogie, une parenté, et ceci peut être estimé d’après un gène très conservé (peu important les gènes très mutés non spécifiques), MAIS pour un virus sars-cov-2 dont toute variation où qu’elle soit s’appelle « variant », ne pas voir de variation sur 1 gène parmi 30 ne garantit absolument en rien qu’il ne s’est rien passé sur les autres gènes. On ignorerait donc, en séquençage ciblé, si ce virus est un variant différent (même si la parenté est connue). En cela, le séquençage ciblé de sars-cov2 identifie de manière erronée à tel variant, c’est ce que je voulais dire (si c'est du séquençage total qui est pratiqué, c'est différent mais identifier tel variant à autre chose que zéro mismatch serait un mensonge – et je doute que la technique soit assez robuste pour garantir une perfection 30000/30000 systématique en reproductibilité, et sans la moindre base incertaine, A ou C, C ou G, qu'il serait de toute façon subjectif de trancher en faveur ou défaveur de l'hypothèse anglais).

------------------------------------------ Ajout 22/02/2021, « Explosion »
   On entend parfois à la télévision des docteurs experts dire « le séquençage prouve scientifiquement qu’on a là affaire au variant anglais de covid19 ». Euh, c’est simplement faux, c’est ce que peut dire un cadre responsable voulant impressionner un public très incompétent genre littéraire, mais les techniciens subalternes ayant effectué l’analyse en détail savent que c’est mensonger. La vraie formulation serait « compte tenu du résultat de séquençage que nous avons obtenu (à crédibilité et reproductibilité inconnues espérées assez bonnes), l’emploi de telle base de données (à fiabilité contestable) à telle date (améliorable ou polluable dans le futur), et compte tenu de l’état actuel de la taxonomie (en révision perpétuelle), en escomptant que les calculs soient fiables (bien programmés et non faussés par virus informatique récent pas encore repéré), cela suggère plutôt que le résultat brut ressemble à ce qui a été déposé dans la base sous tel nom (à raison ou non), et à tel autre mais un peu moins (sans qu’on sache sur expérience répétée si la différence est significative) ».
   C’est ce que je faisais en routine de 2012 à 2018 avec calculs informatiques BLAST (Basic Local Alignment Search Tools, jeu de mot avec « a blast » signifiant une explosion). Comme nous en étions venus à douter des résultats (assez souvent aberrants) obtenus par moteur officiel gratuit avec base de données officielle gratuite (polluée de séquences mal identifiées), nous employions un Blast privé payant, avec base nettoyée (et définition de séquences centrales par taxon, ce qui était bien plus puissant de manière générale, mais inapproprié dans certains cas particuliers ne ressemblant à rien). Bref, il y a diverses façons de faire, rendant des résultats potentiellement différents, et on effectue un choix au jugé entre cela pour conclure en essayant de faire au mieux (estimé un peu au pifomètre, selon l’humeur et l’historique des situations conflictuelles), ce n’est en rien une preuve catégorique indéniable.

------------------------------------------ Ajout 01/04/2023, Souvenir de lecture (sans poisson)
   De manière inattendue, j’ai lu dans l’ouvrage « Covid19, ce que révèlent les chiffres officiels », de Pierre Chaillot cette année, une analyse critique intéressante de ce qui me chiffonnait en matière d’identification « informatique » par séquençage. Il dit que l’étape PCR avant séquençage fractionne en petits morceaux (multipliés alors) la séquence de départ, puis que ces petits morceaux sont séquencés, puis vient une étape informatique de reconstruction hypothétique, quant à ce qui a pu être la source de ces petits morceaux. Différents logiciels arrivent à différentes conclusions, et de manière opaque appelant à une croyance non justifiée (ce n’est pas de la connaissance objective).
   Ce n’est bien sûr qu’un petit point très annexe dans ce livre, passionnant pour mille autres points, majeurs, mais ça m’a particulièrement intéressé, rejoignant mon doute professionnel, rentré puisque acheté par le salaire pour faire comme attendu de la hiérarchie. Je pourrais en discuter avec ma supérieure hiérarchique maintenant (que je suis en invalidité et elle : retraitée), mais elle a dit ne plu’ vouloir me lire, estimant semble-t-il que je coupe les cheveux en quatre pour de faux problèmes, balayés par ses certitudes (sans arguments, apparemment).