Le doute « à Déhenne »
Inconfort d’ex-technicien bactério-généticien
par CME (28/02/2019)


  A l’époque où je travaillais (à temps partiel) sur l’identification bactérienne par séquençage ADN (2012-2018), j’évitais de me poser des questions sur les objections de principe à cette activité : tandis que j’étais très choqué par d’autres problèmes dans d’autres domaines (« qualité », métrologie, antibiogramme, chromatographie) là je n’avais pas les idées claires, même si j’avais vaguement conscience d’objections potentielles. J’essayais de faire ce qui m’était demandé, comme cela m’était demandé, et c’était une forme de professionnalisme me paraissant acceptable, puisqu’il n’y avait pas d’horreur antilogique évidente. Maintenant que j’ai été classé en invalidité, après 34 ans de travail, j’envisage de répondre à mon ancienne chef me demandant si j’ai le sentiment qu’on a fait du bon boulot (dans le domaine de l’identification bactérienne par séquençage). Il va s’agir de réflexions désordonnées, un peu dans tous les sens, pouvant intéresser Françoise A, Marilyne RP, Valérie C.
  Objections à ce que je faisais :
- Souches-types ± invalidées. Des demandeurs d’analyse se mettaient en colère quand un exemplaire de la souche-type d’une espèce était rendu par nous avec une autre identification, proche mais différente (alors qu’il ne s’agissait pas d’une erreur grossière ayant identifié un contaminant). Par définition, disaient-ils non sans raison, cette souche-type est de cette espèce, on n’a seulement besoin de la confirmation officielle par la méthode de référence qu’est devenue l’identification ADN. Mais… les experts de nos logiciels d’analyse informatiques le contestaient, confirmant leurs identifications discordantes, attribuant ces déclarations de souches-types à des erreurs méthodologiques en voie de correction. Certes, quand j’y repense : en contexte taxonomique évolutif on peut avoir le cas suivant : l’espèce a s’est vue scindée en a0 et a1, mais la souche type de a1 s’avère très différente de toutes les a1 suivantes et mériterait de générer la nouvelle espèce a2. Mais… ce pourraient être ces nouvelles a1 qui seraient dénommées a2 (plutôt que l’ancienne chef de file), on n’en sait rien pour le moment. Mais… il est exigé de répondre, en prétendant donner réponse de référence, ce n’est pas confortable (je n’aime pas affirmer avoir raison quand je pense avoir tort peut-être).
- Discordances entre scores et mismatches. Avec certains réglages paramétriques (valeurs par défaut selon certains moteurs de calcul blast), l’identification attendue peut n’apparaître qu’au centième rang des meilleures candidates, quoique qu’avec zéro mismatch, quand toutes les meilleurs candidates ont 30 mismatches ou davantage, mais sur de plus grandes longueurs de gène. C’est l’inconvénient d’une boîte noire, automatisant les calculs de manière indispensable mais sans qu’on maitrise le sens des choix implicites, en fait très contestables. (Et il n’est pas sûr que l’identification avec zéro mismatch soit la bonne, peut-être est-elle simplement ce qui avait été obtenu avec un autre paramétrage, la vérité vraie étant inconnue).
- Cas des alignements sans Blast. En évitant le calcul global de la technique Blast, plus puissante par certains côtés mais perdant de l’information, les alignements étaient parfois préférés, et l’on tranchait à la base près quand on voyait une corrélation entre espèce et telle base en telle position, mais c’était peu probant car la concordance était toujours effectuée sur quelques souches seulement, sans garantir qu’il n’y a pas de contrexemple un peu rare mais répétable.
- Relativisme de principe. La référence (nom d’espèce trouvée matchant bien avec la séquence d’inconnu fournie) est relative à la méthode employée, pas forcément immensément fiable. Quand il y a convergence de plusieurs souches de même espèce donnant un bon score, on espère que c’est fiable, mais c’est peu solide, ça ne résiste pas au doute systématique (qui est théoriquement le principe scientifique).
- Caractère partiel. Il est dit qu’y a plusieurs copies de gêne 16S (ou rpoB etc.) par individu bactérien, discordants possiblement, alors : trancher parfois au vu de 1 mismatch (par exemple : premier choix accepté à 1 mismatch, second choix non retenu à 2 mismatches) est discutable, car on n’a pas idée de la reproductibilité du résultat, pour affirmer que la différence observée est significative. Et si on refuse de répondre tant qu’on n’a pas de grosse différence entre premier choix et second choix (exemple : 4 mismatches de différence), les demandeurs d’analyse sont insatisfaits par la forte fréquence de réponses « incertain » non concluantes, mettant en question le recours à cette technique. Je ne vois pas de solution miracle à cela. Et, là où il y a décision franche, genre premier choix à zéro mismatch, second choix à quatre mismatches, ce n’est que temporaire, et la vérité pourra être différente quand le panorama aura été enrichi par des chaînons manquants à 1-2-3 mismatches, sans donc aboutir à une vérité franche intemporelle.
- Gène ciblé pas universel. Avoir travaillé sur un gène à la fois, déclaré discriminant dans telle publication scientifique, ne garantit pas en principe que cette discrimination est parfaite, et non contredite sur un autre gène. L'idéal est l'approche multigène que nous ne faisions pas, ou génôme total qui commençait à peine, mais où l'information est diluée dans la masse de données, d'où résultat éventuellement moins dicriminant qu'avec ciblage, je ne sais pas. (Ajout 01/03/2019 : c'est aussi une question de "bruit de fond" : la reproductibilité du séquençage n'est pas démontrée 100,0000% et donc en analysant une immense longueur se cumulent plein de petits ratés rares qui sont "comme" des discordances significatives).
- Problème de taxonomie. Sur le principe même, on ne dit pas le vrai en identification, mais c’est une façon de parler actuelle tout en sachant que des distinctions pourront être définies dans le futur. Même en taxonomie animale, la notion d’espèce est relative, tel individu appartient à telle espèce présuppose que chaque espèce est clairement définie et immuablement, ce qui n’est pas vrai. Exemple, si les périodes de reproduction sont de janvier à mai pour les pigeons A, de mai à Septembre pour les pigeons B, de Septembre à Décembre pour les pigeons C, de Décembre à Février pour les pigeons D, en termes d’espèce on a A=B, B=C, C=D, D=A, mais A n’est pas égal à C. Il ne s’agit pas d’égalité au sens mathématique mais de regard subjectif porté sur les choses, compte tenu de nos conventions.
- Spécificité bactérienne. Il y a le problème des espèces définies par des caractères phénotypiques (comme les colonies rhizoïdes), le résultat de ressemblance ADN discordant du critère de définition des espèces. Un descendant de telle espèce mais ayant perdu le caractère de la définition phénotypique est-il une nouvelle espèce ou un cas particulier de la même espèce ? ça semble très subjectif d’en décider. De même fixer, de manière génétique pure, les critères d’hybridation ADN-ADN à >80,0% ou autre semble subjectif, et il n’y a aucunement saut qualitatif entre 79,9% et 80,1%, seulement une convention humaine, une façon de parler en se fixant des règles arbitraires, révisables un jour.
- Impossibilité éventuelle de taxonomie darwinienne. Bacillus cereus sous-espèce cytotoxicus est devenue une espèce à part entière Bacillus cytotoxicus, puisqu’elle a perdu un fragment ADN énorme d’un million de paires de bases, et c’est compté subjectivement comme devenant une nouvelle espèce, alors que la logique « enfant de » pouvait la laisser dans l’espèce mère, ce n’est pas clair, ça semble très subjectif. C’est un problème certes universel : le premier humain était-il un enfant de singes (selon la logique darwinienne, hors créationnisme) ?
- Cas inverse. Génétiquement, il n’est plu’ sûr que le genre Shigella soit défini, puisque les Shigelles ne se distinguent pas génétiquement des Escherichia coli, les chaînons manquants ayant été découverts depuis les temps anciens ayant défini ces germes comme totalement distincts. Quand un demandeur d’analyse exige qu’on lui dise si telle souche est une Shigelle ou un Escherichia, on répond hélas « incertain » en étant mal reçu, et si on tranchait sur base de micro-différence, ce pourrait être très bientôt démenti, ce n’est pas satisfaisant non plu’.
- Horizontalité. Les transferts horizontaux de gènes sont aussi un problème de classification ou signification. Un Escherichia ayant acquis 30% de gènes Pseudomonas est-il clairement un Escherichia ? ou un Pseudomonas ? Ou une nouvelle espèce hybride ? Dans le continuum des taux d’acquisition, comment définir un critère quantitatif séparant fiablement des taxons qualitatifs ? Avec nos logiciels, on rend des réponses, mais personnellement je ne comprenais pas bien ce que je faisais à ce sujet. La division à certains moments des Bacillus en multitude d’espèces (à 1 seule souche représentant) avant de stopper cette dérive, ou l’article disant que Pseudomonas fluorescens est en fait un continuum de germes notablement différents, tout cela rendait la situation très floue, je n’avais pas les idées claires.
- Principe d’identification suspect. En revenant tout au fond de la question « identification », pourquoi chercher à quelle espèce ressemble une souche inconnue ? Autrefois, le paradigme était que si l’on connait l’identité à l’espèce, on connait la pathogénicité et les résistances aux antibiotiques, mais, depuis, il est apparu que l’espèce Escherichia coli comprend à la fois une majorité de souches totalement non pathogènes et d’autres qui sont très pathogènes mortelles ; de même l’antibiogramme s’individualise à la souche, car l’identité ne suffit en rien à prévoir toutes les résistances. Ce n’est pas totalement inintéressant de connaitre l’identité, car cela permet de corriger certaines erreurs nées d’artefacts (cas de résistances naturelles se trouvant par malchance inexprimées telle fois), mais l’identité n’a plu' la même importance qu’autrefois. Enfin, pour acquérir cette connaissance, les centres de référence par genre pratiquent quantité de tests, très chers, mais atteindre leur niveau d’expertise n’est guère possible pour d’autres laboratoires, et pour un coût raisonnable. Qu’on nous demande une identification de référence aurait donc presque dû conduire à la réponse : « demandez au centre de référence, nous ne sommes pas autant experts et le devenir serait bien trop cher, et impossible pour tous les genres bactériens à la fois ». Donc « mettez-moi au chômage… ».
  Oui, c’était inconfortable, pas mathématiquement faux absurde mais immensément imparfait, ça explique que je ne voulais pas trop y penser, me situant comme machine en location et non comme décideur valideur formel.

------------------------------------------ Ajout 13/04/2019, Assemblage de novo suspect
  Un peu en dehors de mon travail, mais toujours dans le domaine du séquençage bactérien, j’ai été immensément surpris par l’affirmation que la plupart des germes identifiés par biologie moléculaire ne cultivaient pas in vitro, étant donc définis exclusivement par leur ADN. Comment ont été « validées » ces identifications effectuées ? Qu’est-ce qui prouve que les séquences observées sont des germes vivants et pas des déchets nucléiques dénués de vie ? Et si on trouve une séquence de gènes U-V-W, qu’est-ce qui prouve que cela correspond aux germes U, V, W et pas deux germes UV et W (ou UW et V, ou VW et U) voire un seul germe UVW ? Avant de croire les prétendus experts (en « bio-informatique ») j’aurais souhaité des explications convaincantes, qui n’étaient données par personne.
  Le séquençage d’ADN bactérien que je connaissais ("Sanger") exigeait culture bactérienne pure, sinon on n’obtenait non-réponse dite « double-signal » autrement dit contradiction, comment l’analyse globale d'ADN microbiote (exemple : flore intestinale) peut-elle partir d’un très immense mélange de germes pour en extraire les différents composants ? La réponse usuelle est que c’est une prouesse informatique, mais – même si l’on n’effectue pas soi-même les milliards de calculs éventuels – il faudrait expliquer le principe pour devenir crédible. (Enfin, je pouvais obéir professionnellement, et faire semblant de croire ce que les formateurs affirmaient, mais ce n’était en rien convainquant sous cette forme – je ne serais nullement surpris si dans 10 ou 30 ans la plupart des germes « actuels » étaient invalidés comme constituant des artefacts mal interprétés).