Les ordinateurs découvrent 100 000 nouveaux virus dans d’anciennes données génétiques

- Publicité -

Les bases de données publiques contiennent une collection planétaire de séquences d’acides nucléiques, mais leur exploration systématique a été inhibée par un manque de méthodes efficaces pour rechercher ce corpus, qui (au moment de la rédaction) dépasse 20 pétabases et croît de façon exponentielle. Dans une nouvelle publication, des scientifiques rapportent avoir développé une infrastructure de cloud computing, appelée Serratus, pour permettre l’alignement de séquences à très haut débit à l’échelle de la pétabase. Ils ont recherché dans 5,7 millions d’échantillons biologiquement divers (10,2 pétabases) le gène caractéristique de l’ARN polymérase dépendante de l’ARN et identifié plus de 105 nouveaux virus à ARN, augmentant ainsi le nombre d’espèces connues d’environ un ordre de grandeur. Ils ont caractérisé de nouveaux virus liés aux coronavirus, au virus de l’hépatite delta et aux énormes phages, respectivement, et analysé leurs réservoirs environnementaux. Cet élargissement de la diversité des séquences connues des virus peut révéler les origines évolutives des agents pathogènes émergents et améliorer la surveillance des agents pathogènes pour l’anticipation et l’atténuation des futures pandémies.

Il a suffi d’un seul virus pour paralyser l’économie mondiale et tuer des millions de personnes ; pourtant, les virologues estiment qu’il existe des milliards de virus encore inconnus, dont beaucoup pourraient être mortels ou avoir le potentiel de déclencher la prochaine pandémie. Maintenant, ils ont une nouvelle et très longue liste de suspects potentiels à interroger. En passant au crible des quantités sans précédent de données génomiques existantes, les scientifiques ont découvert plus de 100 000 nouveaux virus, dont neuf coronavirus et plus de 300 liés au virus de l’hépatite Delta, qui peut provoquer une insuffisance hépatique.

Le SARS-CoV-2 a 3 protéines de surface attachées à une bicouche lipidique. La plus grande est la protéine de pointe (S), la plus légère est la protéine de membrane (M) et une protéine de canal ionique rare (E). Les structures des protéines S et E sont basées sur des données de diffraction des rayons X. © Juan Gaertner/Science Source

- Publicité -

“C’est un travail fondamental”, déclare J. Rodney Brister, bioinformaticien à la National Library of Medicine du National Center for Biotechnology Information, qui n’a pas participé à la nouvelle étude. Le travail augmente le nombre de virus connus qui utilisent l’ARN au lieu de l’ADN pour leurs gènes d’un ordre de grandeur. Cela «démontre également notre manque scandaleux de connaissances sur ce groupe d’organismes», déclare l’écologiste des maladies Peter Daszak, président de l‘EcoHealth Alliance, un groupe de recherche à but non lucratif à New York qui collecte des fonds pour lancer une enquête mondiale sur les virus. Les travaux aideront également à lancer ce que l’on appelle la génomique du pétaoctet, c’est-à-dire les analyses de quantités auparavant insondables de données d’ADN et d’ARN (Un pétaoctet correspond à 1015 octets).

Ce n’était pas exactement ce que le biologiste informatique Artem Babaian avait en tête lorsqu’il était entre deux emplois au début de 2020. Au lieu de cela, il était simplement curieux de savoir combien de coronavirus – à part le virus qui venait de lancer la pandémie de COVID-19 – pourraient être trouvé dans les séquences des bases de données génomiques existantes. Ainsi, lui et l’expert indépendant en superinformatique Jeff Taylor ont parcouru les données génomiques basées sur le cloud qui avaient été déposées dans une base de données de séquences mondiales et téléchargées par les National Institutes of Health des États-Unis. À l’heure actuelle, la base de données contient 16 pétaoctets de séquences archivées, qui proviennent d’enquêtes génétiques sur tout, des poissons fugu aux sols agricoles en passant par l’intérieur des intestins humains (Une base de données avec une photo numérique de chaque personne aux États-Unis occuperait à peu près la même quantité d’espace) Les génomes des virus infectant différents organismes dans ces échantillons sont également capturés par séquençage, mais ils ne sont généralement pas détectés.

Pour passer au crible les rames de données, Babaian et Taylor ont conçu un ensemble d’outils informatiques spécialisés dans la recherche de données basées sur le cloud. Avec l’aide de plusieurs bioinformaticiens, dont certains sont devenus des collaborateurs dévoués, ils ont peaufiné leur logiciel pour rendre leur analyse “bien plus rapide que quiconque ne le pensait possible”, se souvient Babaian, qui est maintenant à l’Université de Cambridge. Ils ont rapidement étendu leur chasse virale au-delà des coronavirus et ont examiné toutes les données dans le cloud. Babaian et ses collègues ont effectué leur recherche en recherchant des correspondances avec le noyau central du gène de l’ARN polymérase dépendante de l’ARN, qui est la clé de la réplication de tous les virus à ARN. Ces virus comprennent non seulement les coronavirus, mais aussi ceux qui causent la grippe, la poliomyélite, la rougeole et l’hépatite. L’approche de Babaian était suffisamment rapide pour traiter 1 million d’ensembles de données par jour, à un coût informatique inférieur à 1 centime par ensemble de données. “C’est un exploit technique impressionnant”, déclare C. Titus Brown, bioinformaticien à l’Université de Californie à Davis, qui n’a pas participé à l’étude. Lorsque les chercheurs ont finalement terminé, ils avaient découvert les génomes partiels de près de 132 000 virus à ARN, rapportent-ils aujourd’hui dans Nature.

- Publicité -

La nouvelle base de données du groupe ne contient pas la séquence complète de chaque nouveau virus – dans de nombreux cas, il n’y a que le gène de l’enzyme principale. Mais les chercheurs peuvent utiliser même des séquences partielles pour construire des arbres généalogiques qui révèlent comment différents virus sont liés et comment ils évoluent. Ils peuvent également utiliser la base de données pour savoir où un virus particulier a été trouvé et quel est son hôte. Et certaines découvertes pourraient aider les chercheurs à mieux comprendre comment les agents pathogènes humains surviennent, dit Brown, ou à améliorer les tests de diagnostic des infections virales. Enfin, lorsqu’un nouveau virus est isolé chez un malade, les chercheurs peuvent plus facilement savoir s’il a déjà été trouvé ailleurs. “Nous avons transformé cette [base de données] en un réseau géant de surveillance des virus”, déclare Babaian.

Certaines découvertes étaient inattendues, notamment des coronavirus jusque-là inconnus chez les poissons fugu et les axolotls bien étudiés. Dans quelques cas, les chercheurs ont pu reconstituer des génomes viraux entiers. Et chez certains animaux aquatiques, les séquences suggèrent que le nouveau génome du coronavirus a deux boucles distinctes, et non le brin d’ARN unique habituel, rapportent Babaian et ses collègues. L’équipe de Babaian a également trouvé des preuves de plus de 250 virus géants qui infectent les bactéries et sont similaires à ceux trouvés dans les algues. Des membres du groupe viral des bactériophages, proches parents de ces «énormes phages», ont été détectés dans des séquences d’organismes très différents. Un groupe d’énormes phages a été trouvé chez une personne au Bangladesh et aussi chez des chats et des chiens au Royaume-Uni, par exemple. Ces virus sont suffisamment gros pour transporter des gènes entre leurs espèces hôtes, note Babaian. C’est comme ça avec les virus, dit Daszak. “Chaque fois que nous commençons à creuser, nous avons des surprises.”

Pour s’assurer que d’autres puissent profiter du travail, l’équipe de Babaian a créé un référentiel public des outils qu’elle a développés, ainsi que des résultats. La quantité de séquences d’ADN accessibles au public et basées sur le cloud augmente de façon exponentielle ; s’il faisait la même analyse l’année prochaine, Babaian dit qu’il s’attendrait à trouver des centaines de milliers de virus à ARN supplémentaires. “D’ici la fin de la décennie, je veux en identifier plus de 100 millions”.

Sur les mêmes sujets

-- Annonce --
Total
0
Share