Une chercheuse de Harvard développe un programme pour lire n’importe quelle séquence du génome

- Publicité -

Le code génétique a été proposé comme un «accident gel », mais la découverte de codes génétiques alternatifs au cours des quatre dernières décennies a montré qu’il peut évoluer dans une certaine mesure. Étant donné que la plupart des exemples ont été trouvés de manière anecdotique, il est difficile de tirer des conclusions générales sur les trajectoires évolutives de la réaffectation des codons et pourquoi certains codons sont affectés plus fréquemment. Une équipe de Harvard University a développé Codetta, une méthode informatique pour prédire le décodage des acides aminés de chaque codon à partir des données de séquences nucléotidiques.


Yekaterina “Kate” Shulgina était une étudiante de première année à la Graduate School of Arts and Sciences, à la recherche d’un court projet de biologie computationnelle afin de pouvoir vérifier les exigences de son programme en biologie des systèmes. Elle se demandait comment le code génétique, autrefois considéré comme universel, pouvait évoluer et changer. C’était en 2016, et Shulgina est sortie à l’autre bout de ce projet à court terme avec un moyen de déchiffrer le mystère. Elle le décrit dans un nouvel article de la revue eLife avec le biologiste de Harvard Sean Eddy.

Le rapport détaille un nouveau programme informatique développé par Shulgina qui peut lire la séquence du génome de n’importe quel organisme, puis déterminer son code. Le programme, appelé Codetta, a le potentiel d’aider les scientifiques à approfondir leur compréhension de l’évolution du code génétique et à interpréter correctement les codes des organismes nouvellement séquencés. “C’est en soi une question de biologie très fondamentale”, a déclaré Shulgina, qui effectue ses recherches de troisième cycle au Eddy’s Lab.

- Publicité -

Le code génétique est l’ensemble de règles qui indique aux cellules comment traduire les combinaisons de trois lettres de nucléotides en protéines, souvent appelées les éléments constitutifs de la vie. Presque tous les organismes, d’E. coli aux humains, utilisent le même code génétique. C’est pourquoi on pensait autrefois que le code était gravé dans la pierre. Mais les scientifiques ont découvert une poignée de valeurs aberrantes – des organismes qui utilisent des codes génétiques alternatifs – existent où l’ensemble d’instructions est différent.

C’est là que Codetta peut briller. Le programme peut aider à identifier davantage d’organismes qui utilisent ces codes génétiques alternatifs, contribuant ainsi à jeter un nouvel éclairage sur la façon dont les codes génétiques peuvent changer en premier lieu. “Comprendre comment cela s’est produit nous aiderait à concilier pourquoi nous pensions à l’origine que c’était impossible … et comment ces processus vraiment fondamentaux fonctionnent réellement”, a déclaré Shulgina.

Déjà, Codetta a analysé les séquences du génome de plus de 250 000 bactéries et autres organismes unicellulaires appelés archées pour des codes génétiques alternatifs et en a identifié cinq qui n’avaient jamais été vus. Dans les cinq cas, le code de l’acide aminé arginine a été réaffecté à un autre acide aminé. On pense que c’est la première fois que les scientifiques voient cet échange de bactéries et pourraient faire allusion aux forces évolutives qui modifient le code génétique.

- Publicité -

Les chercheurs disent que l’étude marque le plus grand dépistage de codes génétiques alternatifs. Codetta a essentiellement analysé chaque génome disponible pour les bactéries et les archées. Le nom du programme est un croisement entre les codons, des séquences de trois nucléotides qui forment des morceaux du code génétique, et la pierre de Rosette, une plaque de roche inscrite avec des textes parallèles en hiéroglyphes grecs, démotiques et égyptiens, qui a servi de une clé pour les experts essayant de déchiffrer l’écriture égyptienne ancienne.

Le travail marque un moment décisif pour Shulgina, qui a passé les cinq dernières années à développer la théorie statistique derrière Codetta, à écrire le programme, à le tester, puis à analyser les génomes. Il fonctionne en lisant le génome d’un organisme, puis en puisant dans une base de données de protéines connues pour produire un code génétique probable. Elle diffère des méthodes similaires en raison de l’échelle à laquelle elle peut analyser les génomes.

Shulgina a rejoint le laboratoire d’Eddy, spécialisé dans la comparaison des génomes, en 2016 après être venue lui demander conseil sur l’algorithme qu’elle concevait pour interpréter les codes génétiques. Jusqu’à présent, personne n’avait fait une étude aussi large pour les codes génétiques alternatifs. “C’était formidable de voir de nouveaux codes, car pour tout ce que nous savions, Kate ferait tout ce travail, et il n’y en aurait pas de nouveaux à trouver”, a déclaré Eddy, qui est également un chercheur médical de Howard Hughes. Il a également noté le potentiel du système à être utilisé pour assurer l’exactitude des nombreuses bases de données qui hébergent les séquences de protéines.

- Publicité -

“De nos jours, de nombreuses séquences de protéines dans les bases de données ne sont que des traductions conceptuelles de séquences d’ADN génomique”, a déclaré Eddy. “Les gens extraient ces séquences de protéines pour toutes sortes de choses utiles, comme de nouvelles enzymes ou de nouveaux outils d’édition de gènes et ainsi de suite. Vous aimeriez que ces séquences de protéines soient exactes, mais si l’organisme utilise un code non standard, elles seront traduites par erreur”.

Les chercheurs disent que la prochaine étape du travail consiste à utiliser Codetta pour rechercher des codes alternatifs dans les virus, les eucaryotes et les génomes organellaires comme les mitochondries et les chloroplastes. “Il y a encore beaucoup de diversité dans la vie où nous n’avons pas encore fait ce dépistage systématique”, a déclaré Shulgina.

Voir la publication

eLife 2021;10:e71402

 

Sur les mêmes sujets

-- Annonce --
Total
0
Share