Un outil phylogénétique pour les données génomiques à l’échelle pandémique
Avec l’énorme abondance de données génomiques générées par les expériences en sciences de la vie, le traitement de grands ensembles de données reste un défi dans le domaine de la bioinformatique. Pendant la pandémie de COVID-19, les capacités limitées des outils bioinformatiques existants signifiaient que de grandes quantités de données ne pouvaient pas être analysées en même temps, limitant la portée de l’analyse évolutive et épidémiologique.
Pour résoudre ce problème, une équipe dirigée par des chercheurs de l’Institut européen de bioinformatique de l’EMBL (EMBL-EBI) a développé un nouvel outil bioinformatique capable de gérer des ensembles de données génomiques à grande échelle, permettant aux scientifiques d’analyser simultanément des millions de génomes viraux.
Cette recherche, publiée dans la revue Génétique naturelle, décrit une nouvelle méthode – MAXimum Parsimonious Likelihood Estimation (MAPLE) – qui utilise de nouvelles approximations mathématiques pour développer un algorithme qui fonctionne spécifiquement sur des génomes étroitement liés. Cette nouvelle approche permet une reconstruction rapide des arbres phylogénétiques, une étape cruciale pour comprendre l’évolution virale et la propagation épidémiologique.
Les enseignements tirés de la pandémie
Pendant la pandémie de COVID-19, les chercheurs ont eu du mal à analyser le grand nombre d’ensembles de données génomiques générés. Cela a rendu difficile l’étude de l’évolution et de la propagation du virus SARS-CoV-2. Les limites des outils bioinformatiques standard ont obligé les chercheurs à se concentrer uniquement sur un petit sous-ensemble d’échantillons à l’époque. Les chercheurs du monde entier se sont vite rendu compte qu’ils avaient besoin de méthodes plus rapides et plus efficaces.
“Nous avons été confrontés à de nombreux défis pour analyser toutes les données qui arrivaient pendant la pandémie”, a déclaré Nicola De Maio, chercheur à l’EMBL-EBI. “Les outils phylogénétiques traditionnels sont devenus inadéquats à mesure que le volume de données augmentait. Nous avons travaillé avec d’autres pour essayer d'”étirer” ces méthodes. Nous avons essayé d’utiliser des superordinateurs pour résoudre le problème, mais à un moment donné, rien ne semblait plus fonctionner. Cela nous a incités à créer ÉRABLE.”
L’avantage le plus important de MAPLE est sa capacité à traiter des ensembles de données génomiques à grande échelle; des millions de génomes microbiens peuvent être analysés à la fois.
Outils pour les problèmes épidémiologiques
Souvent, les outils utilisés pour étudier l’évolution sont les mêmes, qu’il s’agisse d’épidémies récentes de virus et de bactéries ou de l’évolution d’espèces éloignées. Pour accélérer l’inférence phylogénétique dans l’épidémiologie génomique, les chercheurs ont développé un nouvel algorithme qui fonctionnait mieux pour les échantillons étroitement liés, par exemple, les génomes viraux avec seulement des dizaines de différences de nucléotides, comme c’est le cas pour les génomes du SRAS-CoV-2.
Les chercheurs ont également réalisé que les leçons apprises au cours de cette pandémie seront utiles pour faire avancer les outils bioinformatiques. Pour se préparer aux futures pandémies, les outils bioinformatiques doivent faire face à des échelles de données encore plus grandes.
« En tant que bioinformaticiens, nous avons beaucoup appris de la pandémie de COVID-19, mais nous devons également penser à l’avenir et à la manière dont nous pouvons être mieux préparés », a déclaré Nick Goldman, chef de groupe à l’EMBL-EBI. « Les outils bioinformatiques doivent pouvoir traiter plus de données, et nous avons besoin d’outils pour une gamme de tâches spécifiques. De nouveaux outils tels que MAPLE peuvent être un ajout précieux à l’arsenal de la communauté bioinformatique, aidant les chercheurs à traiter les données virales plus rapidement et plus efficacement. pour l’analyse évolutive.”