L’IA révèle l’activité des gènes dans les cellules humaines

Résumé : Des chercheurs ont développé un modèle d’IA qui prédit avec précision l’activité génétique dans n’importe quelle cellule humaine, fournissant ainsi des informations sur les fonctions cellulaires et les mécanismes des maladies.
Formé à partir de données provenant de plus de 1,3 million de cellules, le modèle peut prédire l’expression génétique dans des types de cellules invisibles avec une grande précision. Il a déjà permis de découvrir des mécanismes à l’origine d’une leucémie pédiatrique et pourrait contribuer à explorer la « matière noire » du génome, où se produisent la plupart des mutations cancéreuses.
Faits essentiels
- IA et activité génétique : le modèle d’IA prédit l’expression génétique dans des types de cellules invisibles à l’aide de données génomiques et d’expression, permettant ainsi de mieux comprendre les fonctions cellulaires.
- Découverte sur le cancer pédiatrique : le système a identifié comment des mutations spécifiques perturbent les facteurs de transcription dans la leucémie pédiatrique héréditaire, confirmée par des expériences en laboratoire.
- Exploration de la « matière noire » du génome : le modèle offre des outils pour étudier les régions non codantes du génome, mettant en lumière le rôle des mutations inexplorées dans le cancer et la maladie.
Source : Université de Columbia
Grâce à une nouvelle méthode d’intelligence artificielle, les chercheurs du Collège des médecins et chirurgiens Vagelos de l’Université Columbia peuvent prédire avec précision l’activité des gènes dans n’importe quelle cellule humaine, révélant ainsi essentiellement les mécanismes internes de la cellule.
Le système, décrit dans le numéro actuel de Nature , pourrait transformer la façon dont les scientifiques travaillent pour comprendre tout, du cancer aux maladies génétiques.

« Les modèles informatiques prédictifs généralisables permettent de découvrir les processus biologiques de manière rapide et précise. Ces méthodes peuvent mener efficacement des expériences informatiques à grande échelle, renforçant et guidant les approches expérimentales traditionnelles », explique Raul Rabadan, professeur de biologie des systèmes et auteur principal du nouvel article.
Les méthodes de recherche traditionnelles en biologie sont efficaces pour révéler la manière dont les cellules accomplissent leur travail ou réagissent aux perturbations. Mais elles ne permettent pas de prédire le fonctionnement des cellules ou la manière dont elles réagiront aux changements, comme une mutation cancérigène.
« Avoir la capacité de prédire avec précision les activités d’une cellule transformerait notre compréhension des processus biologiques fondamentaux », explique Rabadan.
« Cela transformerait la biologie d’une science qui décrit des processus apparemment aléatoires en une science capable de prédire les systèmes sous-jacents qui régissent le comportement cellulaire. »
Ces dernières années, l’accumulation de quantités massives de données provenant des cellules et des modèles d’IA plus puissants commencent à transformer la biologie en une science plus prédictive.
Le prix Nobel de chimie 2024 a été décerné à des chercheurs pour leurs travaux révolutionnaires sur l’utilisation de l’IA pour prédire les structures des protéines. Mais l’utilisation de méthodes d’IA pour prédire les activités des gènes et des protéines à l’intérieur des cellules s’est avérée plus difficile.
Une nouvelle méthode d’IA prédit l’expression des gènes dans n’importe quelle cellule
Dans cette nouvelle étude, Rabadan et ses collègues ont tenté d’utiliser l’IA pour prédire quels gènes sont actifs dans des cellules spécifiques. Ces informations sur l’expression des gènes peuvent indiquer aux chercheurs l’identité de la cellule et la manière dont elle remplit ses fonctions.
« Les modèles précédents ont été formés à partir de données sur des types de cellules particuliers, généralement des lignées de cellules cancéreuses ou quelque chose d’autre qui ressemble peu aux cellules normales », explique Rabadan.
Xi Fu, un étudiant diplômé du laboratoire de Rabadan, a décidé d’adopter une approche différente, en formant un modèle d’apprentissage automatique sur des données d’expression génétique provenant de millions de cellules obtenues à partir de tissus humains normaux.
Les entrées comprenaient des séquences du génome et des données montrant quelles parties du génome sont accessibles et exprimées.
L’approche globale ressemble à la façon dont fonctionnent ChatGPT et d’autres modèles « fondamentaux » populaires. Ces systèmes utilisent un ensemble de données d’apprentissage pour identifier les règles sous-jacentes, la grammaire du langage, puis appliquent ces règles déduites à de nouvelles situations.
« Ici, c’est exactement la même chose : nous apprenons la grammaire dans de nombreux états cellulaires différents, puis nous entrons dans une condition particulière (il peut s’agir d’un type de cellule malade ou normal) et nous pouvons essayer de voir dans quelle mesure nous prédisons des modèles à partir de ces informations », explique Rabadan.
Fu et Rabadan ont rapidement enrôlé une équipe de collaborateurs, dont les co-premiers auteurs Alejandro Buendia, désormais doctorant à Stanford et anciennement dans le laboratoire de Rabadan, et Shentong Mo de Carnegie Mellon, pour former et tester le nouveau modèle.
Après avoir été formé sur des données provenant de plus de 1,3 million de cellules humaines, le système est devenu suffisamment précis pour prédire l’expression des gènes dans des types de cellules qu’il n’avait jamais vus, produisant des résultats qui concordaient étroitement avec les données expérimentales.
De nouvelles méthodes d’IA révèlent les causes d’un cancer pédiatrique
Ensuite, les chercheurs ont démontré la puissance de leur système d’IA lorsqu’ils lui ont demandé de découvrir la biologie encore cachée des cellules malades, dans ce cas, une forme héréditaire de leucémie pédiatrique.
« Ces enfants héritent d’un gène muté, et on ne savait pas exactement ce que faisaient ces mutations », explique Rabadan, qui codirige également le programme de recherche en génomique et épigénomique du cancer au Herbert Irving Comprehensive Cancer Center de Columbia.
Grâce à l’IA, les chercheurs ont prédit que les mutations perturbent l’interaction entre deux facteurs de transcription différents qui déterminent le destin des cellules leucémiques. Des expériences en laboratoire ont confirmé la prédiction de l’IA. La compréhension de l’effet de ces mutations révèle des mécanismes spécifiques à l’origine de cette maladie.
L’IA pourrait révéler la « matière noire » du génome
Les nouvelles méthodes de calcul devraient également permettre aux chercheurs de commencer à explorer le rôle de la « matière noire » du génome – un terme emprunté à la cosmologie qui fait référence à la grande majorité du génome, qui ne code pas de gènes connus – dans le cancer et d’autres maladies.
« La grande majorité des mutations trouvées chez les patients atteints de cancer se situent dans des régions dites sombres du génome. Ces mutations n’affectent pas la fonction d’une protéine et sont restées pour la plupart inexplorées », explique Rabadan.
« L’idée est qu’en utilisant ces modèles, nous pouvons observer les mutations et éclairer cette partie du génome. »
Rabadan travaille déjà avec des chercheurs de Columbia et d’autres universités, explorant différents cancers, du cancer du cerveau au cancer du sang, en apprenant la grammaire de la régulation dans les cellules normales et la façon dont les cellules changent au cours du processus de développement du cancer.
Ces travaux ouvrent également de nouvelles perspectives pour comprendre de nombreuses maladies au-delà du cancer et pour identifier potentiellement des cibles pour de nouveaux traitements. En présentant de nouvelles mutations au modèle informatique, les chercheurs peuvent désormais obtenir des informations et des prévisions approfondies sur la manière exacte dont ces mutations affectent une cellule.
Dans la foulée d’autres avancées récentes en matière d’intelligence artificielle pour la biologie, Rabadan considère que ces travaux s’inscrivent dans une tendance majeure : « C’est vraiment une nouvelle ère en biologie qui est extrêmement passionnante ; transformer la biologie en une science prédictive. »
Informations Complémentaires
L’article, intitulé « Un modèle fondamental de transcription à travers les types de cellules humaines », a été publié le 8 janvier dans Nature.
Auteurs (tous de Colombie sauf indication contraire) : Xi Fu, Shentong Mo, Alejandro Buendia, Anouchka P. Laurent, Anqi Shao, Maria del Mar Alvarez-Torres, Tianji Yu, Jimin Tan (École de médecine Grossman de l’Université de New York, New York , NY), Jiayu Su, Romella Sagatelian, Adolph A. Ferrando (Columbia et Regeneron, Tarrytown, NY), Alberto Ciccia, Yanyan Lan (Université Tsinghua, Pékin, Chine), David M. Owens Teresa Palomero, Eric P. Xing (Mohamed ), Université d’intelligence artificielle Bin Zayed et Université Carnegie Mellon), et Raul Rabadan.
À propos de cette actualité sur la recherche en IA et en génétique
Auteur : Helen Garey
Source : Université de Columbia
Contact : Helen Garey – Université de Columbia
Image : L’image est créditée à Neuroscience News
Recherche originale : Accès libre.
« Un modèle fondamental de transcription à travers les types de cellules humaines » par Raul Rabadan et al. Nature
Abstrait
Un modèle fondamental de transcription à travers les types de cellules humaines
La régulation transcriptionnelle, qui implique une interaction complexe entre les séquences régulatrices et les protéines, dirige tous les processus biologiques. Les modèles informatiques de transcription ne sont pas suffisamment généralisables pour permettre une extrapolation précise à des types et conditions cellulaires inconnus.
Nous présentons ici GET (transformateur d’expression générale), un modèle de base interprétable conçu pour découvrir des grammaires régulatrices sur 213 types de cellules fœtales et adultes humaines.
S’appuyant exclusivement sur les données d’accessibilité de la chromatine et les informations de séquence, GET atteint une précision de niveau expérimental dans la prédiction de l’expression des gènes, même dans des types de cellules jusqu’alors invisibles.
GET montre également une adaptabilité remarquable à travers de nouvelles plateformes et tests de séquençage, permettant une inférence réglementaire sur un large éventail de types et de conditions de cellules, et découvre des réseaux d’interaction de facteurs de transcription universels et spécifiques au type de cellule.
Nous avons évalué ses performances dans la prédiction de l’activité régulatrice, l’inférence des éléments régulateurs et des régulateurs, et l’identification des interactions physiques entre les facteurs de transcription et avons constaté qu’il surpasse les modèles actuels dans la prédiction de la lecture du test de rapporteur massivement parallèle basé sur les lentivirus.
Dans les érythroblastes fœtaux, nous avons identifié des régions régulatrices distales (supérieures à 1 Mbp) qui n’avaient pas été détectées par les modèles précédents et, dans les cellules B, nous avons identifié une interaction facteur de transcription-facteur de transcription spécifique aux lymphocytes qui explique la signification fonctionnelle d’une mutation germinale prédisposant au risque de leucémie.
En résumé, nous fournissons un modèle généralisable et précis pour la transcription ainsi que des catalogues de régulation des gènes et d’interactions entre les facteurs de transcription, le tout avec une spécificité de type cellulaire.