Contexte biologique
L’étude des systèmes biologiques, aussi bien à l’échelle de l’organisme qu’à l’échelle moléculaire, constitue un enjeu de recherche important. La compréhension du fonctionnement des organismes vivants a notamment un impact sur le développement de traitements contre les maladies ou l’étude des effets environnementaux sur la santé. Cependant, la compréhension des mécanismes qui régissent le fonctionnement des organismes biologiques est difficile en raison de leur complexité, du coût et de la difficulté de la réalisation d’expériences, et de la présence d’enjeux éthiques importants. Pour ces raisons, la modélisation des mécanismes biologiques a une grande importance dans la recherche biologique et la recherche biomédicale puisqu’elle vise à en simplifier l’étude, en réduisant les besoins expérimentaux. Dans ce contexte, la biologie des systèmes est une thématique visant à adopter une vision systémique de la modélisation du vivant (Kitano, 2002). Cette vision est particulièrement utile à l’échelle moléculaire, où les interactions entre gènes produisent des comportements complexes et engendrent des mécanismes qui ne sont pas toujours bien compris, et où les technologies expérimentales permettent par ailleurs d’acquérir de gros volumes de données.
Cependant, l’étude des systèmes biologiques se révèle difficile à cause du bruit des données expérimentales, de la difficulté de leur obtention, ainsi que de l’hétérogénéité des informations observables, ce qui complique la mise en place d’hypothèses de modélisation physique. L’informatique présente alors un double intérêt pour contribuer à la compréhension de ces systèmes. Dans un premier temps, le développement d’outils pour le traitement automatique de données biologiques (en particulier de données génomiques) permet de faire face à l’augmentation du volume de données disponible. Dans un second temps, l’informatique présente un intérêt théorique via le développement de modèles abstraits visant à mieux intégrer les différentes données hétérogènes disponibles. Dans cette thèse, nous nous intéressons en particulier à la modélisation des réseaux génétiques, c’est-à-dire aux interactions possibles entre les gènes d’un organisme, dans le but de comprendre le fonctionnement des mécanismes biologiques qui y sont associés. Dans la partie suivante, nous détaillons brièvement les mécanismes moléculaires sous-jacents à l’expression des gènes dans les cellules. Nous passons ensuite en revue les différentes méthodes de modélisation existantes pour la compréhension de ces phénomènes.
Régulation de l’expression génétique
La cellule, que l’on peut considérer comme la brique fondamentale des organismes biologiques, est un composant complexe délimité par une membrane, et au sein duquel sont présentes de nombreuses molécules continuellement en interaction. On s’intéresse en particulier à l’aspect génétique d’un organisme. En effet, les gènes, correspondant à des morceaux de l’ADN, lui-même présent dans le noyau des cellules, ont un rôle majeur dans le fonctionnement de l’organisme. Ceux-ci sont tous formés à partir des quatre mêmes nucléotides, mais sont pourtant à l’origine de mécanismes variés, ce qui nous encourage à les considérer et à les traiter essentiellement comme de l’information.
Le développement de la génomique a suscité beaucoup d’enthousiasme, notamment avec des projets comme le Human Genome Project , qui vise à séquencer l’entièreté du génome humain. Cependant, la seule information des gènes ne suffit pas à expliquer toute la complexité d’un organisme. Par exemple, l’hypothèse anciennement soutenue, selon laquelle chaque gène déterminait une unique protéine n’est pas valide étant donné le faible nombre de gènes (~20000 dans les cas du génome humain) (Moraes et al., 2016). Bien que les gènes soient présents de manière presque identique dans les noyaux de toutes les cellules d’un organisme, le mécanisme d’expression d’un gène est un processus dynamique, et ceux-ci ne sont pas exprimés de la même manière dans toutes les cellules. Les gènes subissent en effet plusieurs transformations qui mènent à la synthèse de protéines. Dans un premier temps, le processus de transcription d’un gène permet la création d’une molécule d’ARN messager qui peut se déplacer hors du noyau. Dans un second temps, le processus de traduction du gène permet la synthèse d’une protéine à partir de la lecture de l’information présente sur l’ARN messager par le ribosome. Les protéines ainsi synthétisées peuvent alors avoir plusieurs fonctions à l’intérieur d’une cellule.
Comprendre les mécanismes qui font évoluer l’expression des gènes au sein des cellules est un défi majeur. La connaissance des processus de transcription et de traduction de gènes n’explique pas totalement l’évolution de leur expression. En effet, des processus de régulation sont à l’œuvre afin que l’expression génétique se maintienne à un niveau cohérent, et évolue de façon à assurer le bon fonctionnement de l’organisme (Jacob et al., 1961). Par exemple, certaines protéines appelées facteurs de transcription (TF) ont la possibilité de reconnaître certaines séquences ADN et peuvent avoir une influence positive (activation) ou négative (inhibition) sur la transcription des gènes correspondants. Cette vision dynamique de l’expression génétique a notamment été imagée par Conrad H. Waddington dans le cadre de la biologie développementale (Allen, 2015). Il est ainsi intéressant d’interpréter l’ensemble des gènes comme un réseau d’interactions. Bien que la compréhension des mécanismes de régulation constitue une question théorique en ellemême (Bich et al., 2016), le décryptage des interactions génétiques représente un enjeu pour la bonne compréhension des mécanismes biologiques. Nous nous concentrons donc dans ce travail sur la notion de réseau de régulation biologique, et nous tentons de l’utiliser pour expliquer différents phénomènes dynamiques observables.
Données expérimentales sur l’activité génétique
Plusieurs technologies expérimentales ont été développées pour collecter des données sur l’activité moléculaire au sein des cellules d’un organisme. Ces données permettent d’améliorer la compréhension des mécanismes génétiques à l’œuvre au sein des cellules. Elles représentent notamment un intérêt du point de vue de la modélisation de la régulation génétique. Par exemple, les données d’expression génétique témoignent de l’activité des molécules d’ARN messager à l’intérieur des cellules, et constituent un indicateur important sur l’activité d’un système (Delgado et al., 2019). Différentes technologies permettent d’obtenir de telles données. Par exemple, les puces à ADN (DNA-microarray) permettent d’obtenir l’expression de dizaines de milliers de gènes. Le séquençage ARN, consistant à lire chaque nucléotide sur les molécules d’ARN, est également très utilisé pour mesurer l’activité des gènes notamment grâce aux technologies de séquençage haut débit. Récemment, le séquençage ARN cellule par cellule (single-cell RNA sequencing, que nous dénommerons séquençage single-cell par la suite) a par ailleurs été rendu possible, donnant lieu à des données dotées d’une résolution sans précédent, permettant d’analyser l’expression de milliers de gènes dans plusieurs milliers de cellules . Enfin, il est également possible de mesurer les interactions entre protéines, par exemple avec la technique de double hybride (Two-hybrid screening), ainsi que les interactions entre protéines et gènes.
Dans le cadre de l’étude des mécanismes de régulation génétique, les données expérimentales présentant un aspect temporel sont particulièrement intéressantes, bien que difficiles à obtenir. Les données les plus simples à obtenir dans ce cas sont les données sur les états stables du système, c’est-à-dire les états où le système n’évolue pas. Pour ces dernières, il est par exemple possible de se baser sur des données de perturbation, où un gène est perturbé par rapport à un état de repos, et où le système est mesuré une fois stabilisé. Ce type de donnée est notamment proposé (de manière simulée) dans le challenge d’inférence de modèle DREAM 4 (Marbach et al., 2010). Les données de séries temporelles, consistant à effectuer des mesures consécutives d’un système à plusieurs instants donnés, semblent les plus intéressantes du point de vue de l’étude de la dynamique car elles apportent une meilleure résolution temporelle sur le système étudié. Cependant, obtenir ce type de données est particulièrement coûteux, et les séries temporelles disponibles possèdent généralement peu de points temporels. Par exemple, la série temporelle utilisée dans (Thorne, 2018) ne comporte que 7 points temporels, et le challenge DREAM 11 (The Respiratory Viral DREAM Challenge Consortium et al., 2018) met à disposition des séries temporelles comportant une dizaine de points non réguliers. Une alternative aux séries temporelles est par ailleurs apparue récemment avec les technologies single-cell. Les méthodes d’inférence de séries pseudo-temporelles permettent en effet d’approximer des séries temporelles avec plusieurs milliers de points.
|
Table des matières
Introduction
Contexte et motivations
Problématique
Contributions
Organisation du manuscrit
Collaborations
Notations
1 Modélisation qualitative en biologie des systèmes
1.1 Contexte biologique
1.1.1 Régulation de l’expression génétique
1.1.2 Données expérimentales sur l’activité génétique
1.1.3 Formalisation des connaissances et modélisation
1.2 Modélisation qualitative des réseaux biologiques
1.2.1 Formalismes de modélisation qualitative
1.2.2 Sémantique et graphe de transitions
1.3 Les enjeux de la modélisation qualitative
1.3.1 L’analyse des modèles qualitatifs
1.3.2 L’inférence des modèles qualitatifs
2 Méthode formelle pour l’analyse de modèles qualitatifs
2.1 Analyse formelle de la dynamique des réseaux
2.2 Le problème d’accessibilité dans les réseaux d’automates
2.2.1 Formalisation du problème d’accessibilité
2.2.2 Méthodes de résolution de l’accessibilité et limites
2.2.3 Analyse statique dans les réseaux d’automates
2.3 Méthode hybride pour résoudre l’accessibilité dans les réseaux d’automates
2.3.1 Encodage SAT pour l’accessibilité
2.3.2 Extension de l’analyse statique pour le BMC
2.3.3 Mise en pratique et implémentation
2.4 Discussions
3 Apprentissage logique des modèles qualitatifs
3.1 Méthodes d’inférence des modèles qualitatifs
3.1.1 Objectifs généraux
3.1.2 Méthodes pour l’inférence automatique
3.1.3 Inférence à partir de données expérimentales
3.2 Apprentissage logique pour la modélisation qualitative
3.2.1 Le framework LFIT
3.2.2 Inférence de règles logiques avec GULA et PRIDE
3.3 Extension de LFIT pour les données expérimentales
3.3.1 Limites des algorithmes existants
3.3.2 Extension par optimisation combinatoire
3.3.3 Exemple jouet
3.4 Application artificielle
3.4.1 Comparaison entre LOLH et PRIDE
3.4.2 Comparaison de différentes règles logiques
3.4.3 Optimisation biobjectif pour l’inférence
3.5 Discussions
4 Application en séquençage single-cell
Conclusion