Motivation et contexte de la modélisation de réseaux de régulation biologique
Construire et simuler un modèle dynamique de la régulation d’un processus biologique est une aide cruciale pour la recherche en biologie et en médecine. Les applications sont nombreuses. Elles vont de l’exploration d’un mécanisme où la construction d’un modèle est, en soi, un outil pour tester des hypothèses et acquérir de nouvelles connaissances, jusqu’à la médecine personnalisée qui nécessite de pouvoir simuler des modèles adaptés aux patients. Les modèles apportent une description mathématique d’un système biologique, avec les éléments qui le composent et leurs interactions, que ces modèles soient au niveau de la cellule, du tissu, de l’organe, du corps ou de la population. La construction des modèles s’appuie sur les connaissances accumulées, ainsi que sur des données expérimentales dont le nombre a considérablement augmenté ces deux dernières décennies grâce aux immenses progrès des technologies d’observations [Mardis, 2011]. Cependant, il est très difficile de décrire le fonctionnement d’un organisme multicellulaire à partir d’observations expérimentales. Les observations demeurent partielles malgré les progrès technologiques étant donné la très grande complexité des systèmes abordés en biologie. Il est impossible de savoir si l’ensemble des facteurs impliqués dans un mécanisme sont observés. De plus, il ne faut pas négliger la variabilité potentiellement importante entre individus et, pragmatiquement, les observations sont issues de techniques qui ne peuvent être complètement dénuées de biais. Par conséquent, y compris à l’échelle d’une unique cellule, c’est un challenge pour la biologie et la médecine de comprendre suffisamment finement un mécanisme pour créer un modèle mathématique de celui-ci puis, potentiellement, prédire la réaction de ce système face à différentes perturbations.
Ainsi, pour rendre accessible la description mathématique de processus biologiques et améliorer la précision et l’applicabilité de ces modèles, la recherche dépend des progrès non seulement des technologies d’observations, mais également des méthodes d’analyses des observations obtenues. L’objectif est de pouvoir exploiter les connaissances disponibles, bien qu’incomplètes, et pour cela il existe différentes approches de modélisation. Pour la compréhension des mécanismes de régulation des processus cellulaires, la biologie des systèmes porte un intérêt tout particulier aux interactions entre gènes, puisque les gènes sont les composants biologiques portant l’information à l’origine du fonctionnement de la cellule. Comprendre les interactions entre les gènes en créant des modèles du réseau de leurs interactions est donc un besoin majeur. Cette modélisation est utilisée en recherche fondamentale en biologie pour progresser dans la compréhension d’un processus, que celui-ci soit naturel ou provoqué expérimentalement et qu’il soit physiologique ou pathologique pour l’organisme étudié, mais elle aide également la recherche clinique pour la découverte de pistes thérapeutiques. Elle est reconnue comme l’une des solutions les plus prometteuses pour parvenir à une médecine personnalisée, étant donné sa capacité à prédire les effets des médicaments sans avoir à recourir à des expériences in vivo ou in vitro, avec l’avantage supplémentaire d’accroître l’efficacité tout en réduisant les coûts.
Des interactions géniques aux processus biologiques
Le génome et le transcriptome
Les évolutions technologiques de ces deux dernières décennies ont radicalement transformé l’accès aux données biologiques [van Dijk et al., 2014]. En particulier, le séquençage des macromolécules d’ADN (acide désoxyribonucléique) et d’ARN (acide ribonucléique), qui constituait une prouesse technologique il y a 20 ans, est désormais réalisé couramment et a de nombreuses applications en clinique comme en recherche fondamentale (évaluation de la prédisposition à une maladie [Hamdi et al., 2018], reconstruction d’un arbre phylogénétique [Navarro and Martínez-Murcia, 2018], étude d’un comportement cellulaire [Nestorowa et al., 2016], …) grâce au développement conjoint d’outils bioinformatiques permettant d’analyser ces données [Manzoni et al., 2016].
Le séquençage donne en effet accès à de précieuses informations. ADN et ARN sont complémentaires dans une cellule : la molécule d’ADN porte l’information génétique, appelé génome, et les ARN sont les produits directs de la lecture de l’ADN. Connaître l’enchaînement exact des nucléotides qui composent ces macromolécules biologiques permet ainsi d’identifier d’une part le génome (porté par l’ADN) d’une cellule ou d’une population cellulaire, mais également l’expression de ce génome appelé transcriptome (c’est-à-dire l’ensemble des ARN issus d’un génome). Obtenues dans différents contextes biologiques (conditions expérimentales, types cellulaires, individus, …), les données génomiques et transcriptomiques offrent à la recherche fondamentale la possibilité d’étudier les variations du génome (séquençage ADN) ou de l’expression du génome (séquençage ARN). La nature et les caractéristiques de ces données vont dépendre de la problématique biologique étudiée et de la technique employée pour réaliser les observations. Afin d’introduire les données utilisées pour la modélisation, je vais brièvement présenter les technologies d’observation du génome et de son expression.
Données génomiques
Séquençage d’ADN (DNA-seq) Le séquençage d’ADN consiste à déterminer l’ordre dans lequel s’enchaînent les quatre nucléotides possibles (A, T, C, G) composant un fragment d’ADN. C’est en quelque sorte une « lecture » de la molécule d’ADN qui est un très long mot écrit dans un alphabet de quatre « lettres ». Les premières méthodes de séquençage ont été développées à la fin des années 1970. La méthode Sanger, la plus utilisée, a notamment permis le séquençage du génome humain grâce à un projet scientifique international de plus dix ans qui a coûté près de trois milliards de dollars : le Human Genome Project [Consortium, 2004]. Des progrès technologiques remarquables ont depuis continué de révolutionner la génomique et la biologie de manière générale, tout particulièrement l’avènement du séquençage dit à haut-débit, également appelé séquençage de nouvelle génération (NGS, pour Next Generation Sequencing). Cette technologie a considérablement facilité l’accès au séquençage, en diminuant son coût tout en augmentant sa rapidité. Il est ainsi désormais possible de séquencer le génome humain en quelques jours pour moins de 1000 dollars. Grâce à cette évolution, les données NGS sont aujourd’hui produites en masse pour des problématiques biologiques diverses afin, par exemple, d’analyser les variations génétiques, rechercher des marqueurs d’une maladie, reconstruire des histoires évolutives (arbres phylogénétiques), etc.
Puces à ADN (DNA microarray) Cette technique permet de rechercher la présence de séquences particulières dans le génome. Elle provient d’une méthodologie présentée en 1975 [Grunstein and Hogness, 1975] progressivement améliorée jusqu’à ce qu’elle apparaisse pour la première fois sous son nom actuel dans une publication de 1995 [Schena et al., 1995]. Elle fonctionne sur le principe de l’hybridation entre deux brins d’ADN, c’est-à-dire la propriété d’association qu’ont deux brins d’ADN dits complémentaires afin de former une double hélice. Des simples brins d’ADN, appelés sondes, sont accrochés à un support qui est mis en contact avec les portions du génome à analyser, appelées cibles. L’hybridation de cibles au support informent de la présence de séquences correspondant aux sondes au sein du génome étudié. Il est ainsi possible de tester la présence de telles ou telles variations et de comparer ces résultats d’hybridation entre plusieurs génomes.
Séquençage de chromatine immuno-précipitée (ChIP-seq) Cette technique, mentionnée dans des publications à partir de 2007 [Robertson et al., 2007], permet de connaître les séquences nucléotidiques où se lie une protéine d’intérêt. En identifiant ainsi les sites de liaison d’une protéine dans le génome, on détermine les gènes ciblés par cette protéine et ainsi des liens d’influence entre gènes, de celui qui code une protéine à celui qui est ciblé par cette protéine. La technique ChIP-seq consiste à isoler les séquences d’ADN qui se lient à la protéine d’intérêt puis à identifier ces séquences, soit via une puce à ADN soit via un séquençage.
Données transcriptomiques
La connaissance assez précise du génome obtenue grâce au séquençage d’ADN a ouvert la voie à l’analyse de l’expression des gènes. Ce sont tout d’abord les micropuces qui ont permis cette révolution, technique désormais complétée par le séquençage du transcriptome plus sensible et non limité à la détection d’un ensemble fini d’ARN pour lesquels une sonde a été prévue.
Puces à ARN (RNA microarray) Puces tout à fait similaires aux puces à ADN, elles reposent sur l’hybridation entre brins d’ADN complémentaires. La différence est qu’ici le support est mis en contact avec les ADN complémentaires des ARN contenus dans l’échantillon à analyser. La puce détecte ainsi la présence de séquences particulières dans le transcriptome, permettant d’obtenir un niveau relatif d’expression de gènes entre différentes conditions expérimentales. Le terme puces à ARN désigne donc les puces utilisées pour comparer les niveaux d’ARN présents dans un milieu biologique, tandis que les puces à ADN identifient la séquence ADN ou les niveaux d’ADN. Les puces à ARN sont largement utilisées pour comparer les niveaux d’expression de gènes entre plusieurs conditions biologiques car il est possible, à partir de ce type de données, de déduire des mécanismes de régulation entre gènes. Pour davantage d’informations, le papier [Sealfon and Chu, 2011] donne un aperçu de la méthode et des applications des puces à ARN et ADN dans divers domaines de la recherche biologique. Séquençage d’ARN (RNA-seq) L’ARN étant complémentaire de l’ADN, on peut comparer sa séquence avec celle de la molécule d’ADN pour connaître le gène dont l’ARN est le produit. Selon la quantité d’ARN séquencé correspondant à un gène, on peut déduire le niveau d’expression de ce gène à un instant t et voir quelles sont les parties du génome les plus actives en fonction de différentes conditions biologiques et expérimentales. Comme la puce à ARN, le RNA-seq est de ce fait majoritairement utilisé pour comparer les niveaux d’expression des gènes entre des cellules à différents points de temps d’une expérience ou entre cellules soumises à des conditions expérimentales différentes. Mais contrairement à la puce, la recherche des transcrits ne se limite pas aux séquences ARN déterminées à l’avance et fixées sur la puce ; il est ainsi possible d’identifier des transcrits sans les connaître à l’avance.
Le progrès des techniques de séquençage à haut-débit a permis l’apparition des méthodes de séquençage au niveau de la cellule [Shapiro et al., 2013], séquençage communément appelé single-cell, avec le RNA-seq comme application majeure (scRNA-seq). Il existe de ce fait deux échelles de séquençage du transcriptome. Les méthodes classiques de RNA-seq permettent d’obtenir l’expression moyenne des gènes au sein d’une population cellulaire en séquençant les ARN de cette population (séquençage bulk), résultant en une moyenne des profils transcriptomiques de toutes les cellules d’une population. À l’inverse, le séquençage transcriptomique single-cell permet de séquencer cellule par cellule, ce qui a l’avantage de montrer la diversité des profils transcriptomiques des cellules d’une population. J’apporte ci-dessous des précisions sur les applications et analyses usuelles de ces deux types de séquençage.
Le séquençage bulk est utilisé pour comparer les profils d’expression de plusieurs échantillons, souvent collectés selon deux modalités d’échantillonnage en fonction de la problématique. Une première manière d’échantillonner consiste à prélever au sein de plusieurs conditions biologiques ou expérimentales afin d’analyser les différences d’expression entre ces conditions. On peut ainsi étudier, par exemple, l’impact de perturbations telles que des mutations ou l’administration de médicaments sur l’expression des gènes. Lorsque l’objectif est par contre d’analyser l’évolution de l’expression des gènes au cours d’un phénomène biologique ou d’une expérimentation, les échantillons à séquencer sont collectés à différents points de temps. Les données d’expression forment alors une série temporelle d’observations. L’avancée technologique du séquençage ARN single-cell (scRNA-seq) permet d’observer l’expression des gènes à l’échelle de la cellule et donc l’hétérogénéité du transcriptome au sein d’une population cellulaire. Des méthodes statistiques peuvent s’appliquer sur ces données pour, par exemple, mettre en évidence différents types de cellules au sein de l’échantillon. Lorsqu’on s’intéresse à une population cellulaire en différenciation, des méthodes permettent également de reconstruire une trajectoire évolutive entre les cellules, appelée pseudo-temps. Un biais du séquençage à l’échelle de la cellule est sa moindre sensibilité par rapport au séquençage à l’échelle de la population, si bien que des gènes faiblement exprimés peuvent être considérés comme non exprimés.
|
Table des matières
Introduction
1 Motivation et contexte de la modélisation de réseaux de régulation biologique
1.1 Des interactions géniques aux processus biologiques
1.1.1 Le génome et le transcriptome
1.1.2 La différenciation cellulaire
1.2 Modèles de réseaux de régulation biologique
1.2.1 Modèles statiques
1.2.2 Modèles dynamiques
1.3 Contributions et plan du manuscrit
2 Formalisme de la modélisation : le réseau booléen
2.1 La structure du réseau
2.1.1 Formule booléenne
2.1.2 Réseau booléen
2.1.3 Configuration d’un réseau booléen
2.1.4 Graphe d’interactions d’un réseau booléen
2.1.5 Réseau booléen localement monotone
2.1.6 Mutation au sein d’un réseau booléen
2.2 Sémantiques
2.2.1 Sémantique synchrone
2.2.2 Sémantiques asynchrones
2.2.3 Sémantique Most Permissive
2.3 Propriétés dynamiques
2.3.1 Atteignabilité
2.3.2 Trajectoire
2.3.3 Attracteur
2.3.4 Configuration confinée
2.3.5 Complexité
2.4 Exemple récapitulatif
Résumé du chapitre
3 Cadre de modélisation de la différenciation cellulaire
3.1 Compatibilité entre réseau booléen et comportement biologique
3.1.1 Évolution cellulaire : liste d’observations
3.1.2 Divergence d’évolution : bifurcation
3.1.3 Stabilités cellulaires : marqueurs de stabilité partielle et totale
3.1.4 Différenciation cellulaire
3.1.5 Comportements complexes de systèmes biologiques
3.2 Méthodes automatiques d’inférence de réseaux booléens
Résumé du chapitre
4 Encodage en programmation par ensemble-réponse
4.1 Principe de la méthode
4.1.1 Formalisation du problème d’inférence de modèle
4.2 Answer-Set Programming
4.2.1 Atomes
4.2.2 Règles et dérivation
4.2.3 Notations
4.2.4 Modèle stable
4.2.5 Règles disjonctives
4.2.6 Résolution
4.3 Encodage de l’inférence de modèles en ASP
4.3.1 Domaine des réseaux booléens
4.3.2 Évaluation des fonctions booléennes
4.3.3 Propriétés existentielles
4.3.4 Propriétés universelles
Résumé du chapitre
5 BoNesis : présentation et applications
5.1 BoNesis
5.1.1 Données biologiques considérées
5.1.2 Fonctionnalités de BoNesis
5.1.3 Comportements biologiques modélisables
5.2 Modélisation de la régulation du destin cellulaire dans la progression du cancer
5.2.1 Modèle de base
5.2.2 Analyse des ensembles de modèles
5.3 Modélisation de la régulation de l’hématopoïèse
5.3.1 Traitement des données single-cell
5.3.2 Obtention d’un domaine de connaissances en lien avec les observations
5.3.3 Énumération et analyses des modèles
Résumé du chapitre
Conclusion