Simplifications Exactes et Structurelles de Réseaux de Réactions Biologiques

Contexte

Biologie des systèmes

La biologie des systèmes (Kitano, 2002) est un domaine inter-disciplinaire, avec pour objectif de comprendre et d’analyser des systèmes biologiques à l’aide de modèles. Cette approche a émergée suite à l’explosion des données expérimentales en biologie, ainsi que l’amélioration de la qualité de ces données, conséquence de l’évolution des technologies et de la recherche, et notamment des méthodes de séquençage de l’ADN. La compréhension du fonctionnement d’un système biologique complexe (réseau métabolique, cycle circadien, etc.) ne peut pas se faire en analysant uniquement ses composants (molécules, ADN, etc.) de façon individuelle. En effet, sa dynamique dépend des interactions entre les différents composants, et la biologie des systèmes adopte donc une vue globale en considérant le comportement du système biologique dans son ensemble. L’objectif de la biologie des systèmes est alors de comprendre le comportement des systèmes, à travers des modèles. Les modèles sont construits à partir de données expérimentales, avec des méthodes mathématiques et informatiques. Plusieurs étapes de validation expérimentale et de reconstruction du modèle sont en général nécessaire pour obtenir un modèle correct, c’est-à-dire dont les résultats ne sont pas contredits par les expériences (Popper, 2005). Le type de modèle et son niveau de détails dépendent alors de la quantité et la qualité des données expérimentales. Parfois, les seules données disponibles sont des corrélations et des dépendances entre les différents composants du système. Il n’est alors possible que de créer des réseaux de relations, comme par exemple dans (Butte & Kohane, 2000), ou des réseaux d’influence entre espèces, comme dans (A. Rao, Hero III, & Engel, 2007). Lorsque plus de données sont disponibles, il est possible de construire des réseaux de réactions, représentant des transformations entre espèces. C’est par exemple le cas du réseau métabolique d’algues proposé dans (Prigent et al., 2014), ou de la bactérie Bacillus Subtilis proposé dans (Coutte et al., 2015). Ces deux modèles ne possèdent pas d’informations sur les cinétiques des réactions, mais il est toujours possible de faire des analyses qualitatives, ou dans un état d’équilibre. Lorsque des données sur la cinétique sont disponibles, on peut assigner à chaque réaction une expression cinétique représentant sa vitesse, comme par exemple dans les modèles du cycle cellulaire (Qu, MacLellan, & Weiss, 2003), ou de l’horloge circadienne (Leloup & Goldbeter, 2003). Néanmoins, les valeurs des paramètres cinétiques ne sont en général connues que pour des petits modèles précis, comme par exemple pour le réseau Tet-On (Huang, Moya, Jayaraman, & Hahn, 2010) ou le réseau MAPK (Markevich, Hoek, & Kholodenko, 2004), tandis que les gros modèles restent incomplets. Lorsque les modèles sont suffisamment complets, ils peuvent être simulés, c’est-à-dire qu’il est possible de reproduire leurs évolutions dans le temps sur ordinateur. Le programme de simulation peut être déduit automatiquement du modèle, par exemple avec l’algorithme de Gillespie (1977) ou par intégration numérique d’équations différentielles ordinaires. Cela permet alors de prédire de nouveaux comportements, par exemple en réponse à des modifications de l’environnement biologique. De nouvelles expériences peuvent alors permettre de valider (Heiner, Koch, & Will, 2004) ou au contraire réfuter (Anderson & Papachristodoulou, 2009) le modèle. En général, il n’est pas possible d’obtenir un modèle imitant à 100% les données obtenues expérimentalement, celles-ci étant souvent très bruitées. On peut néanmoins valider un modèle s’il est suffisamment proche de la réalité, et s’il permet bien de simuler les propriétés importantes du système. Mais même un modèle valide ne représentera souvent qu’une partie des composantes ou interactions du système, et sera donc incomplet. Lorsque le modèle est suffisamment petit et le nombre de paramètres est faible, leurs valeurs peuvent être estimées (Ashyraliyev, Fomekong-Nanfack, Kaandorp, & Blom, 2009) pour que le comportement du modèle concorde avec les données expérimentales. L’analyse formelle du modèle permet alors de mieux comprendre le fonctionnement du système biologique, et de découvrir des propriétés non triviales du système, comme par exemple la présence d’oscillations. Un modèle peut servir à prédire in silico des comportements possibles du système, non observés expérimentalement. On peut par exemple chercher à savoir quel serait l’effet d’une modification du système ou de son environnement, par exemple en injectant (de façon ponctuelle ou continue) une nouvelle protéine, ou en désactivant un gène (Burgard, Pharkya, & Maranas, 2003; Coutte et al., 2015). Un modèle peut aussi permettre à essayer de contrôler un système, en l’observant et en pouvant modifier en temps réel son environnement ( par exemple à l’aide d’un dispositif micro-fluidique), afin de le faire atteindre un comportement cible (Uhlendorf et al., 2012). Comme pour les modèles informatiques, on peut utiliser des méthodes de vérification (Queille & Sifakis, 1982), par exemple pour vérifier qu’un système n’atteint jamais un comportement critique (comme la mort de la cellule), pour savoir si la présence de telle protéine est nécessaire pour l’activation de tel gène, ou pour tester des propriétés de logique temporelle (voir par exemple BioCham (Fages, Soliman, & Chabrier-Rivier, 2004). On peut également étudier ses propriétés dynamiques, pour savoir s’il peut se stabiliser au cours du temps, s’il diverge en produisant une infinité de molécules, ou s’il oscille entre différents états. En biologie synthétique, des modèles sont utilisés pour construire artificiellement de nouveaux systèmes biologiques (Andrianantoandro, Basu, Karig, & Weiss, 2006; Purnick & Weiss, 2009).

Réseaux de réactions

Dans cette thèse, nous modélisons les systèmes biologiques à l’aide de réseaux de réactions chimiques, pour un ensemble d’espèces chimiques (abstraites) donné. Une réaction chimique (sans cinétique) décrit une transformation d’un ensemble d’espèces chimiques en un autre ensemble. Par exemple, la réaction Gi → Ga transforme un gène inactif Gi en un gène actif Ga, tandis que la réaction Ga→Ga + P décrit la production d’une protéine P lorsque le gène est actif. Les composants chimiques sont ici abstraits : on ne considère pas par exemple leurs structures atomiques (au contraire par exemple des réactions de type 2H +O→H2O). Ainsi, une espèce A peut représenter un complexe de protéines, un gène, etc. Les réactions peuvent représenter l’activation d’un gène, la liaison de deux molécules, la dégradation d’une protéine, le déplacement d’une molécule entre deux compartiments, etc .

Une réaction chimique peut alors être représentée graphiquement. Par exemple, les réactions r1 = A → B et r2 = A+C → D sont représentées dans la Fig. 1.1. La première réaction représente la transformation d’une molécule d’une espèce A en une autre espèce B, tandis que la deuxième réaction décrit la liaison d’une molécule de A avec une molécule de C, formant un complexe noté D.

Une réaction chimique avec cinétique est une paire composée d’une réaction sans cinétique et d’une expression cinétique. Une expression est un terme composé de variables et de paramètres, combinés grâce à des opérateurs mathématiques, et représente la vitesse de la réaction. L’expression peut, selon la sémantique, être interprétée de façon déterministe ou stochastique Par exemple, dans la Fig. 1.2, la vitesse k1 xA de la réaction r1 = A → B ; k1 xA est égale au produit du paramètre k1 et de la quantité xA de l’espèce A. Selon la sémantique, cette quantité peut être discrète ou continue.

Un réseau de réactions est alors un ensemble de réactions chimiques, qui décrit les différentes interactions entre les espèces d’un système biologique. Par exemple, le réseau de réactions cinétiques du système Tet-On (Gossen & Bujard, 1992; Gossen et al., 1995; Huang et al., 2010) est représenté dans la Fig. 1.3. Les flèches grisées en pointillées représentent les modificateurs d’une réaction, c’est-à-dire des espèces qui influent sur la vitesse de la réaction, mais dont la quantité n’est pas modifiée par cette réaction. Par exemple, dans la réaction r1 = ∅ → Doxi ; k1 xDox, qui produit une molécule de Doxi , l’espèce Dox est un modificateur. On étudiera ce réseau en détails plus loin. Brièvement, il modélise, à travers une chaine de réactions, la production d’une protéine fluorescente verte (GFPa) en présence de doxycycline (Dox) à l’extérieur d’une cellule. Les réseaux de réactions ont alors trois sémantiques classiques, que l’on décrira plus en détails plus loin : la sémantique non déterministe, la sémantique déterministe et la sémantique stochastique.

Un réseau de réactions, sans cinétique, est en fait équivalent à un réseau de Pétri non marqué (Petri, 1966; Murata, 1989; Silva, 2013). Chaque place correspond alors à une espèce chimique et chaque transition à une réaction. Un réseau de Pétri marqué est équivalent à un réseau de réactions doté d’une solution initiale. Les réseaux de Pétri sont très utilisés et étudiés en biologie des systèmes (Reddy, Mavrovouniotis, & Liebman, 1993; Chaouiya, 2007; Heiner, Gilbert, & Donaldson, 2008). En ajoutant des cinétiques, les réseaux de Pétri continus (Alla & David, 1998) et stochastiques (Bause & Kritzinger, 2002) permettent également de représenter les sémantiques déterministe et stochastique des réseaux de réactions. Plusieurs outils permettent alors de modéliser les systèmes de réactions sous forme de réseaux, et de les analyser. BioCham (Fages et al., 2004) propose par exemple une syntaxe pour les réseaux de réactions avec cinétiques. Il propose également un ensemble d’outils, permettant de simuler les réseaux, ou bien de les analyser, par exemple en utilisant des méthodes de vérification pour vérifier des propriétés de logiques temporelles. L’outil COPASI (Hoops et al., 2006) permet également de modéliser des réseaux de réactions, et de les simuler, avec une sémantique déterministe, stochastique ou hybride.

Sémantiques des réseaux

Plusieurs sémantiques sont alors possibles pour les réseaux de réactions, représentant différents types de dynamiques possibles, selon qu’on considère le temps de façon continue, ou bien juste comme une succession de transformation, et selon si les quantités de matières sont vues de façon discrète ou continue (voir par exemple Érdi & Tóth, 1989). Pour des réseaux sans cinétique, une possibilité est d’adopter une sémantique non déterministe pour les réseaux de réactions, similairement à la sémantique classique des réseaux de Pétri (1966). La sémantique opérationnelle est une relation entre des multi-ensembles de molécules. Elle permet de transformer des molécules en d’autres molécules en appliquant l’une des réactions du réseau. Plusieurs réactions peuvent être applicables en même temps. Cette sémantique considère alors tous les choix possibles, de façon non déterministe. Il n’y a pas vraiment de notion de temps ici, mais plutôt une succession d’états. Cette sémantique permet de construire le graphe d’accessibilité du réseau, représentant l’ensemble de tous les comportements possibles, et non pas juste le comportement moyen comme dans la sémantique déterministe.

La sémantique déterministe d’un réseau de réactions avec cinétiques décrit l’évolution au cours du temps du nombre moyen de molécules dans un volume fixé. La quantité de matières est représentée ici de façon continue, par une concentration, un nombre réel correspondant à une quantité de molécules par unité de volume. Cette approche n’est valable que sous certaines conditions, en particulier la quantité de molécules doit être suffisamment grande, répartie de façon homogène dans le volume, etc. Dans ce cas, le comportement déterministe peut être vue comme la moyenne des comportements stochastiques. Pour une concentration initiale donnée, le comportement du réseau est alors complètement déterministe.

Lorsque les données cinétiques ne sont pas connues (ou que partiellement), ce qui est souvent le cas pour les grands systèmes, il est alors possible de n’étudier que le comportement stable du système, c’est-à-dire lorsque les concentrations des différentes espèces ont atteint un équilibre et restent constantes au cours du temps. De nombreuses méthodes d’analyse supposent que le système est dans un état d’équilibre, ou proche de cet état. C’est par exemple le cas de techniques d’analyse de flux (Orth, Thiele, & Palsson, 2010) ou de simplification de systèmes d’équations (Bodenstein, 1913).

La sémantique stochastique décrit quand à elle la dynamique probabiliste des réseaux, en temps continu. Pour tout temps t ∈ R≥0, elle donne une distribution de probabilité entre différents états (discrets). La stochasticité est un élément central de nombreux systèmes biologiques, notamment lorsque le nombre de molécules de certaines espèces est faible (par exemple pour les gènes). Elle nécessite de connaître les cinétiques des réactions

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte
1.1.1 Biologie des systèmes
1.1.2 Réseaux de réactions
1.1.3 Sémantiques des réseaux
1.1.4 Simplification de réseaux
1.1.5 Autres approches de modélisation
1.2 Problématique générale
1.3 Contributions
1.3.1 Simplification en non déterministe
1.3.2 Simplification en déterministe
1.3.3 Confluence
1.4 Discussion
1.5 Plan de la thèse
2 Préliminaires
2.1 Sémantique non déterministe des réseaux
2.1.1 Réseaux de réactions
2.1.2 Sémantique opérationnelle
2.1.3 Exemples biologiques
2.1.4 Observation
2.2 Sémantique déterministe
2.2.1 Réseaux de réactions cinétiques
2.2.2 Systèmes d’équations
2.2.3 Sémantique déterministe des réseaux cinétiques
2.2.4 Exemples biologiques
2.3 Simplification
2.3.1 Relation de simplification structurelle
2.3.2 Simplification correcte
2.3.3 Confluence
3 Congruence des attracteurs et simplification non déterministe
3.1 Congruence des attracteurs
3.1.1 Attracteurs
3.1.2 Convergence et divergence
3.1.3 Congruence des attracteurs
3.1.4 Liens avec le graphe des solutions accessibles
3.2 Ensemble confluent de règles de simplification
3.2.1 Règles de simplification
3.2.2 Propriétés
3.2.3 Application au réseau Tet-On
3.3 Règles de simplification plus générales
3.3.1 Règles d’élimination des espèces intermédiaires
3.3.2 Règles de décomposition
3.3.3 Règles de symétrie
3.3.4 Autres règles
3.3.5 Propriétés
3.4 Comparaison de modèles : l’exemple de MAPK
3.5 Discussion
3.5.1 Changement de fonction d’observation
3.5.2 Bisimulation
3.5.3 Épimorphisme de sous-graphe
3.5.4 Réseaux de Pétri
3.5.5 Réseaux booléens
3.6 Conclusion
4 Simplification préservant la sémantique déterministe
4.1 Similarité
4.2 Règles de simplification
4.2.1 Simplification d’une espèce intermédiaire
4.2.2 Combinaison
4.2.3 Symétrie
4.2.4 Autres règles
4.2.5 Propriétés
4.3 Application au réseau cinétique Tet-On
4.4 Simplification de systèmes d’équations
4.5 Discussion
4.5.1 Conditions d’équilibre
4.5.2 Importance de la structure
4.5.3 Modes élémentaires
4.5.4 Conditions d’application
4.6 Conclusion
5 Conclusion