Télécharger le fichier pdf d’un mémoire de fin d’études
Le cycle de modélisation
Avec la biologie des systèmes, est apparue la notion de cycle de modélisation (fi-gure 2). Dans une première étape, celui-ci consiste à construire la structure du modèle, en choisissant les composants biologiques et le formalisme mathématique qui va ca-ractériser les relations entre ces composants. Ensuite, il est possible de calibrer le mo-dèle en identifiant par exemple les valeurs de paramètres (composants et interactions) et les conditions initiales pour effectuer des simulations numériques qui peuvent à la fois reproduire des observations et conduire à des prédictions.
Collecte et standardisation des composants du modèle
Décrire de façon précise un processus biologique peut permettre de créer un mo-dèle avec précision dans un langage contrôlé. Il peut servir de dispositif d’organisation de la pensée. Très souvent l’élaboration du modèle nécessite une réflexion approfon-die qui déjà apporte une meilleure compréhension du système biologique. En effet, ce travail nécessite d’identifier les composants essentiels du système et l’ensemble des interactions entre ces composants. Ces données proviennent d’articles, des bases de données ou d’expériences en laboratoire réalisées directement pour faire ce modèle. Si ces données proviennent de différentes sources, le modèle permet de les formaliser de la même manière et donc de les rendre plus cohérentes les unes par rapport aux autres. Une bonne modélisation suscite d’autres questions sur le comportement du système et, à long terme, l’applicabilité à d’autres systèmes de tout principe nouvellement découvert [Chowdhury and Sarkar, 2015].
Il existe une grande quantité de connaissances biologiques disponibles dans les pu-blications et qui sont maintenant organisées dans des bases de données. Posséder une carte décrivant de manière détaillée les différents types de modifications chimiques et les cascades de réactions est nécessaire afin de découvrir les éléments essentiels d’un système biologique. L’importance de ces bases de données ne se limite pas à l’accumulation des données expérimentales, mais est également précieuse pour les développeurs de modèles afin d’interpréter les propriétés émergentes de ces connais-sances organisées en réseau. Depuis 1995, le nombre de bases de données de systèmes biologiques a fortement augmenté [Soh et al., 2010]. D’après [Galperin et al., 2017] il en existe 166 à l’heure d’écriture de ce manuscrit 1. Une description détaillée de 24 bases de données de signalisation est présentée dans la section 1.1.5.
Selon les systèmes d’architecture et de stockage de données utilisés par les dif-férentes bases de données, les procédures d’accès, de visualisation et d’analyse des données diffèrent considérablement. En conséquence, il faut beaucoup de temps aux utilisateurs pour extraire les données de ces bases. Pour surmonter ce problème, presque toutes les bases de données académiques (par exemple REACTOME [Croft et al., 2014, Fabregat et al., 2016], PANTHER [Mi and Thomas, 2009] ou NCI-PID [Carl F. Schaefer et al., 2009]) ont développé des strutuctures de données standards interro-geables automatiquement et facilement accessibles, tels que le Systems Biology Markup Language (SBML) [Chaouiya et al., 2013], le Biological Pathway Exchange (BioPAX) [De-mir et al., 2010] ou le System Biology Graphical Notations (SBGN) [Novère et al., 2009].
Simulations et concordance avec les données expérimentales
Une fois le modèle décrit dans un formalisme choisi, il est possible d’analyser sa dynamique c’est-à-dire d’analyser le comportement du système en fonction du temps. L’état d’un modèle se définit comme l’ensemble des valeurs de ses variables à un instant t. Étudier le comportement du système nécessite de calculer l’évolution des valeurs des variables de manière continue ou discrète dans le temps. L’évolution temporelle des variables du modèle (par exemple, les concentrations de protéines) est affectée par les valeurs d’autres variables et par des paramètres tels que les constantes de dissociation, les constantes de taux cinétique et les ordres de réaction.
Une simulation dépend des conditions initiales des variables du modèle. S’il existe des données expérimentales sur l’évolution du système, alors il est admis qu’un mo-dèle correctement réalisé doit avoir une dynamique concordante avec les données expérimentales.
De telles observations sont utiles d’une part pour étudier l’ensemble des valeurs de paramètres compatibles avec les observations et d’autre part pour étudier les familles de modèles.
Prédictions
Les études de simulations du modèle permettent de mettre en évidence certaines lacunes et proposent des hypothèses sur le comportement non décrit initialement. Si le modèle est en accord avec les observations expérimentales, une stratégie est d’effec-tuer des modifications (mutations dans le cas de gènes) des valeurs des variables ou des constantes afin de perturber le système et de prédire de nouveaux comportements. Ce sont ces nouvelles données qui permettront d’enrichir le modèle en ajoutant des connaissances. La boucle est bouclée et de nouvelles simulations peuvent être relan-cées.
Les graphes en biologie des systèmes
La représentation des données sous forme de réseaux est au cœur de la biologie des systèmes, et derrière chaque modèle mathématique de processus biologiques se cache un réseau.
Un graphe est défini de façon générale comme un ensemble de nœuds V (pour ver-tices en anglais) et un ensemble d’arêtes E (pour edges), soit le graphe G = (V, E). Un nœud est une entité élémentaire représentant un objet dans le modèle, la structure de cet objet n’est pas prise en compte dans le réseau. Par exemple, si un nœud représente une molécule alors sa structure chimique ne sera pas prise en compte. Une arête est une relation entre deux nœuds, par exemple la liaison possible entre deux molécules. Il est possible que les arêtes soient « orientées » dans ce cas la relation représentée par l’arête a un sens de lecture, par exemple la protéine a active le gène g. Enfin, les nœuds et les arêtes peuvent posséder n’importe quel attribut (nom, type, propriétés physiques, etc.) et ce sont ces attributs qui vont définir la représentation du modèle.
Ces représentations sont plus que de simples illustrations, elles imposent une sé-mantique spécifique au processus biologique que l’on veut modéliser. Les représen-tations proposent une abstraction plus ou moins importante et supportent différents types de raisonnement. Il est donc important de choisir la représentation appropriée en fonction de la question posée et des données disponibles. Ce choix se répercute dans la sélection des méthodes de modélisation et de simulation, ainsi que le traite-ment des données utilisées pour la validation des modèles.
Il existe de nombreuses représentations de réseau, et [Le Novère, 2015] a récem-ment proposé une classification en quatre familles (figure 3) :
— Réseaux d’interaction
Les réseaux d’interaction (figure 3a) sont utilisés pour représenter des interac-tions physiques ou fonctionnelles entre des protéines ou des gènes. Ces réseaux sont souvent non dirigés, si une protéine p1 interagit avec p2 alors p2 interagit aussi avec p1. De plus ils ne sont pas séquentiels, c’est-àdire que un chemin entre plusieurs arêtes ne permet pas de décrire un méchanisme biologique, s’il existe une interaction entre p1 et p2 et une interaction p2 et p3 alors il n’y a pas for-cément une interaction entre p1 et p3. Les réseaux d’interactions génétiques et protéiques ont été construits pour obtenir une vue globale de la régulation du génome ou pour comprendre des processus de régulation spécifiques.
— Flux d’activité
Les flux d’activité (figure 3b) sont des diagrammes d’influence permettant de représenter les effets d’inhibition ou d’activation d’un élément (une molécule par exemple) sur un autre. Les effets chimiques (dans le cas des molécules) ne sont pas représentés, nous savons seulement que l’activité de la molécule m1 stimule l’activité de la molécule m2. Les flux d’activité sont utilisés lorsque le détail d’une réaction chimique n’est pas connu ou n’est pas considéré comme essentiel pour comprendre le processus modélisé. Les réseaux sont dirigés et séquentiels, mais les mécanismes chimiques ne sont pas décrits.
— Description des processus
Les descriptions de processus (figure 3c) sont des graphes bipartis, c’est-à-dire avec deux types de nœuds : les variables du modèle (quantités des molécules par exemple) et les réactions qui diminuent ou augmentent (consomment ou produisent) les valeurs de ces variables. Ces réseaux sont dirigés et séquentiels, et grâce au niveau de granularité qu’ils proposent, ils permettent de décrire les mécanismes impliqués dans les réactions. Malheureusement, cette granularité a un coût, les processus ne sont pas indépendants et entraînent une explosion de la combinatoire. Plus les processus sont décrits finement, plus leur combinatoire augmente, ce qui constitue un frein à l’analyse de grands réseaux très connectés.
— Relations d’entités
Les réseaux de relations d’entités (figure 3d) représentent les entités, les états de ces entités (par exemple la méthylation) et l’influence des entités sur ces états. Ce sont des réseaux dirigés, expliquant les mécanismes impliqués mais non séquentiels.
Certains types de réseaux seront plus adaptés à certains systèmes biologiques. En effet les systèmes de régulation de gènes ne comportent que des régulations trans-criptionnelles, la description des mécanismes internes n’est donc pas essentielle. On aura donc tendance à se tourner vers une représentation en réseaux d’interactions. Quant aux réseaux métaboliques, les modélisateurs ont plus une vision de produc-tion ou consommation des éléments. Ils s’intéressent à l’évolution de concentrations à l’échelle enzymatique. La mécanique des réactions et leur séquentialité constituent une information importante pour ce type de réseaux. Enfin pour les systèmes de si-gnalisation, la notion de propagation du signal comme une succession d’évènements biologiques est très importante. Même si les réactions biochimiques ont bien lieu dans un système de signalisation, la notion importante est le flux d’informations.
Le type de réseaux peut aussi impacter le formalisme choisi. Par exemple, les réseaux de flux d’activités décrivent une information qualitative et sont donc utilisés en général dans les modèles logiques. Alors que les réseaux de relations d’entités sont un ensemble de relations indépendantes et sont donc faciles à transcrire dans un formalisme basé sur des règles. Dans la section suivante, je vais justement décrire les différents formalismes de modélisation de systèmes biologiques.
Différents formalismes de modélisation
Comme expliqué précédemment, la visualisation et l’analyse de modèles de sys-tèmes biologiques nécessitent l’utilisation de formalismes permettant de décrire le système de façon précise et non ambiguë. Toutes les méthodes de modélisation se caractérisent par la représentation du temps et le type de variables utilisées (figure 4).
Le choix d’un formalisme de modélisation est directement lié à la nature des don-nées biologiques et à la quantité de données disponibles. En effet si des expériences quantitatives sur la variation du niveau de concentration des molécules ou du niveau d’expression des gènes sont accessibles alors on pourra utiliser un formalisme très
précis et plus fidèle à la réalité. En opposition si nous n’avons connaissance que des mécanismes du système de façon qualitative alors un formalisme plus abstrait devra être utilisé. De plus, la taille et la complexité d’un système auront une influence sur le choix du formalisme. En effet pour des raisons de performance, il pourra être compli-qué d’analyser la dynamique de modèles de très grandes tailles basés sur des données numériques.
Modèles continus
Équations différentielles comme outil de modélisation
Pour une représentation très fine du processus, le modélisateur va chercher à re-présenter les variables et le temps de manière continue. Ainsi plusieurs types de mo-dèles utilisent des données quantitatives et font appel à un formalisme mathématique basé sur les équations différentielles (Ordinary Differential Equations – ODE), afin de décrire la variation de la quantité des éléments dans le système modélisé en fonction du temps et des autres éléments [Tyson et al., 2003]. Ils ont été appliqués à toutes sortes de voies biologiques comme pour le métabolisme central du carbone chez Es-cherichia Coli [Chassagnole et al., 2002] ou les cascades de signalisation des protéines kinases [Markevich et al., 2004]. La construction de modèles ODE nécessite de nom-breuses données expérimentales pour identifier les lois de vitesse appropriées et pour estimer les valeurs des paramètres cinétiques. Les modèles à équation différentielle s’appliquent donc essentiellement aux petits réseaux [Bree B. Aldridge et al., 2006]. Les approches différentielles sont déterministes et ne permettent pas de traiter la va-riabilité des individus, mais seulement le comportement moyen d’une population. C’est pourquoi les modélisateurs se sont intéressés à prendre en compte la variabilité des individus simulant plusieurs évolutions temporelles des variables afin d’analy-ser leur distribution ou leur probabilité en fonction de temps [Wilkinson, 2009]. Ces modèles basés sur des systèmes d’équations différentielles stochastiques (Stochastic Differential Equations – SDE) ont été utilisés avec succès, par exemple pour modéliser l’excitation des cellules à granules [Saarinen et al., 2008].
[Smallbone and Mendes, 2013] démontrent qu’il est tout de même possible d’uti-liser les équations différentielles sur des réseaux à plus de 700 éléments en utilisant la FBA (Flux Balance Analysis) pour estimer les valeurs des paramètres. La FBA est une recherche de la distribution du flux dans les métabolites à l’état stationnaire et dynamiquement faisable, dans le but d’activer une réaction.
Modèles discrets
Modèles booléens
Il est possible de réaliser une abstraction plus importante en considérant que le temps n’a pas de régularité mais correspond seulement à un changement d’état, c’est-à-dire que deux réactions peuvent avoir une vitesse différente dans la réalité mais ne seront pris en compte que leur occurrence dans le modèle. Il est aussi possible d’attribuer seulement deux valeurs aux variables (présent/absent, actif/inactif, etc.), la quantité d’une molécule n’est alors plus prise en compte. Ces deux abstractions sont en général réalisées s’il n’y a pas assez de données nécessaires ou si l’on cherche à simuler de très grands modèles. Les réseaux booléens ont été introduits par Kauffman en 1969 pour modéliser les réseaux de régulation des gènes [Kauffman, 1969], où à chaque pas de temps, l’état de chaque gène est déterminé par une règle logique en fonction de l’état de ses régulateurs. En effet, la valeur de chaque composant d’un modèle logique est définie par une fonction logique qui peut être en partie déduite du graphe. La valeur des composants de sortie d’une réaction dépendra de la valeur des composants d’entrée, des activateurs et des inhibiteurs. Par exemple la formation d’un complexe AB catalysé par une molécule C ou la molécule D et inhibé par la molécule E peut être décrite par la fonction logique suivante : XAB = xA ^ xB ^ (xC _ xD) ^ :xE où xY correspond à la valeur booléenne de Y au pas de temps t et XY correspond au pas de temps t + 1. Les symboles ^, _ et : correspondent respectivement aux fonctions logiques ET, OU inclusif et NÉGATION.
De cette manière, un modèle logique est défini par l’ensemble des fonctions des composants et il est possible de calculer la dynamique discrète d’un tel modèle [Sa-maga and Klamt, 2013]. Les réseaux booléens ont été utilisés pour modéliser les voies de signalisation, comme la voie de signalisation des neurotransmetteurs [Gupta et al., 2007] ou pour étudier les altérations génétiques dans la tumorigénése des cancers de la vessie [Remy et al., 2015]. D’autres études, comme [Videla et al., 2015], proposent d’identifier les fonctions logiques booléennes à partir de données expérimentales. Tout comme pour les approches différentielles, il est possible de réaliser des réseaux boo-léens probabilistes, cette méthode a été proposée par [Shmulevich et al., 2002].
Réseaux bayésiens
Les réseaux bayésiens ont été introduits par Pearl [Pearl, 1988]. Ce sont des ré-seaux dirigés probabilistes, où les nœuds représentent des variables aléatoires (dis-crètes ou continues) et les arêtes représentent des conditions. Chaque nœud contient une fonction probabiliste qui dépend des valeurs des conditions d’entrée. La dyna-mique d’un réseau bayésien consiste à calculer l’évolution des variables aléatoires en fonction d’une séquence discrète de pas de temps. Ils ont été notamment utilisés pour inférer et représenter la régulation des gènes [Grzegorczyk et al., 2008] et les réseaux de signalisation [Sachs et al., 2005].
Formalismes compacts
Modèles basés sur des règles
Les formalismes basés sur des règles permettent de modéliser de manière com-pacte des systèmes biologiques comme des ensembles de règles, à l’échelle molécu-laire, décrivant comment le système peut évoluer dans le temps [Chylek et al., 2011]. Les règles sont basées sur la notion de causalité : si certaines conditions ont lieu, alors différentes actions sont provoquées. Pour une réaction biochimique, une règle décrit les contraintes nécessaires à l’interaction des réactants afin de provoquer la réaction. Le comportement global du système est donc calculé à partir des descriptions locales des règles. Les règles spécifiées peuvent être utilisées pour générer automatiquement un système d’équations différentielles [Smith et al., 2012]. De plus une règle peut pos-séder certaines propriétés comme le taux d’affinité, la vitesse d’application, etc. Un avantage important de ce type de formalisme est sa modularité qui facilite la mo-dification ou l’extension du modèle, lorsque de nouvelles connaissances deviennent disponibles. Ce type de formalisme est utilisé pour le langage BioCham [Chabrier-Rivier et al., 2004] et Kappa [Danos et al., 2008]. La figure 5 détaille en Kappa la règle permettant la formation du complexe AB à partir des protéines A et B.
|
Table des matières
1 Introduction
1.1 État de l’art de la modélisation des systèmes biologiques
1.1.1 Définition des systèmes biologiques
1.1.2 Le cycle de modélisation
1.1.3 Les graphes en biologie des systèmes
1.1.4 Différents formalismes de modélisation
1.1.5 Modélisation de réseaux de signalisation cellulaire
1.2 Analyse des réseaux et de leurs simulations
1.2.1 Analyse statique de graphe
1.2.2 Analyse dynamique
1.3 Méthodes de data-mining pour traiter les nombreuses solutions
1.3.1 Méthodes de clustering
1.3.2 Analyse de concepts formels
1.4 Analyse de la pertinence biologique des solutions grâce à leurs annotations
1.4.1 Caractérisation des solutions en identifiant leurs annotations significatives
1.4.2 Comparaison de plusieurs solutions grâce à la similarité de leurs annotations
Conclusion
2 Un cas pratique le TGF-b
2.1 Signalisation du TGF-b
2.2 Présentation des données et du projet
2.3 Analyse des trajectoires de signalisation
2.3.1 Les trajectoires de signalisation TGF-b sont fortement connectées
2.3.2 Définition de la fonction Q(t)
2.3.3 Identification des protéines sur-représentées dans chaque noyau
2.3.4 Caractérisation fonctionnelle des regroupements de trajectoires
2.3.5 Visualisation Web des voies de signalisation influencées par le TGF-b
2.4 Regroupement des gènes influencés par le TGF-b
2.4.1 Analyse topologique du graphe de gènes
2.4.2 Analyse des concepts formels des gènes et des trajectoires
2.5 Discussion
Conclusion
3 Vers une analyse des trajectoires de signalisation du TGF-b dans différentes bases de données
3.1 Objectif
3.2 Format BioPAX
3.3 Conversion de données BioPAX en modèle Cadbiom
3.3.1 Réactions simples à traduire
3.3.2 Gestion des entités parentes de BioPAX
3.3.3 Gestion des incohérences
3.3.4 Discussion à propos de BioPAX
3.4 Comparaison des bases de données de signalisation
3.4.1 Pathway Commons
3.4.2 Stratégie proposée
3.4.3 Création des modèles
3.4.4 Comparaison topologique des modèles
3.4.5 Comparaison des trajectoires de PIDoriginal et PID
3.4.6 Enrichissement des voies de signalisation du TGF-b
Conclusion
4 Conclusion et perspectives
Table des figures
Bibliographie
Annexes
4.1 Table du niveau de représentation des protéines dans chaque noyau
4.2 Table des termes GO significativement enrichis dans chaque noyau
4.3 Table des concepts formels des gènes et des trajectoires
Télécharger le rapport complet