Télécharger le fichier pdf d’un mémoire de fin d’études
Intégration des donnée de séries temporelles : un pas vers la modélisation chronométrique
Les technologies « omiques » ont révolutionné les recherches en génomique fonctionnelle en modifiant l’échelle des données analysables et la forme des protocoles de recherche scientifique. Elles permettent de générer des quantités massives de données à des ni-veaux biologiques multiples. Du séquençage des gènes à l’expression des protéines et des structures métaboliques, ces données peuvent couvrir une grande part des mécanismes im-pliqués dans les variations qui se produisent dans les réseaux cellulaires et qui influencent le fonctionnement des systèmes organiques dans leur ensemble.
En plus d’augmenter le débit et le nombre des données, les technologies « omiques » ont fondamentalement modifié les procédures de recherche. Ce qui permet une com-préhension rapide des évolutions transcriptionnelles produites dans les cellules en réponse aux perturbations internes ou externes ou aux programmes de développement propres à la cellule. Ce potentiel ouvre de manière inédite la porte à de nombreuses découvertes sur les mécanismes des maladies, sur la compréhension des facteurs qui influencent l’efficacité et la toxicité des médicaments, ou encore sur la manière dont notre organisme répond et réagit aux médicaments et à l’alimentation. Cependant, malgré l’énorme quantité de données produites, l’accès libre à ces données reste difficile. De plus, dans le processus de génération des données, il arrive que certaines d’entre elles se perdent. Ce qui peut conduire à la génération des données incomplètes. Enfin, la multiplicité des technologies « omiques »a pour effet de produire des données de différents types qui ne sont pas toujours adaptées selon l’étude qui est à mener.
Dans cette thèse, nous nous intéressons aux séries temporelles en particulier. En ef-fet, elles décrivent l’évolution des quantités des composants biologiques dans le temps. Une analyse fine de cette dynamique peut permettre d’identifier les niveaux d’activité des composants en fonction du temps. Ce qui permet d’estimer les paramètres temporels (qui peuvent être des délais) et stochastiques pour les changements de niveaux discrets. Ce pa-ramétrage des transitions entre niveaux discrets avec des valeurs continues (délais) permet de mettre en œuvre la notion de chronométrie. On peut aussi aller plus loin que la simple prise en compte de l’ordre des évènements (chronologie). Précisément, nous avons voulu introduire au moins partiellement cette amorce de prise en compte des aspects continus pour raffiner des modélisations purement discrètes (et donc éloignées de la réalité). Pour autant, nous avons cherché à maîtriser les dimensions de modèles afin de conserver la possibilité de les analyser.
État de l’art des modélisations des réseaux de régu-lation biologique
Nous exposons dans cette section les principales méthodes de modélisation des RRB. Ces méthodes vont des modélisations discrètes aux modélisations hybrides. Nous commen-çons par le graphe des interactions, qui nous permet d’introduire les modèles discrets en particulier le modèle de Thomas, puis nous introduisons d’autres modélisations hybrides in-troduites pour la modélisation des RRB. Nous finissons ce tour d’horizon par le formalisme des Frappes de Processus introduit par Paulevé (2011) et ses nombreux enrichissements apportés par Folschette (2014) dans sa thèse.
Graphe des Interactions
Le graphe des interactions d’un RRB offre une représentation simple et qualitative des ré-gulations entre les composants. Dans cette représentation les composants sont représentés par des nœuds étiquetés par un nom (celui du composant : a, b, c, etc.) et les interactions par des arcs signés (ou orientés) positifs ou négatifs. Un arc signé positif (resp. négatif) de a vers b dénote que a est un activateur (resp. inhibiteur) de b.
Selon le niveau de connaissance sur le système et les questions posées, le graphe d’interactions peut être agrémenté d’informations supplémentaires afin de mieux visualiser le rôle des régulations impliquées. Ainsi, on peut rajouter aux nœuds un plafond (son niveau d’expression maximum : , , , etc.) et les arcs peuvent prendre la forme s;t , c’est-llla!b a b c à-dire étiquetés par un signe s qui représente le type de régulation (+ pour une activation, pour une inhibition et pour une régulation plus complexe) et un entier t qui représente le seuil de déclenchement de la réaction (c’est-à-dire le niveau d’expression du composant régulateur à partir duquel celui-ci a effectivement une influence sur le composant régulé). La notion de seuil (niveau) est présentée plus en détail à la section 2.2.2. Aussi la définition 2.1 propose une formalisation générale du graphe des interactions.
Définition 2.1 (Graphe des interactions). Un graphe des interactions est un couple G = ( ; E) où est l’ensemble fini des composants, étiquetés par un nom et un plafond, et E est l’ensemble fini des régulations entre deux nœuds, étiquetées par un signe et un seuil : s;t E = fa! b; : : : j a; b 2 ^ s 2 f+; ; g ^ t 2 J1 ; laKg tel que chaque régulation de a vers b soit unique : s;t 8a! s0;t0b2E;8a!.
Modélisations Hybrides
Les modèles peuvent être enrichis notamment en rajoutant une composante continue qui gouverne les transitions entre les états discrets, il devient donc possible d’explorer les propriétés quantitatives (probabilité d’observer un comportement, temps moyen, etc.). Les modélisations hybrides apportent cette richesse pour la compréhension des RRB qui sont des systèmes intrinsèquement aléatoires, et où la notion de délai peut jouer un rôle dans la caractérisation d’un comportement donné. Très souvent trois types de modélisations hybrides sont rencontrées : les modélisations ajoutant une composante stochastique, les modélisations ajoutant strictement une composante temporelle, et celles combinant les deux précédentes.
Modèles Stochastiques
Dans le cadre des modélisations stochastiques, il est courant d’associer aux transitions des délais qui suivent généralement une distribution exponentielle. Cette distribution expo-nentielle permet de donner au système la propriété Markovienne. Ainsi dans le cadre des modélisations Markoviennes, nous pouvons citer de façon non exhaustive l’utilisation de Réseaux de Petri stochastiques (Heiner, Gilbert & Donaldson, 2008), du -calcul stochas-tique (Maurin, Magnin & Roux, 2009), de (Danos, Feret, Fontana & Krivine, 2007) ou encore de Biocham (Rizk, Batt, Fages & Soliman, 2008) pour la modélisation et l’analyse des systèmes biologiques. Le but principal des modélisations stochastiques est de permettre le calcul des probabilités d’observation de certains comportements.
Modèles Temporels
Les modèles temporels se focalisent plutôt sur les délais pris généralement dans un intervalle de temps fixé ou suivant une certaine équation différentielle. Nous pouvons ainsi citer l’uti-lisation de Réseaux de Petri temporisés (Popova-Zeugmann, Heiner & Koch, 2005), d’au-tomates temporisés (Siebert & Bockmayr, 2006), d’automates hybrides linéaires (Ahmad, Roux, Bernot, Comet & Richard, 2008) et d’automates hybrides non linéaires (Alur, Belta, Kumar, Mintz, Pappas, Rubin & Schug, 2002) pour la modélisation et l’analyse des sys-tèmes biologiques. Les modélisations temporelles permettent un raffinement sur les dyna-miques discrètes initiales. En effet, plusieurs possibilités émergent du fait de la modélisation temporelle : (1) du fait de la contrainte temporelle, il peut être désormais possible d’ob-server des comportements initialement interdits dans la dynamique discrète et de même, la contrainte temporelle peut aussi interdire certaines actions ; (2) la contrainte temporelle permet d’avoir des comportements plus précis sur la dynamique.
La section 2.2.3.3 présente le formalisme des Frappes de Processus qui est un forma-lisme introduit pour la modélisation des systèmes biologiques. Il présente l’avantage de permettre une modélisation hybride des systèmes. Ceci par une modélisation des compo-sants comme des composants à états discrets et une dynamique continue qui permet à la fois la prise en compte du temps sous forme continue avec un comportement aléatoire.
Les Frappes de Processus
Nous présentons ici les Frappes de Processus (standards) telles que introduites dans la thèse de Loïc Paulevé (2011) pour la modélisation de systèmes concurrents. C’est un formalisme qui se veut simple et qui peut être considéré comme une restriction de nombreux autres formalismes existant avant son introduction. La principale motivation pour son introduction est basée sur l’intuition que sa simplicité engendre des modèles possédant une structure à partir de laquelle la dynamique sous-jacente peut être aisément comprise. C’est de fait un formalisme bien adapté pour la modélisation des RRB.
Les Frappes de Processus regroupent un ensemble fini de processus, divisés en sortes : un processus appartient à une et une seule sorte. À tout instant, un et un seul processus de chaque sorte est actif, indiquant l’état courant de la sorte à laquelle il appartient. Le changement de processus actif dans une sorte se fait à partir de la frappe du processus actif par au moins un autre processus courant. Un processus est noté ai où a est la sorte et i l’identifiant du processus au sein de la sorte a.
Les interactions concurrentes entres les processus sont définies par un ensemble d’actions. Ces actions permettent le remplacement d’un processus par un autre de la même sorte, conditionné par la présence d’au plus un autre processus de l’état courant des Frappes de Processus.
État de l’art de l’intégration des données quantita-tives
Les modèles offrent la possibilité d’analyser, de simuler et de comprendre les systèmes. Dans le cas des systèmes biologiques, en fonction du niveau de précision, certains modèles rendent plus ou moins bien compte des propriétés des systèmes étudiés. D’autres modèles par contre, ont besoin d’être confrontés aux données et/ou enrichis des données pour être raffinés voire améliorés. En effet, la démarche habituelle dans la biologie des systèmes consiste à partir d’une base de connaissance, d’émettre de nouvelles hypothèses de tra-vail, ces hypothèses vont conduire à effectuer des expérimentations. Les expérimentations génèrent des résultats qui sont dans la plupart des cas des données qui sont traitées afin d’identifier de façon fiable les éléments significatifs et les structures pour le phénomène biologique considéré. De ce traitement, les modèles sont construits en utilisant l’approche de modélisation qui correspond la mieux aux questions qui sont posées. Nous présenterons dans la section 2.3.1 quelques techniques de construction des modèles à partir des données expérimentales. Une fois les modèles générés, ils doivent être validés. Nous proposons une courte discussion sur la validation des modèles à la section 2.3.2. En plus d’être utilisées pour valider les modèles, les données peuvent également être utilisées pour enrichir les modèles et, de fait, offrir une opportunité pour une analyse plus raffinée. Cela passe gé-néralement par un processus d’intégration des données dans les modèles. C’est l’objet du chapitre 3 de cette thèse. Nous présentons donc dans cette section un aperçu certainement pas exhaustif des travaux qui ont proposés une prise en compte des données expérimentales dans le processus de modélisation. Nous les avons regroupés en trois principales classes : les travaux qui permettent d’inférer les modèles à partir des données (section 2.3.1), ceux qui permettent de valider les modèles (section 2.3.2) et ceux qui permettent d’intégrer les données dans les modèles (chapitre 3).
Inférence des RRB à partir des données expérimentales
Plusieurs méthodes ont été proposées pour l’inférence des RRB à partir des données. C’est un processus qui nécessite au préalable (indépendamment de la méthode) de choisir le mo-dèle d’architecture le plus adapté. Le modèle d’architecture décrit le comportement général des composants cibles en fonction de ses régulateurs. Ce n’est qu’à la fin de la définition du modèle d’architecture, qu’on peut définir la structure du modèle (les interactions entre les composants) et les paramètres du modèle (type et la force des interactions).
Dans le cadre de la définition du modèle d’architecture, plusieurs modèles d’archi-tectures ont été proposés. Ils varient en fonctions des niveaux de simplifications et des différentes hypothèses émises pour la caractérisation des mécanismes moléculaires entre les composants. De façon générale, les nœuds du réseaux représentent les composants du système (les gènes, les protéines, les complexes, etc.). Les interactions entre les compo-sants du système dépendent de comment sont abstraites les influences.
Ainsi donc, en fonction des choix de modélisation, l’inférence des RRB peut se faire par l’approche de la théorie de l’information en utilisant les réseaux de corrélations (Stuart, Segal, Koller & Kim, 2003) qui sont représentés par un graphe non orienté où les arrêtes sont pondérées avec les coefficients de corrélations. Aussi, il y aura un lien entre deux gènes si le coefficient de corrélations de leurs expressions est supérieur à un certain seuil. Ainsi, plus le seuil est élevé, plus le RRB inféré est clairsemé. À coté du coefficient de corrélation, d’autres métriques existent pour prédire les relations entre les composants d’un RRB. La distance euclidienne et l’information mutuelle ont été appliquées dans (Steuer, Kurths, Daub, Weise & Selbig, 2002) pour détecter les dépendances des RRG.
De nombreux algorithmes ont été proposés pour ces méthodes dites de « reverse inge-niering ». Les avantages de ces méthodes sont leur simplicité et un faible coût de calcul. De plus, comme elles ne nécessitent pas un gros volume de données (Hecker, Lambeck, Toepfer, Van Someren & Guthke, 2009), elles sont adéquates pour inférer les grands RRB. Cependant, elles ne prennent pas en compte le fait que plusieurs composants peuvent parti-ciper à une même régulation. Elles ont de plus le désavantage d’être statiques c’est-à-dire qu’elles ne permettent pas de modéliser l’évolution du système en fonction du temps. Une conséquence immédiate est qu’il n’est pas possible de modéliser les boucles de rétro-contrôle (lorsque des variables d’un système interagissent entre elles de manière bouclée).
L’inférence des réseaux booléens (Kauffman, 1969; Thomas, 1973) nécessite d’avoir les données d’expression des gènes continues. Ces réseaux utilisent des variables binaires xi 2 f0; 1g (comme nous l’avons présenté à la section 2.2.2 en page 22) qui définissent l’état du composant (gène, protéine). Pour chaque composant, sa courbe d’expression doit être discrétisée. La discrétisation peut s’effectuer soit par des méthodes de clustering ou par des méthodes de seuil. Les interactions entre les composants peuvent être représentées par des fonctions booléennes. Le défi est de déterminer ces fonctions booléennes tel que les observations des données d’expression des gènes expliquent le modèle. De nombreux algorithmes ont été proposés dans ce sens (Liang, Fuhrman & Somogyi, 1998).
L’inférence des réseaux bayésiens est particulière parce qu’elle permet de combiner différents types de données et de connaissances à priori dans le processus d’inférence. Les réseaux bayésiens reflètent la nature stochastique de la régulation des gènes. L’idée principale dans le processus d’inférence des réseaux bayésiens est de considérer les va-leurs d’expression des gènes comme des variables aléatoires qui suivent une distribution de probabilité. Ainsi, les modèles bayésiens permettent de modéliser l’aléatoire et le bruit. De plus, il est possible de calibrer le modèle sur des données d’apprentissage et de mieux prendre en compte les données incomplètes et bruitées. Les méthodes pour l’apprentis-sage des réseaux bayésiens sont présentées en détail dans (Needham, Bradford, Bulpitt & Westhead, 2007; Heckerman, 1998).
Plusieurs autres méthodes et approches ont été utilisées pour inférer les modèles de régulations biologiques (statique ou dynamique) des protéines de signalisation ou des régu-lations géniques. Parmi ces méthodes, nous pouvons citer les travaux de (Gardner, Di Ber-nardo, Lorenz & Collins, 2003) (Pinna, Soranzo & de la Fuente, 2010), qui permettent d’inférer les réseaux de régulation statique à partir des états stables des ensembles d’ex-pression des gènes. Ces méthodes se basent sur des modèles statistiques qui permettent de générer des modèles de petite taille ( 10 composants) ou de taille moyenne (maximum 100 composants).
Valider les modèles à partir des données expérimentales
La validation des modèles consiste à déterminer la qualité du modèle conformément aux propriétés attendues et des données disponibles. Pour une validation quantitative, l’ap-proche utilisée est la méthode de score. La méthode de score évalue le modèle confor-mément aux informations déjà utilisées pour générer le modèle (validation interne) et aux informations indépendantes (validation externe). En général, la qualité d’un modèle est déterminée en répondant aux questions suivantes :
– Est-ce que le modèle prédit correctement les comportements du système modélisé ?
– Est-ce que le modèle représente la structure réelle du système ?
La réponse à la première question peut se faire en comparant les résultats des simu-lations du modèle avec les données expérimentales du système réel. Nous mettrons cette approche en œuvre dans le chapitre 3 et dans le chapitre 6.
La réponse à la deuxième question est moins évidente. En effet, une réponse efficace à la deuxième question suppose de connaître la structure du système réel. Ce qui n’est pas toujours le cas. Dans bien des cas, les informations disponibles sur le système réel sont incomplètes, bruitées et pas toujours fiables. Une façon de contourner cette difficulté est d’utiliser les données synthétiques avec la conséquence que les performances de la méthode d’inférence du modèle sera fortement liée au modèle utilisé pour la construction des données artificielles.
Les méthodes suivantes accordent une importance à la cohérence du graphe d’interac-tions avec les données expérimentales. Ici, le graphe des interactions est très souvent connu sous le nom de PKNs (Prior Knowledge Networks). Les PKNs sont en partie collectés des bases de données différentes. Par exemple, KEGG (Kanehisa et al., 2015), Reactome (Joshi-Tope, Gillespie, Vastrik, D’Eustachio, Schmidt, de Bono, Jassal, Gopinath, Wu, Matthews et al., 2005), WikiPathways (Pico, Kelder, Van Iersel, Hanspers, Conklin & Evelo, 2008) dont la plupart sont accessibles via le portail Pathway Commons (Cerami, Gross, Demir, Rodchenkov, Babur, Anwar, Schultz, Bader & Sander, 2011) qui intègre beaucoup d’autres bases de données. Ces bases de données contiennent les informations provenant de la littérature, des résultats obtenus des publications basées sur des recherches expérimentales. Ce sont des réseaux de protéines ou de signalisations très utiles pour l’étude des propriétés topologiques (Ma’ayan, Jenkins, Neves, Hasseldine, Grace, Dubin-Thaler, Eungdamrong, Weng, Ram, Rice et al., 2005) des réseaux ou d’un mappage avec les don-nées (Ideker & Sharan, 2008; Terfve & Saez-Rodriguez, 2012). Cependant les PKNs ne sont pas fonctionnels au sens où ils ne peuvent pas être simulés comme des processus de signalisation et de fait, comme une prédiction des sorties d’une expérience.
(Guziolowski, Bourdé, Moreews & Siegel, 2009) proposent de vérifier la cohérence d’un graphe des interactions avec des données expérimentales mesurant, à l’état stationnaire, la diminution ou l’augmentation des composants partant d’une solution initiale. Concrète-ment, les données obtenues sont de la forme : « le niveau de a est plus élevé, celui de b plus faible,etc. ». Les variations observées doivent alors s’expliquer par la topologie du graphe des interactions : par exemple si b diminue significativement, alors un de ses activateurs a été diminué ou un de ses inhibiteurs a été augmenté.
(Klamt, Saez-Rodriguez & Gilles, 2007) proposent des analyses similaires en utilisant une analyse de dépendance entre les composants afin de déterminer la cohérence d’un graphe des interactions avec des interactions des données expérimentales. Saez-Rodriguez, Alexopoulos, Epperlein, Samaga, Lauffenburger, Klamt & Sorger (2009) vont plus loin en proposant le logiciel CNO pour générer les modèles (booléens) logiques à partir des réseaux de signalisations et déterminer la topologie optimale des modèles générés à partir des données expérimentales. Cette démarche génère la structure optimale, mais ne garantit pas la structure optimale globale et de plus elle ne passe pas à l’échelle.
Une approche par programmation par contrainte est proposée dans (Videla, Guzio-lowski, Eduati, Thiele, Grabe, Saez-Rodriguez & Siegel, 2012) pour palier les limites de l’approche de (Saez-Rodriguez et al., 2009). L’approche proposée permet effectivement de générer les modèles optimaux contrairement à l’approche développée dans CNO et possède une bonne complexité en terme de temps de calcul. Ainsi donc, il est possible d’inférer les réseaux booléens qui sont conformes au réseau de signalisation de protéines associé et de les confronter aux données phosphoprotéomiques.
Dans (Guziolowski, Videla, Eduati, Thiele, Cokelaer, Siegel & Saez-Rodriguez, 2013) l’outil CASPO est développé pour générer les modèles logiques (booléens) des signaux de transductions. Cette génération prend en compte les boucles de rétro contrôle.
Contrairement aux approches précédentes, qui regardent le système à deux instants de temps (le début et la fin), dans (Ostrowski, Paulevé, Schaub, Siegel & Guziolowski, 2015), l’idée est d’aller plus loin en généralisant les méthodes précédentes pour prendre en considération la dynamique complète ou du moins à plusieurs instants de temps. Le but est donc de générer les conditions nécessaires que doit vérifier la dynamique des réseaux booléens générés pour être cohérente avec les données expérimentales. Autrement dit, considérons les données de séries temporelles qui donnent la mesure d’une partie des composants biologiques pendant une expérimentation, il est question d’identifier tout les réseaux booléens qui ont une structure compatible avec le PKN d’entrée et qui reproduisent toutes les observations des données de séries temporelles.
Plus récemment, (Ben Abdallah, Ribeiro, Magnin, Roux & Katsumi, 2016) ont proposé une méthode originale pour la révision des modèles (qui peuvent être initialement vide) basée sur l’ASP et les données de séries temporelles. Son approche consiste à déterminer les délais des différents changements d’états des composants dans le système, et à proposer des actions (transitions) dans le modèle généré qui pourraient expliquer ces changements. Cette démarche produit, de fait, un ensemble de modèles cohérents avec les observations.
Malgré les efforts de modélisations qui permettent de valider/réviser les modèles à par-tir des données, très peu de méthodes se concentrent sur le raffinement de la dynamique des modèles en paramétrant les interactions avec les estimations issues des données expé-rimentales. C’est le but du chapitre 3 où nous présentons une contribution dans ce sens. Et puis, partant des modèles raffinés, nous validons par une comparaison avec les données de séries temporelles expérimentales.
État de l’art de la vérification des propriétés dans les modèles
Dans cette partie nous présentons une synthèse des résultats développés pour l’analyse et la vérification de la dynamique des RRB à grande échelle. Les principales techniques pré-sentées sont des techniques par analyse statique qui permettent de proposer des réponses aux RRB de grandes taille. La section 2.4.1 présente quelques techniques de réduction des modèles introduites pour les RRB. La section 2.4.2 présente les opérations algébriques sur les diagrammes de décision. La section 2.4.3 présente les techniques par interprétation abstraite des dynamiques dans les RRB. Nous nous concentrerons dans cette section sur les propriétés d’accessibilité et leur vérification par analyse statique. Enfin, la section 2.4.4 en page 47 présente quelques travaux sur la vérification des propriétés quantitatives.
Réduction de Modèles
Une des approches naturelles lorsque nous faisons face à un grand modèle est de penser à le réduire dans un modèle plus petit et pouvant reproduire la même dynamique d’un point de vue des propriétés recherchées. Les méthodes de réduction permettent d’extraire des propriétés sur les dynamiques du système. Elle peuvent également permettre de comprendre le rôle de certains composants en étudiant leur impact sur la dynamique globale du modèle.
Une approche pour la réduction des réseaux discrets à été proposée par (Naldi, Remy, Thieffry & Chaouiya, 2009). Dans cette approche, ils suppriment un composant a dépourvu d’auto-régulation : les régulateurs de a sont prolongés aux composants régulés par a ; pour chaque composant régulé b, sa fonction discrète est modifiée en remplaçant toute occurrence de l’état de a par le résultat de la fonction discrète f a (par exemple, f b(x) = x[c] _ x[a] devient f b(x) = x[c] _ f a(x)). Naldi et al. démontrent alors les propositions suivantes : les atteignabilités des composants conservés sont réduites (des transitions peuvent être supprimées par la réduction) ; les points fixes sont conservés ; les attracteurs cycliques sont conservés.
Dans le cadre des modélisations par équations différentielles des RRB (et plus géné-ralement des systèmes de réactions), (Radulescu, Gorban, Zinovyev & Lilienbaum, 2008) établissent des méthodes de réductions en se basant sur la vitesse des réactions : selon les relations entre les réactions, celles ayant une vitesse faible ou élevée peuvent être enlevées sans impacts sur la dynamique globale. Cette méthode de réduction permet alors d’extraire les réactions critiques dont les vitesses peuvent influencer de manière notable la dynamique du système.
Nous citons également les travaux de (Gay, Soliman & Fages, 2010) permettant d’éta-blir automatiquement des relations de réduction entre différents modèles en graphes bi-partis décrivant un système de réactions (qui peut être considéré comme plus génériques que les réseaux discrets). Un modèle est alors considéré comme la réduction d’un autre si le premier peut être obtenu par un ensemble d’opérations de suppression et de fusion des réactions.
Enfin, nous citons les travaux de (Paulevé, 2016) qui propose une réduction des réseaux d’automates basé sur l’identification des transitions qui ne prennent pas part à une pro-priété d’accessibilité donnée et peuvent donc de fait être ignorées. Cette démarche conserve l’ensemble de traces minimales qui satisfont la propriété d’accessibilité. Pour cela, la mé-thode identifie les transitions qui ne sont pas concernées par la propriété d’accessibilité recherchée par une analyse statique des transitions causales dans chaque automate.
Opération algébrique sur les Diagrammes de Décision
Différentes analyses des Réseaux Discrets ont été proposées par (Naldi, Thieffry & Chaouiya, 2007) et (Hamez, Thierry-Mieg & Kordon, 2009) en utilisant les opérations algébriques sur les Diagrammes de Décision Multi-valués (DDM) afin de détecter efficacement les états stables de la dynamique et la fonctionnalité des circuits du graphe des interactions. Un DDM est un graphe orienté acyclique possédant une seule racine. Chaque nœud re-présente le test d’une variable et possède autant d’arcs sortants que de valeurs possibles : l’arc libellé par la valeur de la variable est alors sélectionné et amène au test d’une autre variable, jusqu’à arriver à une feuille, contenant alors la valeur de la décision. Étant donné un état x définissant n variables x1; : : : ; xn, il existe un unique chemin partant de la racine correspondant aux valeurs des variables et arrivant à une feuille.
Partant d’un Réseau Discret complètement paramétré, les paramètres de René Thomas de chaque composant sont encodés en DDM. Nous en avons une illustration à la figure 2.9 tirée de (Naldi et al., 2007)
Interprétation abstraite
Dans le domaine de l’interprétation abstraite où l’objectif principal est de fournir des analyses efficaces d’un modèle sans l’exécuter (Cousot & Cousot, 1977), des travaux ont été introduits pour permettre de comprendre les propriétés des systèmes biologiques. Parmi ces travaux, nous pouvons citer les travaux de (Danos, Feret, Fontana & Krivine, 2008) pour le modèle kappa. Les travaux introduits dans la thèse de Loïc Paulevé (2011) et enrichi par Maxime Fol-schette (2014) proposent une approche très spécifique qui repose sur une interprétation abstraite des comportements concurrents des réseaux d’automates. À partir de la spécifi-cation du réseau d’automates, ils calculent des représentations abstraites de l’ensemble des comportements concernés par la propriété d’accessibilité recherchée. Ces représentations prennent la forme de graphes qu’ils ont appelés Graphes de Causalité Locale (GCL). Les abstractions faites oublient délibérément une partie de l’information sur l’ordre ou l’arité des transitions locales, résultant ainsi en des approximations supérieures et inférieures des comportements du modèle concret. Une analyse du GCL permet d’identifier les propriétés qui sont soit nécessaires, soit suffisantes à l’accessibilité étudiée.
Le principal avantage de cette méthode est une complexité très réduite comparée à une vérification formelle exacte : ce sont des approches exponentielles selon le nombre d’états au sein d’un seul automate, mais polynomiales selon le nombre d’automates. Ce qui permet de garantir leur applicabilité pour l’étude de la dynamique de très grands réseaux où chaque automate n’a que peu d’états locaux, ce qui est typiquement le cas des modèles qualitatifs des réseaux biologiques. Cependant, il existe un risque d’obtenir une réponse non concluante pour le modèle concret, nécessitant alors de raffiner l’analyse de la dynamique.
Causalité locale. Nous présentons ici de façon informelle, la démarche qui conduit à la construction d’un Graphe de Causalité Locale. En effet, il est possible de vérifier locale-ment : (1) qu’un état local actif d’un automate peut bondir d’un niveau vers un autre en n’observant que les transitions locales à cet automate ; (2) que le jeu d’une transition est conditionné par au plus un état local d’un automate autre que celui qui contient la cible de la transition.
Aussi, du premier constat nous déduisons le fait que l’accessibilité d’un état local peut être résolue localement, en observant les transitions locales à cet automate. Une fois ce problème résolu localement pour cet automate, la deuxième constatation permet de déplacer le problème à d’autres automates afin d’activer les états locaux requis pour jouer chaque transition nécessaire. .
Cette démarche exhibe bien la construction récursive qui lie l’activation locale d’un état local, les transitions requises pour le faire, et de nouveau l’activation des états lo-caux nécessaires pour jouer ces transitions, etc. Dans le but de réduire la complexité de la méthode, une approximation de la dynamique est effectuée à chaque étape : Pour chaque résolution d’accessibilité locale au sein de chaque automate, un ensemble d’états locaux requis appartenant à d’autres automates est produit en oubliant délibérément (par l’abstraction) l’ordre dans lequel ces états locaux sont nécessaires. Cela permet donc de déplacer l’accessibilité locale d’un état local à plusieurs accessibilités indépendantes dans d’autres automates.
Sur- et Sous-approximation. Cette approche permet de décliner une approximation supérieure (sur-approximation) et une approximation inférieure (sous-approximation) de l’ensemble de toutes les dynamiques possibles du modèle. La sur-approximation consiste à ne pas s’intéresser à l’ordre dans lequel les états locaux requis sont activables — et donc à l’ordre dans lequel les transitions résolvant l’accessibilité locale sont jouables. Cela autorise effectivement davantage de comportements, car en pratique un processus peut ne pas être activable après certaines transitions. La sous-approximation, à l’inverse, stipule que tous les états locaux requis doivent être activables dans tous les ordres possibles, bien qu’en pratique, tous les ordres ne soient pas intéressants pour la résolution.
Chacune de ces approximations est représentée à l’aide d’un graphe de causalité locale, qui est unique à chaque problème d’atteignabilité, et qui formalise les liens de causalité évoqués précédemment. Enfin, (Paulevé, Magnin & Roux, 2012) donnent une propriété qui, sous certaines conditions dépendant du graphe de causalité locale correspondant à la sous-approximation, stipule que l’état local donné est accessible depuis l’état donné ; de même, une propriété complémentaire est donnée pour le graphe de causalité locale correspondant à la sur-approximation, qui permet d’obtenir la conclusion inverse. Si aucune des deux propriétés n’est vraie, la méthode est dite non conclusive, et il est nécessaire de raffiner le problème ou le modèle.
Le calcul des deux graphes de causalité locales est polynomial dans le nombre de sortes et exponentielle dans le nombre de processus de chaque sorte des Frappes de Processus standards sur lesquelles la méthode est appliquée, et la vérification des deux propriétés l’est dans la taille des graphes obtenus. Ainsi, cette méthode est plus efficace que les approches par force brute car elle évite l’explosion combinatoire propre à l’analyse de la dynamique. Son implémentation produit des résultats en quelques dixièmes de seconde sur des modèles de plusieurs centaines de composants, et s’avère toujours conclusive sur la plupart des exemples étudiés. Toutefois, le rajout des priorités dans les actions des Frappes de Processus augmente les cas inconclusifs. Folschette (2014) dans sa thèse a exhibé quelques exemples et proposé une alternative à la condition suffisante énoncée dans Paulevé et al. (2012) qui permet de prendre en compte la séquentialité des objectifs plutôt que de les considérer simultanément, tel que cela est fait dans la version actuelle. Comme les objectifs sont pris en compte individuellement, une telle approche ne prend en compte qu’un sous-ensemble des scénarios possibles. Cependant, en se concentrant à chaque itération sur une plus petite partie du réseau, cette sous-approximation séquentielle peut s’avérer plus souvent conclusive.
|
Table des matières
1 Introduction
1.1 Contexte & Motivations
1.2 Les systèmes biologiques : modélisation & analyse
1.3 Intégration des donnée de séries temporelles : un pas vers la modélisation chronométrique
1.4 Contributions
1.5 Organisation du manuscrit
1.6 Notations
2 Modélisation et analyse des systèmes biologiques
2.1 Introduction
2.2 État de l’art des modélisations des réseaux de régulation biologique
2.2.1 Graphe des Interactions
2.2.2 Modélisations Discrètes
2.2.3 Modélisations Hybrides
2.3 État de l’art de l’intégration des données quantitatives
2.3.1 Inférence des RRB à partir des données expérimentales
2.3.2 Valider les modèles à partir des données expérimentales
2.4 État de l’art de la vérification des propriétés dans les modèles
2.4.1 Réduction de Modèles
2.4.2 Opération algébrique sur les Diagrammes de Décision
2.4.3 Interprétation abstraite
2.4.4 Vérification des propriétés quantitatives
2.5 Discussion
3 Intégration des séries temporelles dans les réseaux d’automates asynchrones
3.1 Préliminaires
3.2 Identification des motifs dans les réseaux de régulation biologique
3.2.1 Définition des réseaux de régulation type RSTC
3.2.2 Une définition des motifs dans les réseaux de régulations biologiques type RSTC
3.2.3 Identification des motifs minimaux
3.2.4 Des réseaux de régulation biologique vers les réseaux d’automates asynchrones
3.3 Intégration des séries temporelles
3.3.1 Les séries temporelles
3.3.2 Raffinement de la dynamique dans les réseaux d’automates asynchrones
3.4 Évaluation par analyse statistique des traces
3.4.1 Définition de trace et de trace acceptante
3.4.2 Calcul des proportions de traces acceptantes
3.5 Discussion
4 Analyse statique des propriétés quantitatives dans les réseaux d’automates stochastiques
4.1 Préliminaires
4.2 Définitions préliminaires
4.2.1 Définition du problème d’accessibilité
4.2.2 Définition d’un réseau d’automates stochastiques (SAN)
4.2.3 Approche pour la construction de notre analyse statique
4.3 Une sémantique probabiliste pour la dynamique des réseaux d’automates stochastiques
4.4 Interprétation Quantitative de l’Abstraction des Scénarios
4.4.1 Définitions & propriétés préliminaires
4.5 Approximations Inf et Sup de la probabilité et des délais d’accessibilité
4.5.1 Structures abstraites pour l’évaluation quantitative
4.5.2 Approximation Inf de la probabilité et borne Inf du délai d’accessibilit
4.5.3 Approximation limites des probabilités et des délais d’accessibilité
4.6 Discussion
5 Identification des bifurcations dans les réseaux d’automates
5.1 Préliminaires
5.2 Outils pour les sections suivantes
5.2.1 Rappels de quelques définitions
5.3 Définition de la bifurcation
5.3.1 Définition formelle de la notion de bifurcation
5.3.2 Idée générale pour l’identification des bifurcations et principales contributions
5.4 Approximations Inf des états/transitions de bifurcations
5.4.1 Définition
5.5 Approximation Sup des états/transitions de bifurcations
5.5.1 Définition
5.6 Présentation de la programmation par ensemble de réponses (ASP)
5.6.1 Le paradigme
5.6.2 Éléments de syntaxe et de sémantique
5.6.3 Exemple basique d’utilisation de l’ASP
5.7 Implémentation en ASP de notre approche pour l’identification des bifurcations
5.7.1 Déclaration des états locaux, des transitions et des états
5.7.2 Implémentation des approximations Sup et Inf de l’accessibilité en ASP
5.7.3 Déclaration de sb, tb, et su
5.7.4 (I1#) déclaration de : OA(su !∗ g1)
5.7.5 (I2#) déclaration de UA(sb !∗ g1)
5.7.6 Implémentation en ASP de l’accessibilité avec le dépliage
5.7.7 (I3) déclaration de sb 2 unf-prefix(s0)
5.7.8 (I3#) déclaration de UA(s0 !∗ sb)
5.8 Discussion
6 Applications sur des exemples biologiques
6.1 Préliminaires
6.2 Applications de l’intégration des données : simulations et analyses
6.2.1 La différenciation cellulaire : cas des cellules de la peau
6.2.2 Choix de modélisation et hypothèses de simulations
6.2.3 La simulation stochastique et résultats
6.2.4 Analyse statistique de la simulation
6.3 Applications de l’identification des bifurcations sur des exemples biologiques
6.3.1 Présentation des modèles biologiques étudiés
6.3.2 Description de la méthode
6.3.3 Résultats
6.3.4 Évaluation quantitative (probabiliste)
6.4 Discussion
7 Conclusion et perspectives
7.1 Contributions
7.2 Perspectives
Bibliographie
Télécharger le rapport complet