Les systèmes biologiques : modélisation & analyse 

État de l’art des modélisations des réseaux de régulation biologique

Nous exposons dans cette section les principales méthodes de modélisation des RRB. Ces méthodes vont des modélisations discrètes aux modélisations hybrides. Nous commençons par le graphe des interactions, qui nous permet d’introduire les modèles discrets en particulier le modèle de Thomas, puis nous introduisons d’autres modélisations hybrides introduites pour la modélisation des RRB. Nous finissons ce tour d’horizon par le formalisme des Frappes de Processus introduit par Paulevé (2011) et ses nombreux enrichissements apportés par Folschette (2014) dans sa thèse.

Graphe des Interactions

Le graphe des interactions d’un RRB offre une représentation simple et qualitative des régulations entre les composants. Dans cette représentation les composants sont représentés par des nœuds étiquetés par un nom (celui du composant : a, b, c , etc.) et les interactions par des arcs signés (ou orientés) positifs ou négatifs. Un arc signé positif (resp. négatif)de a vers b dénote que a est un activateur (resp. inhibiteur) de b.
Selon le niveau de connaissance sur le système et les questions posées, le graphe d’interactions peut être agrémenté d’informations supplémentaires afin de mieux visualiser le rôle des régulations impliquées. Ainsi, on peut rajouter aux nœuds un plafond (son niveau d’expression maximum : la , l b , lc , etc.) et les arcs peuvent prendre la forme a s,t −→ b, c’est à-dire étiquetés par un signe s qui représente le  type de régulation (+ pour une activation, − pour une inhibition et ◦ pour une régulation plus complexe) et un entier t qui représente le seuil de déclenchement de la réaction (c’est-à-dire le niveau d’expression du composant régulateur à partir duquel celui-ci a effectivement une influence sur le composant régulé). La notion de seuil (niveau) est présentée plus en détail à la section 2.2.2. Aussi la définition 2.1 propose une formalisation générale du graphe des interactions.

La dynamique des réseaux discrets

Certaines contraintes propres aux modèles de Thomas peuvent être relâchées pour permettre des comportements supplémentaires. Ainsi, il est courant de représenter la dynamique des réseaux de régulation biologique sous la forme de réseaux discrets asynchrones.
Ces réseaux sont aussi fondés sur un graphe des interactions, mais ils utilisent des fonctions d’évolution (définition 2.6) pour plus de permissivité, en lieu et place de paramètres discrets tels que précédemment formalisés à la définition 2.4 en page 23. Par ailleurs, l’hypothèse d’asynchronisme est conservée car un seul composant peut évoluer depuis chaque état, mais leur dynamique n’est pas unitaire dans le cas général car ce composant peut évoluer d’un nombre arbitraire de niveaux d’expression (définition 2.7).

Modélisations Hybrides

Les modèles peuvent être enrichis notamment en rajoutant une composante continue qui gouverne les transitions entre les états discrets, il devient donc possible d’explorer les propriétés quantitatives (probabilité d’observer un comportement, temps moyen, etc.). Les modélisations hybrides apportent cette richesse pour la compréhension des RRB qui sont des systèmes intrinsèquement aléatoires, et où la notion de délai peut jouer un rôle dans la caractérisation d’un comportement donné. Très souvent trois types de modélisations hybrides sont rencontrées : les modélisations ajoutant une composante stochastique, les modélisations ajoutant strictement une composante temporelle, et celles combinant les deux précédentes.

Modèles Stochastiques

Dans le cadre des modélisations stochastiques, il est courant d’associer aux transitions des délais qui suivent généralement une distribution exponentielle. Cette distribution exponentielle permet de donner au système la propriété Markovienne. Ainsi dans le cadre des modélisations Markoviennes, nous pouvons citer de façon non exhaustive l’utilisation de Réseaux de Petri stochastiques (Heiner, Gilbert & Donaldson, 2008), du π-calcul stochastique (Maurin, Magnin & Roux, 2009), de κ (Danos, Feret, Fontana & Krivine, 2007) ou encore de Biocham (Rizk, Batt, Fages & Soliman, 2008) pour la modélisation et l’analyse des systèmes biologiques. Le but principal des modélisations stochastiques est de permettre le calcul des probabilités d’observation de certains comportements.

Modèles Temporels

Les modèles temporels se focalisent plutôt sur les délais pris généralement dans un intervalle de temps fixé ou suivant une certaine équation différentielle. Nous pouvons ainsi citer l’utilisation de Réseaux de Petri temporisés (Popova-Zeugmann, Heiner & Koch, 2005), d’automates temporisés  (Siebert & Bockmayr, 2006), d’automates hybrides linéaires (Ahmad, Roux, Bernot, Comet & Richard, 2008) et d’automates hybrides non linéaires (Alur, Belta, Kumar, Mintz, Pappas, Rubin & Schug, 2002) pour la modélisation et l’analyse des systèmes biologiques. Les modélisations temporelles permettent un raffinement sur les dynamiques discrètes initiales. En effet, plusieurs possibilités émergent du fait de la modélisation temporelle : (1) du fait de la contrainte temporelle, il peut être désormais possible d’observer des comportements initialement interdits dans la dynamique discrète et de même, la contrainte temporelle peut aussi interdire certaines actions ; (2) la contrainte temporelle permet d’avoir des comportements plus précis sur la dynamique.
La section 2.2.3.3 présente le formalisme des Frappes de Processus qui est un formalisme introduit pour la modélisation des systèmes biologiques. Il présente l’avantage de permettre une modélisation hybride des systèmes. Ceci par une modélisation des composants comme des composants à états discrets et une dynamique continue qui permet à lafois la prise en compte du temps sous forme continue avec un comportement aléatoire

Utilisation des sortes coopératives

L’une des questions qui se posent en présence d’un formalisme totalement asynchrone comme les Frappes de Processus standards est la représentation des coopérations entre les différents composants. En effet, le bond d’un processus dans un modèle de Frappes de Processus standards ne peut se faire que par le jeu d’une action, elle-même déclenchée par la présence d’au plus deux processus : le frappeur et la cible (c’est-à-dire le processus qui va bondir vers un autre processus). Il n’est donc pas possible de conditionner le bond d’un processus par la présence de plusieurs processus de sortes différentes de celle de la cible.  il s’agit bien de deux interactions distinctes et non d’une coopération.
Exemple. Le modèle de Frappes de Processus de la figure 2.3 représente le mécanisme de segmentation métazoaire évoqué à la page 27. Dans ce modèle, la production de pigment devrait uniquement être possible à la condition suivante : « f est actif et c n’est pas actif ».
Or dans l’état courant du modèle, la désactivation du gène f n’empêche pas la production de pigment, car depuis tout état contenant f0 , il est toujours possible d’activer a à l’aide des actions.

Paramètres temporels & stochastiques

(Paulevé et al., 2011a) ont aussi proposé un enrichissement des Frappes de Processus standards à l’aide de paramètres stochastiques, l’objectif étant d’intégrer des données temporelles continues dans les modèles. Cet enrichissement est directement inspiré du pi -calcul stochastique (Priami, 1995). Cependant, la loi exponentielle utilisée pour la simulation stochastique possède une trop grande variabilité, l’approche a été raffinée par l’introduction d’un paramètre supplémentaire permettant de réduire l’intervalle de tir (Paulevé, Magnin & Roux, 2011b).
L’introduction de données dans les Frappes de Processus standards consiste à affecter un couple de paramètres stochastiques (r ; sa) ∈ N × R à chaque action. La probabilité de tirer une action à un instant donné (sur un axe de temps continu) suit alors une loi d’Erlang (Evans, Hastings & Peacock, 2000) en fonction de ces deux paramètres, c’est-à-dire une somme de lois exponentielles. Le premier paramètre, appelé taux, indique le nombre de fois qu’une action peut être tirée par unité de temps. Le second paramètre est l’ absorption de stochasticité, qui détermine le nombre de lois exponentielles sommées pour obtenir la distribution finale.
Tout couple de paramètres stochastiques (r ; sa) correspond à un intervalle de tir [d ; D], où d, D ∈ R, pour un niveau de confiance α ∈ [0 ; 1] donné, et inversement, qui peut être approximé (Paulevé, 2011, p. 72). Cette conversion permet de raisonner sur des intervalles de tirs plutôt qu’en termes de loi d’Erlang, ce qui permet notamment de définir des fenêtres de tir pour chaque action — une action devant être tirée dans sa fenêtre avec un niveau de confiance de α. Au niveau de l’intervalle de tir, les deux paramètres stochastiques ont un rôle particulier.

État de l’art de l’intégration des données quantitatives

Les modèles offrent la possibilité d’analyser, de simuler et de comprendre les systèmes.
Dans le cas des systèmes biologiques, en fonction du niveau de précision, certains modèles rendent plus ou moins bien compte des propriétés des systèmes étudiés. D’autres modèles par contre, ont besoin d’être confrontés aux données et/ou enrichis des données pour être raffinés voire améliorés. En effet, la démarche habituelle dans la biologie des systèmes consiste à partir d’une base de connaissance, d’émettre de nouvelles hypothèses de travail, ces hypothèses vont conduire à effectuer des expérimentations. Les expérimentations génèrent des résultats qui sont dans la plupart des cas des données qui sont traitées afin d’identifier de façon fiable les éléments significatifs et les structures pour le phénomène biologique considéré. De ce traitement, les modèles sont construits en utilisant l’approche de modélisation qui correspond la mieux aux questions qui sont posées. Nous présenterons dans la section 2.3.1 quelques techniques de construction des modèles à partir des données expérimentales. Une fois les modèles générés, ils doivent être validés. Nous proposons une courte discussion sur la validation des modèles à la section 2.3.2. En plus d’être utilisées pour valider les modèles, les données peuvent également être utilisées pour enrichir les modèles et, de fait, offrir une opportunité pour une analyse plus raffinée. Cela passe généralement par un processus d’intégration des données dans les modèles. C’est l’objet du chapitre 3 de cette thèse. Nous présentons donc dans cette section un aperçu certainement pas exhaustif des travaux qui ont proposés une prise en compte des données expérimentales dans le processus de modélisation. Nous les avons regroupés en trois principales classes : les travaux qui permettent d’inférer les modèles à partir des données (section 2.3.1), ceux qui permettent de valider les modèles (section 2.3.2) et ceux qui permettent d’intégrer les données dans les modèles (chapitre 3).

Inférence des RRB à partir des données expérimentales

Plusieurs méthodes ont été proposées pour l’inférence des RRB à partir des données. C’est un processus qui nécessite au préalable (indépendamment de la méthode) de choisir le modèle d’architecture le plus adapté. Le modèle d’architecture décrit le comportement général des composants cibles en fonction de ses régulateurs. Ce n’est qu’à la fin de la définition du modèle d’architecture, qu’on peut définir la structure du modèle (les interactions entre les composants) et les paramètres du modèle (type et la force des interactions).
Dans le cadre de la définition du modèle d’architecture, plusieurs modèles d’architectures ont été proposés. Ils varient en fonctions des niveaux de simplifications et des différentes hypothèses émises pour la caractérisation des mécanismes moléculaires entre les composants. De façon générale, les nœuds du réseaux représentent les composants du système (les gènes, les protéines, les complexes, etc.). Les interactions entre les composants du système dépendent de comment sont abstraites les influences.
Ainsi donc, en fonction des choix de modélisation, l’inférence des RRB peut se faire par l’approche de la théorie de l’information en utilisant les réseaux de corrélations (Stuart, Segal, Koller & Kim, 2003) qui sont représentés par un graphe non orienté où les arrêtes sont pondérées avec les coefficients de corrélations. Aussi, il y aura un lien entre deux gènes si le coefficient de corrélations de leurs expressions est supérieur à un certain seuil. Ainsi, plus le seuil est élevé, plus le RRB inféré est clairsemé. À coté du coefficient de corrélation,d’autres métriques existent pour prédire les relations entre les composants d’un RRB. La distance euclidienne et l’information mutuelle ont été appliquées dans (Steuer, Kurths, Daub, Weise & Selbig, 2002) pour détecter les dépendances des RRG.
De nombreux algorithmes ont été proposés pour ces méthodes dites de « reverse ingeniering ». Les avantages de ces méthodes sont leur simplicité et un faible coût de calcul.
De plus, comme elles ne nécessitent pas un gros volume de données (Hecker, Lambeck, Toepfer, Van Someren & Guthke, 2009), elles sont adéquates pour inférer les grands RRB.
Cependant, elles ne prennent pas en compte le fait que plusieurs composants peuvent participer à une même régulation. Elles ont de plus le désavantage d’être statiques c’est-à-dire qu’elles ne permettent pas de modéliser l’évolution du système en fonction du temps.
Une conséquence immédiate est qu’il n’est pas possible de modéliser les boucles de rétrocontrôle (lorsque des variables d’un système interagissent entre elles de manière bouclée).
L’inférence des réseaux booléens (Kauffman, 1969; Thomas, 1973) nécessite d’avoir les données d’expression des gènes continues. Ces réseaux utilisent des variables binaires (comme nous l’avons présenté à la section 2.2.2 en page 22) qui définissent l’état du composant (gène, protéine). Pour chaque composant, sa courbe d’expression doit être discrétisée. La discrétisation peut s’effectuer soit par des méthodes de clustering ou par des méthodes de seuil. Les interactions entre les composants peuvent être représentées par des fonctions booléennes. Le défi est de déterminer ces fonctions booléennes tel que les observations des données d’expression des gènes expliquent le modèle. De nombreux algorithmes ont été proposés dans ce sens (Liang, Fuhrman & Somogyi, 1998).

État de l’art de la vérification des propriétés dans les modèles

Dans cette partie nous présentons une synthèse des résultats développés pour l’analyse et la vérification de la dynamique des RRB à grande échelle. Les principales techniques présentées sont des techniques par analyse statique qui permettent de proposer des réponses aux RRB de grandes taille. La section 2.4.1 présente quelques techniques de réduction des modèles introduites pour les RRB. La section 2.4.2 présente les opérations algébriques sur les diagrammes de décision. La section 2.4.3 présente les techniques par interprétation abstraite des dynamiques dans les RRB. Nous nous concentrerons dans cette section sur les propriétés d’accessibilité et leur vérification par analyse statique. Enfin, la section 2.4.4 en page 47 présente quelques travaux sur la vérification des propriétés quantitatives.

Interprétation abstraite

Dans le domaine de l’interprétation abstraite où l’objectif principal est de fournir des analyses efficaces d’un modèle sans l’exécuter (Cousot & Cousot, 1977), des travaux ont été introduits pour permettre de comprendre les propriétés des systèmes biologiques. Parmi ces travaux, nous pouvons citer les travaux de (Danos, Feret, Fontana & Krivine, 2008) pour le modèle kappa.
Les travaux introduits dans la thèse de Loïc Paulevé (2011) et enrichi par Maxime Folschette  (2014) proposent une approche très spécifique qui repose sur une interprétation abstraite des comportements concurrents des réseaux d’automates. À partir de la spécification du réseau d’automates, ils calculent des représentations abstraites de l’ensemble des comportements concernés par la propriété d’accessibilité recherchée. Ces représentations prennent la forme de graphes qu’ils ont appelés Graphes de Causalité Locale (GCL). Les abstractions faites oublient délibérément une partie de l’information sur l’ordre ou l’arité des transitions locales, résultant ainsi en des approximations supérieures et inférieures des comportements du modèle concret. Une analyse du GCL permet d’identifier les propriétés qui sont soit nécessaires, soit suffisantes à l’accessibilité étudiée.
Le principal avantage de cette méthode est une complexité très réduite comparée à une vérification formelle exacte : ce sont des approches exponentielles selon le nombre d’états au sein d’un seul automate, mais polynomiales selon le nombre d’automates. Ce qui permet de garantir leur applicabilité pour l’étude de la dynamique de très grands réseaux où chaque automate n’a que peu d’états locaux, ce qui est typiquement le cas des modèles qualitatifs des réseaux biologiques. Cependant, il existe un risque d’obtenir une réponse non concluante pour le modèle concret, nécessitant alors de raffiner l’analyse de la dynamique.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
1 Introduction 
1.1 Contexte & Motivations
1.2 Les systèmes biologiques : modélisation & analyse
1.3 Intégration des donnée de séries temporelles : un pas vers la modélisation chronométrique
1.4 Contributions
1.5 Organisation du manuscrit
1.6 Notations
2 Modélisation et analyse des systèmes biologiques 
2.1 Introduction
2.2 État de l’art des modélisations des réseaux de régulation biologique
2.2.1 Graphe des Interactions
2.2.2 Modélisations Discrètes
2.2.3 Modélisations Hybrides
2.3 État de l’art de l’intégration des données quantitatives
2.3.1 Inférence des RRB à partir des données expérimentales
2.3.2 Valider les modèles à partir des données expérimentales
2.4 État de l’art de la vérification des propriétés dans les modèles
2.4.1 Réduction de Modèles
2.4.2 Opération algébrique sur les Diagrammes de Décision
2.4.3 Interprétation abstraite
2.4.4 Vérification des propriétés quantitatives
2.5 Discussion
3 Intégration des séries temporelles dans les réseaux d’automates asynchrones 
3.1 Préliminaires
3.2 Identification des motifs dans les réseaux de régulation biologique
3.2.1 Définition des réseaux de régulation type RSTC
3.2.2 Une définition des motifs dans les réseaux de régulations biologiques type RSTC
3.2.3 Identification des motifs minimaux
3.2.4 Des réseaux de régulation biologique vers les réseaux d’automates asynchrones
3.3 Intégration des séries temporelles
3.3.1 Les séries temporelles
3.3.2 Raffinement de la dynamique dans les réseaux d’automates asynchrones
3.4 Évaluation par analyse statistique des traces
3.4.1 Définition de trace et de trace acceptante
3.4.2 Calcul des proportions de traces acceptantes
3.5 Discussion
4 Analyse statique des propriétés quantitatives dans les réseaux d’automates stochastiques 
4.1 Préliminaires
4.2 Définitions préliminaires
4.2.1 Définition du problème d’accessibilité
4.2.2 Définition d’un réseau d’automates stochastiques (SAN ) .
4.2.3 Approche pour la construction de notre analyse statique
4.3 Une sémantique probabiliste pour la dynamique des réseaux d’automates stochastiques
4.4 Interprétation Quantitative de l’Abstraction des Scénarios
4.4.1 Définitions & propriétés préliminaires
4.5 Approximations Inf et Sup de la probabilité et des délais d’accessibilité
4.5.1 Structures abstraites pour l’évaluation quantitative
4.5.2 Approximation Inf de la probabilité et borne Inf du délai d’accessibilité
4.5.3 Approximation limites des probabilités et des délais d’accessibilité
4.6 Discussion
5 Identification des bifurcations dans les réseaux d’automates 
5.1 Préliminaires
5.2 Outils pour les sections suivantes
5.2.1 Rappels de quelques définitions
5.3 Définition de la bifurcation
5.3.1 Définition formelle de la notion de bifurcation
5.3.2 Idée générale pour l’identification des bifurcations et principales contributions
5.4 Approximations Inf des états/transitions de bifurcations
5.4.1 Définition
5.5 Approximation Sup des états/transitions de bifurcations
5.5.1 Définition
5.6 Présentation de la programmation par ensemble de réponses (ASP)
5.6.1 Le paradigme
5.6.2 Éléments de syntaxe et de sémantique
5.6.3 Exemple basique d’utilisation de l’ASP
5.7 Implémentation en ASP de notre approche pour l’identification des bifurcations
5.7.1 Déclaration des états locaux, des transitions et des états
5.7.2 Implémentation des approximations Sup et Inf de l’accessibilité en ASP
5.7.3 Déclaration de s b , t b, et su
5.7.4 (I1 # ) déclaration de ¬ OA(s u → ∗ g 1 )  5.7.5 (I2 # ) déclaration de UA(s b → ∗ g 1 )
5.7.6 Implémentation en ASP de l’accessibilité avec le dépliage
5.7.7 (I3) déclaration de s b ∈ unf -prefix(s 0 )
5.7.8 (I3 # ) déclaration de UA(s 0 → ∗ s b)
5.8 Discussion
6 Applications sur des exemples biologiques 
6.1 Préliminaires
6.2 Applications de l’intégration des données : simulations et analyses
6.2.1 La différenciation cellulaire : cas des cellules de la peau
6.2.2 Choix de modélisation et hypothèses de simulations
6.2.3 La simulation stochastique et résultats
6.2.4 Analyse statistique de la simulation
6.3 Applications de l’identification des bifurcations sur des exemples biologiques
6.3.1 Présentation des modèles biologiques étudiés
6.3.2 Description de la méthode
6.3.3 Résultats
6.3.4 Évaluation quantitative (probabiliste)
6.4 Discussion
7 Conclusion et perspectives
7.1 Contributions
7.2 Perspectives
Bibliographie 

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *