Contexte général
Biologie des systèmes
Le fonctionnement de tout organisme vivant repose sur ses interactions moléculaires. La compréhension de ces interactions et de leurs dynamiques est le µ sujet de la biologie des systèmes (Kitano, 2002). C’est un domaine interdisciplinaire alliant mathématiques, informatique, physique, chimie, biologie, et biotechnologie, dont l’approche est d’analyser les systèmes biologiques à l’aide de modèles. La biologie des systèmes en informatique est apparue récemment, même si Turing (1952) a commencé des travaux bien avant, la conférence principale sur le domaine CMSB (Conference on Computational Methods in Systems Biology) n’a été fondée qu’en 2005. La connaissance du génome, du transcriptome et du protéome est fondamentale pour la biologie de systèmes, mais insuffisante étant donné qu’il s’agit uniquement de données statiques, et non dynamiques. Ces connaissances sont fournies par la bioinformatique. Pour analyser le génome, une approche fréquente est la recherche de motifs et l’alignement de séquences. La bioinformatique a par la suite été étendue à d’autres types de données statiques venant de l’étude du transcriptome et du protéome. On cherche par exemple à savoir quelle partie du génome encode un certain ARN messager (le transcriptome), qui lui-même permet d’exprimer des protéines (le protéome). De cette façon on peut déterminer quelles protéines peuvent être produites à partir de ce gène.
Modélisation de systèmes biologiques
Un problème de la biologie des systèmes est de reconstruire des connaissances pertinentes de la dynamique de systèmes biologiques à partir de données expérimentales. Par exemple, on peut acquérir la connaissance de dépendances entre les molécules par des méthodes d’apprentissage (Rao et al., 2007). Même si celles-ci peuvent permettre la compréhension de la dynamique des systèmes biologiques, elles restent insuffisantes pour les simuler ou prédire les conséquences d’un changement de systèmes, comme par exemple un knock-out de gènes. Une idée générale de la biologie des systèmes est donc de créer des modèles de système biologique, qui peuvent être simulés ou qui permettent de faire des prédictions du comportement de ce système. La modélisation est l’art de créer de tels modèles. Ceci est souvent fait par la coopération interdisciplinaire de biologistes, de chimistes, d’informaticiens et de mathématiciens. Différentes techniques de modélisation existent pour répondre à différents problèmes (De Jong, 2002), qui peuvent être faites à de multiples échelles (Cohen and Harel, 2007) : organisme, tissu, cellule, molécule, gène, etc … Ces interactions se passent souvent au cours d’une boucle de création de modèles, suivie par une validation via des simulations ou des prédictions. Si la validation échoue, il faut comprendre les raisons, et passer de nouveau à la création d’un meilleur modèle. Ceci peut aussi nécessiter de refaire des expériences pour valider ou réfuter des hypothèses biologiques. Mais dans la plupart des cas, le problème a déjà été résolu dans la littérature biologique, qu’on doit donc parcourir pour chercher et extraire les connaissances manquantes.
Modèles mathématiques déterministes
Les modèles les plus fréquents de la dynamique de systèmes biologiques sont des modèles mathématiques qui sont des systèmes d’équations différentielles. Les équations les plus fréquentes sont les équations différentielles ordinaires (EDOs). Elles permettent de représenter l’évolution au cours du temps des concentrations de chaque espèce d’un système de réactions chimiques de façon déterministe et continue. Lorsque les paramètres des EDOs et les concentrations initiales des espèces sont fixés (par connaissance ou approximation), il est possible de simuler l’évolution des concentrations au cours de temps par ordinateur (Thieffry and De Jong, 2002). On peut voir, à titre d’exemple, avec la figure 1.1 le modèle d’EDOs du cas classique de la dégradation enzymatique. Il décrit la transformation d’un substrat S en un produit P , en présence d’une enzyme E, avec la formation d’un complexe intermédiaire C.
On retrouve les EDOs par exemple avec le contrôle du cycle cellulaire (Tyson and Novak, 2001), ou encore, pour l’analyse de réseau moléculaire impliqué dans la formation des rythmes circadiens (Leloup and Goldbeter, 2000). Des bases de données, telles que BioModels (Chelliah et al., 2013), fournissent des collections de modèles de ce type, elles sont souvent exprimées dans le langage SBML (systems biology markup language) (Hucka et al., 2003). Les EDOs peuvent aussi modéliser des aspects de systèmes biologiques, qui ne sont pas directement dérivés à partir d’un réseau de réactions. Par exemple, le pancréas peut être modélisé comme un contrôleur de la glycémie – la concentration du glucose dans le sang. Quand la glycémie augmente au-delà d’un seuil, de l’insuline est sécrétée par le pancréas pour la réduire. Dalla Man et al. (2007) utilise des systèmes d’EDOs pour modéliser le pancréas comme un contrôleur de la glycémie, tel que les modèles puissent simuler l’évolution de la glycémie postprandiale humaine – après un repas. Quand les paramètres d’un système d’EDOs sont inconnus, on peut essayer de les estimer à partir de données expérimentales. C’est le cas, par exemple, dans le modèle de Dalla Man et al. (2007). Cependant, en général, la qualité des valeurs estimées des paramètres ne sera bonne que si les données expérimentales disponibles sont suffisantes pour bien caractériser les paramètres manquants. Nous notons finalement que des systèmes d’équations différentielles partielles (EDPs) sont utilisés pour modéliser des systèmes biologiques spatiales (voir par exemple Batmanov (2014)). Les systèmes d’équations de réaction-diffusion qui prennent en compte des données spatiales sont des EDPs. On peut voir l’exemple simple de l’équation de Kolmogorov–Petrovsky–Piskunov (Kolmogorov et al., 1937) qui considère la concentration d’une espèce dans un espace à une dimension. Les solutions des équations de réaction-diffusion permettent de représenter de nombreux comportements, Turing (1952) par exemple décrit l’apparition autonome et naturelle de patterns à partir d’un état uniforme et homogène.
Modèles stochastiques
Les approches de modélisation déterministes basées sur des équations différentielles font l’hypothèse implicite que les concentrations des espèces considérées sont présentes en grande quantité, elles ne varient pas énormément sur plusieurs instances d’un même système biologique modélisé. Cependant, lorsque des espèces sont présentes en petit nombre cette hypothèse ne s’applique plus, et il faut passer à la modélisation stochastique. Les modèles stochastiques les plus fréquents sont les chaînes de Markov à temps continu (CTMC) Kemeny and Snell (1976). Elles formalisent l’évolution d’un système par des transitions entre différents états, et à chaque transition est affectée une probabilité de se produire. Puis, il est possible simuler l’évolution dynamique d’une CMTC à l’aide d’un algorithme de Gillespie (Gillespie, 1976). Un exemple pour un modèle stochastique basé sur des CTMCs est l’étude de la régulation de l’expression du bactériophage lambda (Arkin et al., 1998), ou l’activité des promoteurs transcriptionnels de faible activité (Kaern et al., 2005). Kuttler and Niehren (2006) montre, qu’à partir des CTMCs de ces modèles ont également été produits des programmes dans le π-calcul stochastique (John et al., 2008 ; Regev et al., 2000).
Modèles par réseaux de réactions
Des systèmes biologiques peuvent être aussi modélisés directement par des réseaux de réactions chimiques.
Modèles de graphes informels
Des biologistes et biochimistes ont représenté des réseaux de réactions chimiques sous de multiples formes graphiques, pour regrouper leurs connaissances.
On retrouve, par exemple, le SubtiWiki (Mäder et al., 2012) qui regroupe l’ensemble des connaissances biologiques concernant le métabolisme de la bactérie Bacillus Subtilis, ou encore la base de données KEGG (Kanehisa et al., 2007) et EcoCyc (Karp et al., 2002) qui regroupent un ensemble de données relatives aux génomes, aux voies métaboliques et aux composés biochimiques. Un graphe exemple du SubtiWiki est illustré dans la figure 1.3. Il est possible de faire de la simulation de ces graphes lorsque les données numériques sont disponibles, par l’utilisation d’outils tels que E-cell, Gepasi, BioSpice. Cependant, il n’est pas possible d’appliquer des raisonnements biologiques sur ces modèles, même pour ceux contenant des valeurs quantitatives, ils ne fournissent pas de sémantique formelle permettant de simuler ou analyser le comportement des systèmes biologiques modélisés.
Modèles formels
Une approche formelle de la définition de systèmes de réactions chimiques a été introduite par Feinberg (1987, 2019). Son formalisme considère un ensemble d’espèces, dont on fait l’abstraction de toute structure interne (on ne regarde ni sa structure, ni sa composition atomique).
Un réseau de réactions est un ensemble de réactions chimiques. Chaque réseau peut être représenté graphiquement par un graphe biparti, suivant l’esprit des graphes de réseaux de Petri (1966), aussi appliqué en biologie des systèmes (Herajy et al., 2017). Le graphe du réseau, avec l’unique réaction décrite ci-dessus, est donné en figure 1.4. Dans le graphe biparti, à chaque réaction est assigné un nœud “boîte”, dans lequel le nom de la réaction est inscrit, et auquel l’expression cinétique est annotée. Puis, à chaque espèce est associé un nœud “cercle” dans le graphe, dans lequel le nom de l’espèce est inscrit. Chaque substrat est lié à sa réaction par une arête orientée vers la réaction, sur laquelle la multiplicité du substrat est annotée, si elle est différente de 1. Symétriquement, chaque produit est lié à sa réaction par une arête orientée vers le produit, sur laquelle la multiplicité du produit est annotée, si elle est différente de 1. Les graphes bipartis d’un réseau représentent toute l’information du réseau sans perte. De ce fait, nous pouvons et allons définir des réseaux de réactions chimiques par leur graphe. Par exemple le réseau de la dégradation enzymatique en figure 1.5 contient quatre espèces: un substrat S , un complexe C, un produit P, et une enzyme E. Et il a trois réactions: la réaction nommée 1 qui combine un substrat S avec une enzyme E dans un complexe C, sa réaction inverse nommée −1, et la réaction nommée 2 qui transforme le complexe C en un produit P en libérant une enzyme E.
Sémantiques des réseaux
Un modèle formel est obtenu par le choix de la sémantique d’un réseau de réaction. Fages and Soliman (2008) montrent qu’à chaque réseau de réactions chimiques peut être assigné plusieurs sémantiques : stochastique, déterministe, non déterministe, booléenne; et que ces sémantiques sont de plus en plus abstraites. La sémantique déterministe est donnée par l’ensemble d’équations différentielles inférées du réseau de réactions, qui décrit l’évolution des concentrations de chaque espèce du système dans le temps.
|
Table des matières
Introduction
1 Introduction
1.1 Contexte général
1.1.1 Biologie des systèmes
1.1.2 Modélisation de systèmes biologiques
1.1.3 Modèles mathématiques déterministes
1.1.4 Modèles stochastiques
1.1.5 Modèles par réseaux de réactions
1.1.6 Réseaux sans information cinétique
1.2 Contexte local
1.2.1 Réseaux avec information cinétique partielle
1.2.2 Sémantique de différences des réseaux
1.2.3 Tâche de prédiction de changements
1.2.4 Algorithme de prédiction de changements
1.2.5 Application à la surproduction de la Surfactine
1.3 Problématique
1.3.1 L’approximation de John
1.3.2 Un exemple de surapproximation
1.3.3 Calcul exact d’abstractions versus heuristiques
1.3.4 L’ajout de contraintes cinétiques
1.4 Contributions
1.4.1 Réécriture exacte pour l’abstraction booléenne
1.4.2 Calcul exact d’abstractions de différence
1.4.3 Outil de prédiction de changements et heuristiques
1.5 Autres travaux liés
1.5.1 Prédiction de knock-out par l’optimisation à deux niveaux
1.5.2 Interprétation abstraite
1.5.3 Réseaux booléens
1.5.4 Projet BestBioSurf
2 Préliminaires
2.1 Ensembles et fonctions
2.2 Σ-algèbres
2.3 Σ-structures
2.4 Σ-abstractions
2.5 Ajout de constantes
2.6 Σ-expressions
2.7 Polynômes
2.8 Équations
2.9 Systèmes d’équations
2.10 Modes élémentaires
2.11 La logique du premier-ordre
3 Descriptions logiques de différences
3.1 La Σ-algèbre de n-uplets S n
3.2 Abstraction de différences
3.2.1 De partition vers abstraction
3.2.2 L’abstraction vers ∆3
3.2.3 L’abstraction vers ∆6
3.3 Logique du premier-ordre avec n-uplets
3.3.1 Syntaxe et sémantique
3.3.2 Liens avec l’algèbre des n-uplets
3.3.3 Application aux équations polynomiales
3.3.4 Encoder les n-uplets en logique standard
3.3.5 Propriété de commutation
3.4 Abstraire les différences de solutions
3.5 Description logique d’application de fonctions
4 Réseaux de réactions avec cinétique partielle
4.1 Systèmes de réactions chimiques
4.1.1 Sans cinétique
4.1.2 Avec cinétique
4.1.3 Avec cinétique modulo similarité
4.2 Cinétique partielle des modificateurs
4.3 Réseaux avec cinétiques partielles: le langage de modélisation
4.4 Syntaxe graphique
4.5 Exemple du réseau de régulation PIlv − Leu
4.5.1 Modélisation biologique
4.5.2 Modélisation formelle
4.6 Exemple de réseau métabolique
4.7 Modes élémentaires
Conclusion
Télécharger le rapport complet