Télécharger le fichier pdf d’un mémoire de fin d’études
Les bases de données de réseaux
Afin de nous aider à reconstruire des réseaux métaboliques, nous disposons de bases de données métaboliques de références. Plusieurs existent mais dans notre étude, nous nous sommes intéressés à MetaCyc [5] de la librairie BioCyc, KEGG (Kyoto Encyclopedia of Genes and Genomes) [14] ou encore BiGG (Biochemical, Genetic and Genomic) [16].
L’espèce d’étude
Cette étude porte sur une microalgue haptophyte de l’ordre des Isochrysidales. Les algues haptophytes représentent la source de production la plus importante de biomasse océanique et sont issues d’une endosymbiose secondaire d’une algue rouge à l’intérieur d’un organisme eucaryote non-photosynthétique. Notre espèce a été isolée de Tahiti et désignée sous le nom d’Isochrysis affinis galbana. Elle fut rebaptisée plus récemment en Tisochrysis lutea (T. lutea) en référence à la couleur orange de ses cellules. C’est une espèce largement étudiée en raison de son utilisation dans l’aquaculture en tant que matière première pour les mollusques et les crustacés notamment dans les taux de production d’acides gras polyinsaturés tels que l’acide docosahexaénoïque (DHA). Elle est classifiée dans les Isochrysidacées dont l’information sur la reproduction sexuelle et sur le niveau de ploïdie reste encore inconnue [3, 4, 9, 27].
Les microalgues sont des organismes eucaryotes photosynthétiques ayant une part importante dans les processus biologiques. En effet, elles sont capables de fixer le CO2, de produire de l’oxygène, de recycler des nutriments et ont un taux de croissance rapide. Pour comprendre la biologie de ces organismes notamment, vis à vis de leurs processus métaboliques et de leurs régulations, des études sont réalisées via des approches au niveau du système telles que la reconstruction de réseaux à l’échelle du génome (Genome Scale Model ou GSM). Ces réseaux sont reconstruits, complétés et améliorés manuellement [9, 13, 24].
Les modèles utilisés
Pour permettre la reconstruction de réseaux métaboliques, des organismes modèles sont utilisés. Arabidopsis thaliana, une plante terrestre, est l’un des modèle d’étude les plus utilisés en science du fait que ce fut la première plante à fleur à être séquencée et que son génome soit bien annoté. Il peut être utilisé pour représenter à la fois les types cellulaires photosynthétiques et non photosynthétiques [22]. Chlamydomonas reinhardtii est une microalgue de la lignée verte modèle dans l’étude des processus cellulaires spécifiques aux plantes tels que la photosynthèse, la mobilité, le rythme circadien ou encore le contrôle du cycle cellulaire. Son génome est le mieux annoté et le mieux nettoyé ce qui en fait un système idéal dans l’étude du métabolisme des algues [13]. Ectocarpus siliculosus est un modèle d’étude biologique chez les algues brunes (Straménopiles) [24]. Enfin, Synechocystis sp. PCC 6803 [17] est une cyanobactérie unicellulaire.
Objectifs de l’étude
L’objectif de ce stage est de reconstruire le réseau métabolique de T. lutea de façon automatisée via les annotations expérimentales et in silico et via l’orthologie vis à vis de quatre espèces dont les réseaux métaboliques sont connus : Arabidopsis thaliana, Chlamydomonas reinhardtii, Ectocarpus siliculosus, Synechocystis sp. PCC 6803. Le second point d’analyse est de vérifier ce nouveau réseau métabolique par rapport à celui reconstruit manuellement par l’équipe Dyliss en se focalisant sur une voie métabolique spécifique : la voie de biosynthèse de la carnosine.
Matériels et Méthodes
Outils utilisés
Au cours de ce stage, nous avons utilisé des outils situés au niveau du carré bleu à gauche de la figure 2. Au travers de cette partie, un détail de ces outils va vous être présenté.
Outils de reconstruction des réseaux métaboliques
Afin de reconstruire de façon automatique un « draft » de réseau métabolique via les annotations génomiques, le logiciel Pathway-Tools a été utilisé. Celui-ci est implémenté de l’outil PathoLogic qui permet de créer une nouvelle base de données de voies métaboliques/génomes (Pathway/Genome DataBase ou PGDB) propre à notre organisme à partir du génome annoté de ce dernier. Cette PGDB contient toute l’information génomique de cet organisme telle que les gènes, les protéines, les réactions biochimiques et les voies métaboliques prédites pour un organisme donné. PathoLogic permet la reconstruction de GSM en se basant sur une PGDB de référence à savoir MetaCyc [15]. Son utilisation dépend de la taxonomie. Celle-ci correspond à celle contenue sur le site NCBI Taxonomy (https://www.ncbi.nlm.nih.gov/taxonomy) soit pour notre étude Cellular organisms > Eukaryota > Haptophyceae > Isochrysidales > Isochrysidaceae > Tisochrysis > Tisochrysis lutea. La version du logiciel utilisée au moment de ce stage est la 20.5.
Quant à la reconstruction du « draft » basé sur l’orthologie, l’outil Pantograph a été utilisé au sein du workflow AuReMe qui contient aussi OrthoMCL [20] et InParanoïd [26]. Ces deux derniers logiciels identifient les paires de protéines orthologues au travers de BLAST [2] fournissant ainsi des sorties qui sont ensuite combinées en utilisant Pantograph [21] pour créer un réseau métabolique. Pantograph se sert du SBML d’un réseau modèle (template), d’une table contenant les orthologies démontrées entre les gènes du template et les gènes de l’organisme étudié (cette table est fournie par les sorties d’OrthMCL et d’InParanoïd), d’une table contenant les caractéristiques phénotypiques d’une condition d’étude donnée et d’une table contenant les améliorations réalisées manuellement.
Les réseaux ainsi reconstruits sont contenus dans des fichiers au format SBML (System Biology Markup Language) [12]. Ces fichiers présentent les réactions, les compartiments et les métabolites de l’organisme.
Outils permettant de « combler les lacunes » (Gap-filling)
Le gap-filling est une étape nécessaire aux reconstructions de réseaux métaboliques. En effet, de nombreux pathways sont incomplets à l’issue des logiciels Pathway-Tools ou Pantograph, et cette étape permet d’ajouter des réactions absentes du réseau qui pourraient être retrouvées si l’annotation était de meilleure qualité. L’un des problèmes inhérent au gap-filling est que les identifiants de réactions et des métabolites entre les modèles utilisés ne proviennent pas toujours des mêmes bases de données. Pour permettre une unification de ces identifiants, l’équipe Dyliss a développé l’outil Samifier. Cet outil est une plateforme d’aide à la décision possédant une interface graphique. Il permet ainsi de réaliser une étape d’unification de différents identifiants sur une base de données commune, ici, MetaCyc pour ensuite permettre l’étape de gap-filling [29].
Cette étape est effectuée avec l’outil Meneco (Metabolic Network Completion) qui réalise un gap-filling topologique, c’est à dire la complétion du graphe [25]. Il est employé après la fusion des réseaux reconstruits par annotation et par orthologie au travers du workflow AuReMe. Il suggère des réactions à ajouter, à partir d’une base de données de référence et de composés limitatifs du milieux de croissance, appelés seeds. Ces réactions sont suggérées dans le but de savoir si il est possible de satisfaire un critère de productibilité afin d’aboutir à un réseau métabolique topologiquement fonctionnel. Ce critère correspond à un ensemble de métabolites de la biomasse cibles, nommées targets, démontrées produites expérimentalement au travers de cofacteurs déjà présent dans la cellule (par exemple : ATP, ADP, NAD(P), Cytochrome c, etc.).
Curation manuelle
Après l’étape de gap-filling, il arrive que la biomasse ne soit toujours pas produite. Un travail de raffinement sera donc nécessaire afin de produire de la biomasse. La curation manuelle consiste à apporter des modifications au modèle dans le but d’inclure une connaissance approfondie des biologistes et de la littérature permettant ainsi l’enrichissement de la qualité d’une reconstruction d’un modèle.
Outil d’analyse des réseaux métaboliques
Concernant l’analyse de ces reconstructions, ici, on a utilisé l’analyse de l’équilibre des flux (Flux-balance analysis ou FBA) qui calcule le flux de métabolites à travers le réseau métabolique pour permettre de prédire le taux de croissance d’un organisme. Cette analyse est une méthode pour confirmer que chacun des composants de la biomasse peut-être synthétisé par le réseau métabolique dans une condition environnementale donnée ce qui en fait un moyen permettant la validation des modèles. Ce procédé se base sur des contraintes quantitatives à savoir les coefficients stœchiométriques associés au flux de métabolites à travers le réseau [23]. En plus de la FBA, l’analyse de la variabilité de flux (flux variability analysis ou FVA) est aussi employée pour tester les flux en regardant quelles sont les réactions essentielles, les réactions alternatives et les réactions bloquées du flux. Ainsi la FVA est un moyen de tester la robustesse du modèle [10]. Ces deux méthodes d’optimisation des flux sont employés au travers de la boîte à outil COBRApy [17] également incluse dans AuReMe.
Espace de travail
AuReMe (Automatic Reconstruction of Metabolic model) [1] est un workflow comprenant une boîte à outils nommé PADMet (PortAble Database for Metabolism) [6], contenant à la fois des logiciels développés par l’équipe Dyliss et des outils conçus par d’autres équipes de recherche pour la reconstruction de réseaux. Ces outils permettent de reconstruire, de compléter, de manipuler, d’analyser et de visualiser des réseaux métaboliques. Ce workflow nous offre la possibilité de stocker les métadonnées favorisant ainsi leur exploration et leur distribution. Le but est de garantir une traçabilité et une reproductibilité des reconstructions. Cet environnement conduit de façon pratique le suivi de quatre étapes que sont la modélisation basée sur l’annotation, la modélisation basée sur l’orthologie, le gap-filling et la curation manuelle s’appuyant sur le package PADMet. AuReMe permet aussi la génération d’un wiki local pour la visualisation des données du modèle reconstruit tout en le reliant à une base de données de réaction telle que MetaCyc [28]. AuReMe est encapsulé dans une image Docker [7] avec des versions de bases de données (MetaCyc 20.0 et BIGG 2.3) facilitant sa distribution auprès de la communauté scientifique. L’utilisation de conteneurs Docker permet ainsi une utilisation isolée et autonome du workflow.
Données utilisées
Données pour T. lutea
Les données utilisées pour T. lutea [9] correspondent à son génome pour lequel nous disposons d’annotations expérimentales et in silico, et à son protéome expérimental et in silico. Les annotations et le génome sont utilisés pour la reconstruction du réseau par annotation avec le logiciel Pathway-Tools. Quant aux protéomes, ils servent aux reconstructions par orthologie, grâce au logiciel Pantograph. Les protéomes ont été au préalable fusionnés du fait que l’utilisation du protéome expérimental n’est pas suffisante pour produire un réseau fonctionnel. Les modèles in silico se basent sur des hypothèses notamment en terme de découverte de nouveaux rôles métaboliques des gènes individuels [22]. Les données comportent également un premier réseau métabolique, nommé réseau cœur reconstruit expérimentalement par Caroline Baroukh (INRA) correspondant au réseau primaire de T. lutea. Il contient approximativement 300 réactions. Ces données proviennent d’une collaboration avec le laboratoire Physiologie et Biotechnologie des Algues de l’IFREMER.
Données pour les modèles
Afin de permettre une reconstruction du réseau par orthologie, quatre organismes modèles ont été choisis en tant que référence : Chlamydomonas reinhardtii pour sa proximité taxonomique avec T. lutea ; Ectocarpus siliculosus car c’est une algue brune dont le réseau a été reconstruit par l’équipe Dyliss ; Arabidopsis thaliana car c’est l’organisme modèle chez les plantes ; Synechocystis sp car il a des propriétés de voies de synthèse des acides gras similaires à T. lutea [18].
Vérification du nouveau réseau métabolique
Dans l’objectif de vérifier ce nouveau réseau métabolique, une recherche des pathways associés aux métabolites réactant de la carnosine s’est effectuée par exploration du wiki généré à la reconstruction du réseau métabolique de T. lutea réalisée manuellement et finalisée en septembre 2016. Ce réseau a été obtenu par la combinaison manuelle des méthodes utilisées au cours de ce stage avec les versions identiques des modèles à l’exceptions de la version d’Ectocarpus siliculosus basée sur une version MetaCyc 17.0 [24]. Ensuite, des Blastp [2] ont été réalisés pour aligner une séquence protéique orthologue de T. lutea concernée par une réaction de ces pathways contre les protéomes des quatre organismes modèles dans le but de vérifier et de compléter les résultats visualisés dans le wiki. Pour ces Blastp, les paramètres utilisés sont ceux proposés par défaut par le logiciel du NCBI.
Résultats
Reconstruction automatique
A partir du procédé de reconstruction automatisé au travers du workflow AuReMe, les résultats suivants ont étés obtenus. Ils sont présentés dans le tableau 2 au fur et à mesure du processus de reconstruction. Parmi l’ensemble de ces résultats, la fusion du réseau expérimental et du réseau in silico issue de Pathway-Tools (logiciel extérieur à AuReMe), a permis d’obtenir 1788 réactions, 2168 métabolites pour 1966 gènes. 81,54 % des réactions sont associées à des gènes. L’étape de gap-filling a permis l’ajout de 18 réactions. Le réseau final, après la fusion, le gap-filling et la curation manuelle, a donné un réseau métabolique de 2490 réactions, 2790 métabolites et 3380 gènes dont 74,10 % des réactions sont associées à des gènes. Ce réseau obtient un taux de croissance de 74.8554653249 par l’analyse de la FBA. Quant à l’analyse de la FVA, elle donne les résultats suivant : 149 réactions essentielles, 352 réactions alternatives et 1989 réactions bloquées.
Vérification de la reconstruction automatique
Au travers de ce stage, un réseaux a été produit pour T. lutea par reconstruction au travers du workflow AuReMe comme expliqué dans la partie Matériels et Méthodes. Concernant ce réseau reconstruit, les résultats obtenus par l’analyse des flux nous permettent de déduire que le réseau de T. lutea croît sur son milieu de culture. Une vérification des résultats entre le réseau reconstruit manuellement et celui reconstruit de façon automatique au cours de ce stage a été entreprise en se basant sur l’exemple de la carnosine. Cette vérification, réalisée à partir du fichier au format padmet généré lors de la reconstruction automatique du réseau métabolique, a permis de reprendre et de corriger la figure. Cette figure est présentée ici comme figure 5. A la différence de la version précédente, la réaction RXN-6381 du pathway PWY-6381 n’est pas associée par orthologie avec Ectocarpus siliculosus du fait que la version du réseau utilisée ne soit pas la même. Une autre différence concerne la réaction HISTAMINOTRANS-RXN du pathway HISTSYN-PWY qui était associée à l’orthologie de trois des modèles en plus d’un résultat de Pathway-Tools. Avec le nouveau réseau, cette réaction est aussi associée au quatrième modèle : Chlamydomonas reinhardtii.
La création de cette figure permet d’illustrer le côté pratique du wiki et du format padmet. En effet, ils permettent de naviguer au sein du réseau métabolique tout en conservant les sources d’origines de chacune des données renfermées facilitant ainsi la traçabilité et la reproductibilité du processus de reconstruction.
Intérêt de la combinaison de données et de méthodes hétérogènes
Avec cette figure, on peut montrer que les reconstructions basées sur une méthodologie unique ne sont pas suffisantes dans le sens où l’on passerait à côté de réactions qui sont pourtant présentes. En effet, avec des Blastp réalisés entre la séquence protéique orthologue retrouvée dans le réseau reconstruit et les protéomes des modèles d’étude, certaines réactions enzymatiques manquantes, a priori, dans des modèles sont identifiées. Un exemple peut être la réaction HISTALDEHYD-RXN du pathway HISTSYN-PWY. En effet, cette réaction est identifiée chez Ectocarpus siliculosus et Chlamydomonas reinhardtii.
Pourtant, l’utilisation de Blatp avec les deux autres modèles montre sa présence. Ceci illustre une des limites des reconstructions automatisées avec les méthodes actuelles. La conséquence provient du fait que certaines réactions ne sont pas associées à des gènes même au sein des réseaux métaboliques pourtant considérés comme modèles. Ceci montre donc que la complémentation de données hétérogènes est un apport à la découverte de nouvelles données tant sur le modèle d’étude que sur les modèles de référence. L’exemple de la CARNOSINE-SYNTHASE-RXN (pathway PWY66-420) est probant. En effet, cette réaction semble absente chez tous nos modèles à l’exception de Chlamydomonas reinhardtii (par Pantograph). Si la reconstruction ne s’était effectuée que par orthologie avec Arabidopsis thaliana ou sur Synechocystis sp., cette réaction aurait été totalement absente.
Développement de nouvelles connaissances
Ces reconstructions sont aussi un moyen d’apport de connaissance sur les organismes modèles comme par exemple Ectocarpus siliculosus qui ne produit pas de β-alanine au travers de la L-aspartate. Pourtant, ce composé est retrouvé au sein de son organisme. Ectocarpus siliculosus devrait être capable de synthétiser de la carnosine avec la seconde voie de synthèse de la β-alanine. Une recherche avancée montre que la β-alanine peut-être synthétisée au travers de la L-aspartate grâce à une alpha-protéobactérie de l’ordre des Rhizobiales. Cette dernière est en effet un symbiote obligatoire de la paroi d’Ectocarpus siliculosus nommée Candidatus Phaeomarinobacter ectocarpi ou Ec32. La seconde voie de synthèse de la β-alanine n’a pas été mise en évidence chez cette algue brune [8, 25]. La réaction ASPDECARBOX-RXN a été perdue chez Ectocarpus siliculosus mais cette relation symbiotique avec cette bactérie permet le maintient de cette réaction.
L’autre point intéressant qui ressort de notre étude est d’établir le fait que l’association et la nécessité d’employer plusieurs méthodes de reconstruction est non seulement un bon moyen de réduire le besoin de gap-filling, mais aussi de permettre la reconstruction d’un réseau plus complet. L’utilisation de plusieurs modèles métaboliques, nous permet de vérifier la présence de certaines réactions que nous aurions omis autrement. En effet, la reconstruction du réseau métabolique de T. lutea à partir de plusieurs modèles d’étude est un moyen d’identifier des voies de biosynthèse spécifique. La complétion de méthodes hétérogènes est donc un moyen de permettre de compléter des pathways.
Conclusion et Perspectives
Les méthodes de reconstruction de réseaux métaboliques proposées actuellement ne sont pas suffisantes indépendamment pour générer un réseau métabolique complet. En effet, l’utilisation compilée de plusieurs méthodes hétérogènes comme celles basées sur l’annotation et celles basées sur l’orthologie est un moyen de reconstruire de meilleurs modèles. Le workflow AuReMe est une solution apportée par l’équipe Dyliss pour permettre de mettre en œuvre ce procédé. Son utilisation à travers la reconstruction du réseau métabolique de Tisochrysis lutea illustre l’intérêt de la compilation de ces méthodes notamment sur l’exemple de la biosynthèse de la carnosine. Le nouveau réseau réalisé automatiquement permet l’obtention de résultats sensiblement similaires au réseau reconstruit manuellement.
L’exemple de la voie de synthèse de la carnosine pose les bases de nouvelles trajectoires d’étude sur le fait qu’une relation symbiotique permet la croissance d’un organisme tel qu’Ectocarpus siliculosus. Une étude pourrait être entreprise pour rechercher ce genre de relation avec des symbiotes de T. lutea. De plus, ce pathway n’est pas unique. Une comparaison sur une plus grande échelle devrait être effectuée entre les réseaux métaboliques reconstruits manuellement et automatiquement pour T. lutea. De même, il pourrait être intéressant de comparer ce réseau entier avec le réseau primaire.
Un autre direction d’étude pourrait être de modifier la réaction de biomasse sur le réseau métabolique récemment produit avec de nouvelles données que l’Ifremer devrait apporter.
Enfin, il pourrait être enrichissant de comprendre les voies de synthèse des acides gras polyinsaturés et de comprendre pourquoi la souche mutée produit plus de lipide que la souche sauvage de Tisochrysis lutea [9].
|
Table des matières
I – Introduction
1. Contexte
1.1. Les réseaux métaboliques
1.2. Problèmes liés à la modélisation des réseaux métaboliques
1.3. Les bases de données de réseaux
1.4. L’espèce d’étude
1.5. Les modèles utilisés
2. Objectifs de l’étude
II – Matériels et Méthodes
1. Outils utilisés
1.1. Outils de reconstruction des réseaux métaboliques
1.2. Outils permettant de « combler les lacunes » (Gap-filling)
1.3. Curation manuelle
1.4. Outil d’analyse des réseaux métaboliques
1.5. Espace de travail
2. Données utilisées
2.1. Données pour T. lutea
2.2. Données pour les modèles
3. Pipeline de la réalisation du projet d’étude
3.1. Reconstruction automatique du réseau métabolique de Tisochrysis lutea
3.2. Vérification du nouveau réseau métabolique
III – Résultats
1. Reconstruction automatique
2. Analyse d’un pathway particulier : la voie de biosynthèse de la carnosine
IV – Discussion
1. Vérification de la reconstruction automatique
2. Intérêt de la combinaison de données et de méthodes hétérogènes
3. Développement de nouvelles connaissances
V – Conclusion et Perspectives
Glossaire
Bibliographie
Télécharger le rapport complet