Escherichia coli, une bactérie d’intérêt

Télécharger le fichier pdf d’un mémoire de fin d’études

Métabolisme et réseaux métaboliques

Afin de caractériser les différentes fonctions de chaque organisme au sein de la communauté ou leurs interactions avec l’hôte il est possible d’utiliser les réseaux métaboliques. Le méta-bolisme fait référence aux transformations biochimiques qui se font sous l’action d’enzymes catalysant une réaction [12]. Un réseau biologique est une représentation abstraite et simplifiée d’un système biologique, rendant compte des éléments le composant et de leurs interactions. Un réseau métabolique rend compte de toutes ces interactions sous la forme d’un graphe représen-tant les différents liens entre métabolites et réactions (Figure 1). Il peut représenter différentes échelles du métabolisme, que ce soit au niveau cellulaire, d’un organisme, voire d’une commu-nauté toute entière. Cette approche facilite grandement notre compréhension de la dynamique des processus biologiques. En effet chaque réseau peut être représenté visuellement sous la forme d’un graphe et plusieurs outils permettent d’en extraire les informations désirées [12]. Ces réseaux sont construits grâce à la combinaison des données génomiques avec celles de bases de données fonctionnelles [7]. En effet, les enzymes catalysant les réactions sont des protéines qui sont produites via des gènes. Il est donc possible, via l’utilisation de bases de données omiques, de reconstruire les réseaux métaboliques à partir de données génomiques. Pour une étude précise il est important de coupler ces résultats avec des données de méta-transcriptomiques, la présence d’un gène ne garantissant pas son expression. Le temps nécessaire pour la reconstruction com- plète d’un réseau métabolique est très long, de quelques mois à plusieurs années, et le réseau évolue constamment au fil des ans, s’affinant et s’enrichissant via l’apport de nouvelles données expérimentales [17].

Méthodes de reconstruction

Un GSM 3 permet de représenter toutes les réactions qu’un organisme peut produire à partir de son information génétique sous forme de réseau. Un protocole en 96 étapes a été mis en place pour la construction de GSM robustes et reproductibles [17]. Les premières étapes visent la construction d’un réseau brut, d’un ”brouillon”. La qualité de cette première reconstruction dépend grandement de celle des annotations du génome. En effet, si la qualité des annotations ou celle de la base de données sont erronées ou incomplètes, cela risque de générer un nombre important de faux positifs et de faux négatifs [17]. Ensuite plusieurs étapes importantes viennent améliorer et ajuster le modèle de manière itérative. Il existe deux types d’approches principales pour la reconstruction de réseaux métaboliques, ou deux catégories de modèles [6]. La première est une approche topologique basée sur l’utilisation de ”sources”, c’est à dire d’un milieu de culture qui va servir d’entrée à notre réseau et l’activer. Elle est qualitative.
Figure 1. Schéma d’un réseau métabolique simple, contenu dans l’encadré orange, reliant les réactions Ri aux métabolites en bleu. Par exemple la réaction R3 catalyse la transformation du composé B en composé D. La graine A va venir activer le réseau qui va alors produire en sortie le composé F. Si F est un composé que l’on cherche à obtenir en sortie de réseau, on l’appelle ”cible”.
La seconde est une approche de flux, qui permet l’analyse dynamique d’un réseau. C’est une approche quantitative bien plus précise, mais beaucoup plus complexe à mettre en place. En effet elle nécessite d’avoir accès à de nombreuses ressources empiriques et celles-ci sont encore très incomplètes. C’est encore plus le cas pour des approches métagénomiques. En effet si le niveau de précision nécessaire n’est pas toujours disponible pour les organismes modèles, il l’est encore moins pour les ”non-modèles” très présents en métagénomique.

Objectifs du travail

Au total, 34 échantillons de colon ont été récupérés par l’INRAE chez des porcelet de 7 jours traités ou non à la colistine, un antibiotique ciblant les bactéries Grams-. Le but de cette étude initiale était d’étudier le rôle des Grams- et d’E. coli au sein du microbiote. Pour cela les métabo-lites présents dans les deux groupes d’échantillons contrôles et traités ont été identifiés et quanti-fiés. Ils constituent nos données expérimentales. Les génomes de chacune des souches présentes dans ce microbiote ont été identifiés par des techniques de métagénomique et un seul échantillon, l’échantillon numéro 9, a servi à la reconstruction des réseaux métaboliques, le traitement mé-tagénomique n’étant pas encore finalisé pour les autres échantillons. Ce travail se focalise sur une reconstruction pour une analyse topologique. La première étape est d’établir une version brute du réseau, en combinant de manière automatisée les données génomiques obtenues expé-rimentalement et les informations des bases de données GO 4, protéiques et métabolomiques. La seconde étape de ce travail est un début d’analyse des prédictions des modèles reconstruits. Le processus repose sur la comparaison des métabolites prédits par le modèle avec les méta-bolites identifiés empiriquement. Il se focalisera dans un premier temps sur un sous-ensemble des métabolites obtenus expérimentalement, puis une analyse plus poussée sera réalisée en se focalisant sur deux composés d’intérêt, le succinate et le tryptophane.

Matériel et méthodes

Obtention des données métagénomiques

Un séquençage amplicon avait préalablement été réalisé à l’INRAE, où seule une partie des gènes codant pour l’ARN ribosomal 16S avait été séquencé. Cette partie de l’ADN est très conservée entre espèces et permet de les différencier. Cependant cette méthode permet d’identi-fier les bactéries au mieux à l’échelle du genre et de l’espèce et seul un core génome de l’espèce peut alors être utilisé pour reconstruire des réseaux, ce qui peut manquer de précision dans cer-tains cas. Un nouveau séquençage a été réalisé via une technique de métagénomique shotgun. En ce qui concerne l’échantillon 9 qui a servi à la reconstruction, il s’agit d’un échantillon de colon de porcelet nouveau-né de 7 jours non traité duquel a été extrait l’ADN. Le séquençage a été réalisé en utilisant la technologie Nanopore – avec un kit de préparation de la librairie SQK-LSK109 – et un séquenceur MinION Mk1B. La technologie Nanopore se base sur la détection du signal électrique propre à chaque nucléotide et ne nécessite pas d’amplification PCR. Elle permet ainsi le séquençage de long reads ce qui facilite grandement l’identification des souches aux étapes suivantes, tout en s’affranchissant du biais quantitatif dû à la PCR. Les reads obte-nus ont été classés par genre ou par espèce avec Kraken 2 v.2.0.9, un système de classification taxonomique basé sur les k-mers. Ils ont été filtrés en ne conservant que ceux correspondant à des espèces présentes au-dessus du seuil arbitraire de 0,5% d’abondance des reads. Beaucoup de reads ont été perdus à cette étape, une majorité de cette perte provenant de reads de mau-vaise qualité ou appartenant à l’hôte. Pour chaque groupe de reads classés en un fichier unique fastq par espèce, l’outil ORI v0.0.2 leur attribue ensuite un génome de référence. Il se base sur un échantillon de 4000 reads longs sélectionnés au hasard dans chaque groupe et crée des sous-groupes de reads [15]. Ce sont ces génomes formant une moyenne représentant au mieux nos reads qui vont être conservés pour la suite des analyses. En effet en métagénomique il est difficile de récupérer des génomes complets et cette approximation facilitera le travail de re-construction de réseaux métaboliques par la suite. De plus, dans un soucis de simplification, seuls les génomes déterminés par ORI avec une présence supérieure au seuil arbitraire de 30% dans chaque groupe ont été conservés pour la suite. Parmi cette sélection, un seul génome a été conservé pour les souches très proches génétiquement afin d’éviter les redondances inutiles. Cette estimation statistique a été obtenue grâce à Orthofinder v2.5.2 qui compare les protéines présentes chez chaque souche et estime un degré de similarité. Les annotations ont ensuite été harmonisées pour tous les génomes conservés grâce à Eggnogmapper v2.0.1 afin de permettre plus tard la comparaison des réseaux métaboliques de chaque organisme. Pour plus de détails sur la méthode d’obtention des génomes annotés à partir des échantillons de colon de porce-let il est possible de se référer aux rapports de Rania OUAZHAROU et de Jacky AME qui se sont chargés de ce travail dans le cadre de leurs stages de M2 du master bio-informatique de l’Université de Rennes 1.

Présentation des outils principaux

Pathway Tools, un outil de reconstruction

Un des outils centraux à cette première reconstruction automatique est Pathway Tools [11]. Pathway Tools est un outil permettant de reconstruire un réseau à partir de génomes annotés et de créer des bases de données de voies métaboliques à partir de ces reconstructions appelées PGDB 5. L’algorithme de Pathway Tools prédit les voies métaboliques à partir des enzymes présentes dans le génome, en faisant le lien avec les informations contenues dans la base de données MetaCyc [10]. Pour cela, il utilise les annotations du génome uniquement et ne fait pas d’analyses de séquences ou de prédictions de fonctions.

Padmet et Metage2Metabo, deux outils d’exploration

Ces deux outils ont été développés à l’INRIA de Rennes. Ils ont pour but de faciliter l’ex-ploration des réseaux à l’aide de diverses options permettant d’en extraire des informations es-sentielles. Padmet est un format de fichier qui permet de stocker un réseau métabolique. C’est aussi une librarie qui permet de manipuler ces informations et de faire notamment des comparaisons de réseaux relatives à la présence/absence de réactions. [2].
Metage2metabo est un ensemble d’outils permettant de faire une analyse topologique des ré-seaux en manipulant des données au format SBML 6. Il permet d’étudier la complémentarité métabolique au sein d’une communauté microbienne et d’identifier les micro-organismes es-sentiels pour l’activation d’un processus métabolique cible [3].

Reconstruction des réseaux métaboliques

Récupération des identifiants MetaCyc

Les métabolites produits pas la communauté microbienne intestinale des 34 échantillons ont été caractérisés au sein de deux groupes par l’INRAE, en séparant les échantillons contrôle et traités. Ils ont été identifiés et quantifiés par spectrométrie de masse et RMN 7. Ces analyses ont permis de déterminer la présence de 857 composés, ainsi que leur abondance relative entre échantillons contrôles et traités. Une récupération semi-automatique des identifiants MetaCyc a été initiée pour chaque métabolite des données expérimentales. Cette récupération s’est ba-sée sur les identifiants CAS, HMDB, KEGG, PUBCHEM et les noms chimiques disponibles dans le fichier fournit par l’INRAE. Tous les identifiants des molécules n’étaient pas présents et plusieurs croisements ont été réalisés avec les données extraites des fichiers suivants :
— All_metabolites_HMDB.xml du 17/11/2021 (https ://hmdb.ca/downloads)
— MetaCyc.25.0.padmet. (https ://biocyc.org/download.shtml, téléchargement des fichiers plats, puis constitution du fichier Padmet grâce à l’outil Padmet)
— chem_xref.tsv v4.0 (https ://www.metanetx.org/mnxdoc/mnxref.html)
Une recherche manuelle des identifiants MetaCyc a été réalisée afin de compléter les iden-tifiants manquants d’un sous-groupe de métabolites qui sera utilisé dans la suite des analyses.

Etapes de reconstruction

La fusion des différentes informations des génomes annotés au format Genbank a été faîte grâce à  l’outil Emapper2gbk v0.1.0. Avec l’outil Pathway Tools v24.5 et le contenu de MetaCyc (MetaCyc.25.0.padmet) les informations métaboliques des 54 souches présentes dans l’échan-tillon ont été récupérées. Cette étape a pu être automatisée grâce à l’implémentation de Mpwt v0.7.2 qui permet de lancer Pathway Tools en ligne de commande. Puis les informations extraites par Pathway Tools ont été combinées grâce à l’outil Padmet v5.0.1.

Premières analyses des réseaux métaboliques

Le but est de comparer différents réseaux métaboliques afin de tenter d’expliquer les varia-tions expérimentales quantitatives entre le groupe contrôle et le groupe traité à la colistine grâce aux prédictions qualitatives des différents réseaux. Afin de réaliser la comparaison, les souches ont été réparties en 3 groupes :
— un groupe contenant toutes les souches : simulation de l’échantillon contrôle.
— un groupe contenant uniquement les Grams+ : simulation de l’échantillon traité.
— un groupe contenant uniquement les Grams- : identification des métabolites produits uniquement par les Grams-.
Plus précisément, cette comparaison a cherché à mettre en relation les variations des quantités de métabolites au sein des échantillons contrôles et traités des données expérimentales, avec la capacité des différents groupes à produire ou dégrader ces métabolites. Ce travail s’est foca-lisé d’abord sur un premier sous-groupe de métabolites en sélectionnant ceux dont la quantité varie au moins d’un facteur 2 entre les échantillons. Les lipides ont été écartés car leur mé-tabolisme est très complexe et difficile à reconstruire de manière automatisée. Les molécules partiellement caractérisées ont été exclues de cette liste ainsi que les variations non significa-tives (p-value>0.05). Puis une comparaison plus poussée de la production et de la dégradation de deux composés d’intérêts, le succinate et le tryptophane a été réalisée.
Afin de prédire les métabolites produits par les réseaux, il est nécessaire de définir un fichier SBML contenant les sources qui vont ”démarrer” notre réseau en activant les premières réac-tions. Ce fichier contient une liste simplifiée des métabolites résultants de la dégradation du lait de truie ainsi que des co-facteurs. Ces co-facteurs sont essentiels pour l’activation systématique des cycles métaboliques. Les informations ont été déduites de l’article [14].

Production globale

Les fichiers Padmet ont été reformatés au format SBML grâce à l’option sbmlGenerator de l’outil Padmet. L’outil Metage2Metabo et l’option ”cscope” ont été utilisés pour prédire la pro-duction des réseaux métaboliques. Cette opération a été réalisée pour chacun des 3 groupes. Les sources définies précédemment ont été utilisées et aucune cible n’a été précisée.

Production du succinate et du tryptophane

Les fichiers SBML des cibles ont été créés via l’utilisation de la plateforme AuReMe v2.4, grâce à l’option ”compound_to_sbml” qui convertit une liste d’identifiants MetaCyc de métabo-lites au format TXT en SBML. L’outil Metage2Metabo a ensuite servi à déterminer les souches capables de produire ou non ces deux composés d’intérêts, via l’option ”mincom”. Cette étape a été réalisée deux fois, une fois avec le succinate comme cible et une seconde fois avec le tryptophane afin d’obtenir la liste des souches capables de produire ces composés. De plus, une analyse avec l’outil Miscoto v3.1.2 [8] avec l’option ”scopes” a été utilisée afin d’identifier les souches capables de produire ces deux composés individuellement puis en incluant la coopé-ration. L’analyse a été répétée 6 fois, en analysant la capacité des 3 groupes à produire les 2 composés cibles.

Dégradation du succinate et du tryptophane

Les outils actuels ne permettent pas d’étudier la dégradation des composés, l’obtention de ces résultats est donc plus complexe. La stratégie utilisée ici a été d’identifier les voies et réac-tions responsables de la dégradation de nos composés et d’identifier les organismes contenant ces voies ou réactions. Un premier travail d’identification a été réalisé via la base de données MetaCyc en utilisant les SmartTables afin d’extraire les listes des voies capables de dégrader nos composés, des réactions et taxonomies associées [4]. Les voies non répertoriées chez les procaryotes ont été écartées. L’outil Metage2metabo avec l’option ”mincom” a été utilisé, avec comme cible la liste des composés de dégradation pour chaque voie identifiée. Une seconde validation de la capacité de dégradation des réseaux a été réalisée en utilisant l’outil Padmet, avec le module padmet_compare. Il a permis de comparer les 54 réseaux en rendant compte de la présence/absence des voies métaboliques et des réactions pour chaque souche. Les informations de ces fichiers de comparaison ont été croisées avec les listes de voies et de réactions de dégradation du succinate et du tryptophane. Seules les souches contenant au moins une réaction dégradant le composé d’intérêt ont été considérées comme capables de le dégrader.

Résultats

Souches identifiées

Un total de 22 genres et espèces différents correspondant à 54 génomes ont été identifiés avec une abondance >0,5% des reads, 17 sont des batéries Grams- et 37 sont Grams+. Chez les Grams-, 6 souches E. coli ont été identifiées. Chez les Grams+, une majorité de lactobacilles est présente.

Récupération des identifiants MetaCyc

Les croisements d’informations entre les différents fichiers des bases de données ont permis de récupérer 498 identifiants MetaCyc sur les 857 composés issus des analyses RMN et MS des échantillons de colon.

Reconstruction des réseaux

Les 54 réseaux des 54 souches sélectionnées ont été créés puis ils ont été regroupés en 3 groupes (ou populations) définis précédemment.

Production globale

Au total, 55 composés ayant un identifiant MetaCyc et une quantité variant d’un facteur d’au moins 2 entre les échantillons contrôles et traités ont été isolés. Ils constituent le sous-groupe de métabolites d’intérêt qui va servir à faire une première validation globale des prédictions des réseaux. Parmi les 55 métabolites identifiés expérimentalement, 22 sont prédits par le réseau des 54 souches et 4 sont prédits uniquement par le réseau de la population Gram-. Ces 4 métabolites sont représentés dans la figure ci-dessous.

Succinate

Production du succinate

En se basant sur les données expérimentales on observe une accumulation du succinate dans les échantillons traités.
Au total, 16 souches dont une majorité de Grams- sont capables de produire le succinate individuellement. L’ensemble des 54 souches est impliqué dans sa production via des échanges de métabolites, c’est à dire via coopération. Les résultats sont récapitulés dans la figure 7.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1.1 Santé et microbiote intestinal
1.2 Escherichia coli, une bactérie d’intérêt
1.3 Rôle de la métagénomique
1.4 Métabolisme et réseaux métaboliques
1.5 Méthodes de reconstruction
1.6 Objectifs du travail
2 Matériel et méthodes 
2.1 Obtention des données métagénomiques
2.2 Présentation des outils principaux
2.2.1 Pathway Tools, un outil de reconstruction
2.2.2 Padmet et Metage2Metabo, deux outils d’exploration
2.3 Reconstruction des réseaux métaboliques
2.3.1 Récupération des identifiants MetaCyc
2.3.2 Etapes de reconstruction
2.4 Premières analyses des réseaux métaboliques
2.4.1 Production globale
2.4.2 Production du succinate et du tryptophane
2.4.3 Dégradation du succinate et du tryptophane
3 Résultats 
3.1 Souches identifiées
3.2 Récupération des identifiants MetaCyc
3.3 Reconstruction des réseaux
3.4 Production globale
3.5 Succinate .
3.5.1 Production du succinate
3.5.2 Dégradation du succinate
3.6 Tryptophane
3.6.1 Production du tryptophane
3.6.2 Dégradation du tryptophane
4 Discussion 
4.1 Souches identifiées
4.2 Récupération des identifiants MetaCyc
4.3 Evaluation globale
4.4 Production et dégradation du succinate et du tryptophane
4.4.1 Succinate
4.4.2 Tryptophane
4.5 Limites de la reconstruction automatisée
4.6 Perspectives
5 Conclusion
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *