Génération des fichiers GenBank

Télécharger le fichier pdf d’un mémoire de fin d’études

Les génomes étudiés

Les génomes étudiés sont essentiellement des génomes issus du projet Phaeoexplorer 1. Ce projet vise à générer des données transcriptomiques et des assemblages de génomes annotés pour un large ensemble d’espèces d’algues brunes. Ces données sont générées afin de pouvoir élargir les connaissances biologiques propres à la classe des Phaeophyceae. Au total, 35 espèces ont été utilisées afin de reconstruire leurs réseaux métaboliques.
Parmi cet ensemble, 29 espèces sont des algues brunes, 23 proviennent des données séquencées au Genoscope pour le projet Phaeoexplorer et 6 sont des génomes publics. Pour certaines espèces, le choix du sexe (Mâle ou Femelle) était possible, le sexe n’ayant pas d’importance pour cette étude, il a été choisi le sexe lié à l’assemblage de meilleure qualité.
Parmi les génomes publics, Ectocarpus species7 est la souche de référence, car est la seule algue brune pour laquelle il y ait eu une curation experte (structurale et fonctionnelle) de l’annotation automatique. Ectocarpus species7 était anciennement dénommée Ectocarpus siliculosus : espèce présente dans le jeu de données Phaeoexplorer (Figure 3). Les espèces, anciennement assignées à cette même espèce Ectocarpus siliculosus, ont, en 2017, été déclinées en 15 espèces distinctes suite à une étude de Montecinos & al. [16]. De ce fait, Ectocarpus species7 et Ectocarpus siliculosus seront attendues comme espèces biologiquement très proches dans les résultats. Schizocladia ischiensis est l’algue de la lignée apparentée aux algues brunes (Figure 1) [8].
Elle est, de plus, une algue dont le génome a été séquencé et annoté au sein du projet Phaeoexplorer.
Cependant, elle n’appartient pas à la classe des Phaeophyceae et fait partie de l’extragroupe.
Cet ensemble extra-groupe se constitue, en plus de Schizocladia ischiensis, de 4 diatomées et d’une microalgue eustigmatophyceae. Cet extra-groupe vient constituer un socle d’ancêtres proches de la lignée des algues brunes, Schizocladia ischiensis étant la plus proche.
L’extra-groupe ainsi que les génomes publics sont ici ajoutés au jeu de données afin de garantir au maximum la propagation de gènes par orthologie chez les espèces d’intérêt afin d’obtenir des réseaux finaux les plus complets possibles.
Un aspect important à relever sur le jeu de données d’intérêt Phaeoexplorer, est que toutes les espèces n’ont pas été séquencées uniformément. Une partie des espèces a été séquencée en lectures longues (long reads) Nanopore et complétée par courtes lectures (short reads) Illumina (groupe LR). Tandis que l’autre partie ne l’a été uniquement en lectures courtes Illumina (groupe SR). Cela influe sur la qualité des génomes, en particulier sur les génomes SR qui sont beaucoup plus fragmentés que les génomes LR. Cette fragmentation se justifie par un nombre élevé de contigs chez les espèces SR (117 932 en moyenne et valeur médiane de 111 425) observable en détail dans le tableau Figure 4 par rapport aux espèces LR (2 242 en moyenne et valeur médiane de 1 132) observable en détail dans le tableau Figure 3. La différence marquante de ce nombre de contigs entre les SR et les LR se remarque figure 5 (a.), on y observe de plus la forte variabilité de ces valeurs chez les SR allant de 18 254 à 325 257 avec un écart type de 87 979 par rapport à celles des LR allant de 110 à 8 882 avec un écart type de 2 718. Cette fragmentation des SR implique un nombre élevé de petits contigs et donc une plus faible proportion de contigs où des structures de gènes sont prédites : entre 4.9% et 38.4% des contigs chez les SR contre 41% à 100% des contigs chez les LR (observable Figures 3, 4, 5 (.c).

Génération des fichiers d’entrée

Les fichiers d’entrée à utiliser afin de reconstruire les réseaux métaboliques avec l’outil Au- CoMe (décrit partie suivante : 2.3) doivent être soumis au format GenBank. Les fichiers Gen-Bank ont été générés à partir du package python emapper2gbk [5]. Ce package python a été développé afin de générer automatiquement des fichiers GenBank à partir de fichiers d’annotation Eggnog-mapper. Pour cette étude, un fichier GenBank a été généré pour chaque organisme étudié, à partir de son génome, donc ses séquences nucléotidiques, de son protéome, d’un fichier au format d’élément général (general feature format : GFF) et du fichier d’annotations Eggnogmapper.
Pour chaque organisme, le fichier GenBank ainsi créé, renseignera pour chaque contig :
— sa séquence nucléotidique (avec nombre de bases)
— les séquences codantes présentes détaillant :
— leurs annotations structurelles (position)
— leurs annotations fonctionnelles avec les termes GO (Gene Ontology) et les nomenclatures EC (Enzyme Commission numbers)
— leur séquence protéique associée
Les informations taxonomiques de l’organisme en question y sont aussi indiquées.

Outil AuCoMe

AuCoMe est un package python dont l’objectif est de reconstruire simultanément plusieurs dizaines de réseaux métaboliques à l’échelle du génome (GSMN)[4]. Ce processus de reconstruction s’opère à partir de fichiers de génomes annotés au format GenBank. Pour chaque génome annoté, un GSMN associé sera construit. Un pan-métabolisme est par la suite créé en fusionnant les informations de tous les GSMN. Les annotations des génomes sont souvent hétérogènes en termes de qualité et d’exhaustivité entre les différents organismes. Afin de pouvoir comparer les GSMN créés en évitant ce biais, l’outil vise en particulier à homogénéiser les annotations structurelles et fonctionnelles lors de la construction des GSMN. L’outil reste un moyen de reconstruction automatique de réseaux métaboliques, une analyse experte reste donc nécessaire afin d’affiner les résultats obtenus à l’aide de cet outil.
La reconstruction de ces GSMN homogénéisés se déroule selon un pipeline divisé en 4 étapes principales détaillées ci suit.

Étape de reconstruction des GSMN préliminaires

Après une étape d’initialisation consistant à générer l’arborescence des dossiers utilisés par le programme et une étape de vérification des fichiers GenBank donnés en entrée, cette première étape principale va générer les GSMN préliminaires. Pour chaque organisme, les associations Gène-Protéine-Réaction (GPR) retrouvées à partir des annotations fonctionnelles associées au génome sont ajoutées à son GSMN (Figure en Annexe 17A).
Cette reconstruction est assurée grâce l’algorithme PathoLogic de PathwayTools qui permet de prédire les voies métaboliques à partir de génomes séquencés et annotés [14]. Afin de retrouver les réactions catalysées par les enzymes produites par l’organisme puis les voies métaboliques dans lesquelles les réactions sont présentes, l’algorithme va se référer à la base de données MetaCyc des réactions et des voies métaboliques [14]. La version de l’outil PathwayTools utilisée lors de cette étude est la 25.0. Cet algorithme est parallélisé grâce au package python mpwt (pour Multiprocessing PathwayTools) développé dans cet objectif [5]. Pour finir, les réactions pouvant être associées à des gènes de l’organisme, sont conservées et ajoutées au GSMN sous forme d’association GPR.

Étape de propagation par orthologie des associations GPR

Cette seconde étape du pipeline a pour objectif de compléter, par orthologie, les GSMN préliminaires générés à l’étape précédente. Une protéine d’un certain organisme pourra être prédite
comme étant orthologue à une autre protéine issue d’une association GPR d’un autre organisme retrouvée à l’étape précédente. Si cette orthologie est robuste, l’association GPR associée à cette protéine viendra compléter le GSMN concerné (Figure en Annexe 17B).
Cette étape est assurée par l’algorithme d’OrthoFinder qui va permettre de déterminer des groupes d’orthologues [11], [10]. Une fois les groupes d’orthologues constitués, une analyse est faite sur les paires de gènes orthologues de deux organismes distincts. Si parmi les deux gènes de cette paire, l’un est inclus dans une association GPR retrouvée à l’étape précédente, le second sera sélectionné comme association GPR potentielle du GSMN de l’organisme concerné. Pour finir, si l’option de filtre est sélectionnée, toutes les associations GPR potentielles sont filtrées.
Seules les associations GPR validées par un critère de robustesse sont propagées dans les GSMN.

Étape de vérification des annotations structurelles

Cette troisième étape du pipeline vient compléter de nouveau les GSMN générés en sortie de l’étape précédente d’orthologie. Son objectif est de retrouver d’éventuelles annotations structurelles non renseignées dans les fichiers d’entrée. Cette recherche se fait par alignement des différents génomes entre eux (Figure en Annexe 17C).
Pour cette étape, chaque génome est comparé par paire avec tous les autres génomes du jeu de données. Le nombre total de comparaisons deux à deux est donc de nombre d’organismes du jeu de données, ce qui fait de cette étape une des plus chronophages si le nombre d’espèces n est élevé. Pour chaque paire et pour chaque séquence protéique appartenant à une association GPR d’un GSMN, un alignement est effectué contre le second génome grâce au package Biopython. Si une correspondance est trouvée et validée, alors l’association GPR associée à la séquence protéique est propagée dans le GSMN de l’espèce où elle manquait.

Étape fusion des GSMN et de complétion par réactions spontanées

Cette dernière étape consiste à compléter voies métaboliques des GSMN reconstruits à l’étape précédente par des réactions spontanées. Ces réactions spontanées sont des réactions qui ne sont
pas associées à des gènes. Pour pouvoir ajouter ces réactions spontanées aux voies métaboliques, la recherche s’effectue à partir de la base de données MetaCyc pour chaque voie métabolique (Figure en Annexe 17D).

Outils d’analyse des résultats

Réseaux métaboliques et formats de fichiers

Les réseaux métaboliques sont stockés dans deux formats de fichiers distincts. Le premier format est le format Systems Biology Markup Language (SBML), ce format est utilisé, car libre et est pris en charge par de nombreux logiciels.
Cependant, ce format classique n’est pas optimal pour stocker certaines métadonnées. Ces métadonnées peuvent, en effet, se révéler importantes par soucis de transparence lors de leur partage, mais aussi lors des analyses réalisées. Elles vont, par exemple, permettre d’indiquer comment les données ont été générées. Par exemple, pour AuCoMe, il va pouvoir être indiqué à quelle étape du pipeline (annotation préliminaire, propagation d’orthologie, vérification structurale ou complétion de réactions spontanées) une réaction a été ajoutée à un GSMN. L’outil padmet a donc été développé pour proposer un format de données pouvant stocker ces différentes métadonnées de manière plus structurée que SBML [1]. L’avantage de ce format par rapport au format SBML est qu’il peut contenir plus d’informations que SBML mais aussi qu’il est moins lourd que ce dernier.
Le format PADMET permet aussi de pouvoir stocker les informations localement dans des interfaces de Wikis. Ces Wikis permettent de structurer l’ensemble des données générées tout en les reliant. Les wikis rendent aisément possible l’exploitation et la visualisation des informations des GSMN sans être informaticien grâce à leur interface utilisateur d’une meilleure clarté qu’avec les formats padmet. Ces données sont par exemple les méthodes utilisées dans les pipelines, les réactions, les métabolites, les voies métaboliques ou les gènes. Ces Wikis intègrent aussi des fonctionnalités de recherche sémantique. Il est aussi possible de mettre à jour les GSMN par l’utilisation de formulaires de curation manuelle assistée [1]. Pour pouvoir générer ces wikis, il est possible d’utiliser directement le package padmet ou alors d’installer l’environnement AuReMe[1].

Génération de dendrogrammes et tableaux

La génération des dendrogrammes par regroupement hiérarchique est réalisée à l’aide du package R pvclust[19]. Le regroupement hiérarchique est une méthode statistique qui vise à classer plusieurs éléments dans certains groupes en fonction des similitudes entre eux. Ce package R a pour intérêt de pouvoir effectuer des analyses bootstrap de regroupement hiérarchique tout en informant sur l’incertitude des groupes formés. Le bootstrap consiste à échantillonner aléatoirement des éléments des données et de leur appliquer l’analyse de regroupement hiérarchique un nombre nboot de fois. Un nombre nboot de réplicats de dendrogrammes vont être ainsi générés.
Cela va permettre de calculer des indicateurs renseignant sur l’incertitude de chaque groupe sur le dendrogramme final. Le package pvclust renseigne sur deux types d’indicateur d’incertitude.
Les premiers sont les BP values (Bootstrap Probability values) qui vont renseigner sur la fréquence d’apparition d’un groupe parmi les réplicats de dendrogrammes. Les seconds sont les AU p-value (Approximately Unbiased probability values) qui renseignent sur les valeurs de probabilité (p-values) approximativement sans biais. Les auteurs conseillent d’utiliser une valeur de 10 000 pour le paramètre nboot afin de limiter les erreurs. [19]
La commande d’analyse de l’outil AuCoMe propose donc la création d’un dendrogramme métabolique à l’aide du package pvclust. Ce dendrogramme prendra en entrée un tableau de données binaire renseignant pour chaque espèce si chaque réaction est présente ou non dans son GSMN. La distance définie entre deux espèces distinctes sera donc basée sur la présence mutuelle d’une réaction chez ces deux espèces. Cette distance utilisée est la distance de Jaccard et ne prend donc en considération comme similarité qu’une présence mutuelle des réactions et non l’absence mutuelle. Le nombre nboot de réplicats est fixé à 10 000 comme conseillé par les auteurs.
L’étape d’analyse de l’outil AuCoMe ne permet pas uniquement l’exécution d’un regroupement hiérarchique. Le package padmet [1] va aussi permettre d’extraire des fichiers padmet, différents tableaux résumant certaines informations sur les GSMN. Il s’agit de quatre fichiers TSV (Tab Separated Values) : reactions.tsv, pathways.tsv, metabolites.tsv et genes.tsv.
— Le fichier reactions.tsv est celui utilisé pour générer le dendrogramme et renseigne donc sur la présence / absence (1 ou 0) de chaque réaction pour chaque espèce. Il précise, de plus, quels sont les gènes associés à chaque réaction pour chaque espèce.
— Le fichier pathways.tsv renseigne sur la complétion de chaque voie métabolique (sous la forme fractionnaire : nombre de réactions de la voie métabolique présentes chez l’espèce / nombre de réactions total de la voie métabolique). De plus, pour chaque voie métabolique, la liste des réactions associées est précisée.
— Le fichier metabolites.tsv renseigne, pour chaque métabolite : les réactions qui le consomment ainsi que les réactions qui le produisent (sous la forme d’une liste de réactions), pour chaque espèce.
— Le fichier genes.tsv va renseigner, pour chaque gène, si il est présent ou absent (1 ou 0), pour chaque espèce. De plus, pour chaque gène, les réactions associées sont indiquées.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Les algues brunes
1.1.1 Espèce d’intérêt
1.2 Les réseaux métaboliques
1.2.1 Définitions
1.3 Objectifs de l’étude
2 Matériel et méthodes
2.1 Les génomes étudiés
2.2 Génération des fichiers d’entrée
2.3 Outil AuCoMe
2.3.1 Étape de reconstruction des GSMN préliminaires
2.3.2 Étape de propagation par orthologie des associations GPR
2.3.3 Étape de vérification des annotations structurelles
2.3.4 Étape fusion des GSMN et de complétion par réactions spontanées
2.4 Outils d’analyse des résultats
2.4.1 Réseaux métaboliques et formats de fichiers
2.4.2 Génération de dendrogrammes et tableaux
3 Résultats
3.1 Génération des fichiers GenBank
3.2 GSMN reconstruits
3.2.1 Déploiement et Installation de l’outil AuCoMe
3.2.2 Réduction des génomes SR
3.2.3 Passage à plus large échelle pour l’exécution d’AuCoMe
3.2.4 Stockage des informations des GSMN dans des Wikis
3.3 Nouveaux outils d’analyse des GSMN
3.3.1 Enrichissement de l’analyse par dendrogrammes
3.3.2 Description d’un package python créé pour l’analyse des résultats générés par l’outil AuCoMe
3.4 Analyse comparative des dendrogrammes métaboliques des réactions et de la phylogénie des espèces
3.5 Analyse des réseaux selon leur méthode de séquençage
3.6 Analyse du GSMN de Laminarionema elsbetiae pour comprendre l’impact de son mode vie endophytique sur son métabolisme
3.7 Affinage des données pour générer les dendrogrammes métaboliques
4 Discussion
4.1 Le mauvais placement de certaines espèces dans les dendrogrammes métaboliques
4.1.1 L’impact de la qualité des données génomiques et de la composition du jeu de données
4.1.2 L’impact de la nature du jeu de données
4.1.3 L’impact du calcul de la matrice de distance du regroupement hiérarchique
4.2 L’hétérogénéité importante du nombre de gènes et de réactions
4.3 Les pertes de gènes chez Laminarionema elsbetiae
5 Conclusion et perspectives
Références
A Annexes
A.1 Étapes pipeline AuCoMe
A.2 Dendrogrammes
A.3 Poster étude des pertes de gènes chez Laminarionema elsbetiae