L’exploration des micro-organismes dans leur environnement

L’exploration des micro-organismes dans leur environnement

Dans tous les environnements, on retrouve un mélange d’espèces microbiennes, appelé microbiote, qui évolue dans cet environnement, appelé microbiome, et qui peut être composé d’organismes des trois domaines du vivant (1.1.6.2), bactéries, archées, et eucaryotes, mais aussi de virus. C’est le cas des environnements les plus familiers comme la surface de notre peau ou le sol de notre jardin, tel que nous le développerons dans les sections 1.1.7.2 et 1.1.7.3. C’est également le cas d’environnements plus exotiques ou moins accessibles comme les grands fonds marins [9], les profondeurs d’une mine d’or [13], les flancs de la Station Spatiale Internationale [83], ou encore les nuages [7]. En fonction de l’environnement, le microbiote peut présenter des caractéristiques très différentes. Le principal facteur de complexité du microbiote est l’abondance respective des espèces qui le composent (Figure 1.1). Une espèce très abondante est largement majoritaire dans le microbiote (>50% du nombre d’individus), tandis qu’une espèce peu abondante, ou rare, sera présente en faibles proportions (< 0,1%). Par conséquent, un microbiote sera qualifié de simple lorsqu’il est composé d’une ou deux espèces largement majoritaires et de quelques espèces rares, alors qu’un microbiote très complexe peut être composé de milliers d’espèces et ne possède pas d’espèce majoritaire. En pratique, quantifier la complexité des microbiotes est un problème ouvert. Ainsi, nous pouvons supposer que la plupart des microbiotes environnementaux peuvent être qualifiés de (très) complexes, et sont composés de quelques organismes abondants (par exemple, qui représentent plus de 40% du microbiote), de dizaines d’organismes moyennement abondants, et potentiellement de plusieurs centaines ou plusieurs milliers d’organismes rares (avec des abondances < 0,001% du microbiote). Il est important de noter que l’abondance d’un organisme n’est pas forcément liée à l’importance de son rôle dans la communauté. Un organisme rare peut en effet avoir un impact majeur sur son environnement. On peut aussi souligner que la complexité d’un microbiote n’est pas statique, mais fluctue au gré des équilibres trophiques de l’écosystème, des saisons ou encore de variations moins régulières des paramètres physico-chimiques de l’environnement. L’exploration des microbiotes dans des environnements variés représente un véritable enjeu pour la communauté scientifique, avec des applications potentiellement révolutionnaires en écologie, santé, et pour l’industrie (1.1.7). Par exemple, ces dernières années, des études chez l’humain ont permis de montrer un lien entre notre microbiote intestinal et des prédispositions à l’obésité [36], ainsi que la participation de ce microbiote intestinal à notre système immunitaire [8]. Afin de pouvoir analyser un microbiote et comprendre son fonctionnement, il faut commencer par identifier précisément les organismes présents dans l’environnement. Or, cette première étape reste difficile, et constitue à elle seule un enjeu. Les estimations les plus récentes suggèrent que plus de 99,999% de la biodiversité microbienne est encore inconnue [51]. On donne à cette biodiversité inconnue le surnom de matière noire biologique. Mais même l’identification d’organismes déjà connus est délicate. En effet, à cause du manque de connaissances critiques sur leur biologie, on ne sait pas cultiver la majorité de ces micro-organismes dans des conditions de laboratoire [93], ce qui est souvent un préalable obligatoire à leur description. La combinaison de la biodiversité inconnue et de la non-cultivabilité de la majorité des organismes rend donc l’identification précise des organismes sauvages difficile, même pour les environnements les plus simples ou les plus communs. Actuellement, la seule manière d’identifier les organismes d’un microbiote consiste à analyser directement le matériel génétique, son ADN (1.1.3) ou son ARN (1.1.4), obtenu par séquençage (1.2) d’un échantillon de cet environnement. On parlera alors de l’analyse taxonomique des échantillons environnementaux (1.1.6), et de l’assignation taxonomique des lectures issues du séquençage du matériel génétique.

L’ADN

Tous les organismes vivants partagent des systèmes moléculaires communs, dont l’ADN, la molécule qui sert de support de l’information génétique pour les organismes cellulaires.

L’acide désoxyribonucléique (ou ADN) est un long polymère composé de monomères appelés nucléotides, ou bases azotées, que sont les adénines (A), thymines (T), guanines (G), et cytosines (C). L’ADN des organismes cellulaires est formé de deux brins antiparallèles enroulés en forme de double hélice (Figure 1.2). Dans un ADN double brin, l’adénine (A) s’apparie avec la thymine (T) au moyen de deux liaisons hydrogène, et la guanine (G) avec la cytosine (C) au moyen de trois liaisons hydrogène. Les deux brins sont ainsi dits complémentaires parce qu’il est possible de déduire un brin à partir de l’autre. C’est d’ailleurs cette redondance qui est exploitée par le mécanisme de réplication de l’ADN, au cours duquel une enzyme, l’ADN polymérase, synthétise un brin d’ADN complémentaire à partir d’un brin matrice. De plus, l’ADN est orienté, et cette synthèse se déroule toujours dans le sens 5’ vers 3’, soit de l’extrémité portant un groupe phosphate (5’) vers l’extrémité portant un groupe hydroxyle (3’).

Glossaire

ADN polymérase Enzyme responsable de la réplication de l’ADN.
réplication Processus de duplication de l’ADN par l’ADN polymérase qui utilise un brin matrice pour synthétiser son brin complémentaire.
sens 5’ vers 3’ Sens de synthèse de l’ADN, de l’extrémité portant un groupe phosphate (5’) vers l’extrémité portant un groupe hydroxyle (3’).
gène Région d’ADN transcrite en ARN et située sur un des deux brins.
génome ensemble du matériel génétique propre à un individu.
homopolymère Séquence continue du même nucléotide, généralement supérieure à 3 nucléotides (ex. : AAAAAAAA).
bp, kbp, Mbp, Gbp, Tbp On mesure la longueur d’une séquence d’ADN en nombre de nucléotides, ou paires de bases (bp pour base pairs). On utilise ensuite les préfixes du Système International d’unité (kbp pour kilobase, Mbp pour mégabase, Gbp pour gigabase et Tbp pour térabase).

L’ARN

L’acide ribonucléique (ARN) est une molécule simple brin similaire à l’ADN, composée des mêmes nucléotides à l’exception de la tyrosine (T) qui est remplacée par l’uracile (U) dans l’ARN. Chez tous les organismes cellulaires, un brin d’ARN est généré par la transcription d’une partie de l’ADN. On parle de l’expression d’un gène (ADN) sous forme de copie transcrite (ARN messager) traduite en protéine par le ribosome (1.1.5).

L’ARN ribosomique

Le ribosome est un complexe d’ARN et de protéines qui réalise la traduction des ARN messager en protéines, remplissant ainsi une fonction indispensable à l’ensemble des organismes cellulaires connus. L’importance de cette fonction et son caractère universel font, en raison de la pression de sélection, que les ribosomes de toutes les espèces connues sont structurellement similaires, ce qui implique en particulier la conservation des séquences qui participent à sa composition. Le ribosome est un complexe, ainsi composé de molécules d’ARN, appelées ARN ribosomique (ARNr), et de protéines organisées en deux sous-unités principales :
— la grande sous-unité, constituée de deux à trois molécules d’ARNr (5S, 28S et 5,8S chez les eucaryotes ; 23S et 5S chez les procaryotes) et de plusieurs dizaines de protéines ;
— la petite sous-unité, constituée d’une molécule d’ARNr (18S chez les eucaryotes, 16S chez les procaryotes) et de plusieurs dizaines de protéines.

L’ARNr de la petite sous-unité du ribosome (ARNr SSU)
L’ARNr de la petite sous-unité du ribosome (ARNr SSU, pour Small Sub-Unit) est considéré comme la référence pour l’assignation taxonomique des espèces d’organismes cellulaires. En plus d’être universel, il est constitué d’une succession de régions conservées et de régions variables qui en font le candidat idéal pour la construction d’arbres phylogénétiques basés sur des alignements de séquences (2.3.1). Les régions conservées correspondent à des structures indispensables à la fonction de traduction. D’un point de vue pratique, elles facilitent l’alignement des séquences et permettent la construction d’amorces « universelles » pour les approches de séquençage ciblé (1.2.3.1). Les régions hypervariables (au nombre de neuf chez les procaryotes) varient en taille de 30 à 100 bp (Figure 1.3) et correspondent à des régions moins contraintes dans la structure tertiaire du ribosome. Par conséquent, ces régions contiennent un signal phylogénétique suffisant pour discriminer les séquences d’espèces proches.

L’arbre du vivant

La classification taxonomique du vivant

La classification taxonomique du vivant consiste à catégoriser les organismes sur la base de critères scientifiques. Cette classification, ou taxonomie, organise des catégories d’organismes (taxons) de manière à retracer leur histoire évolutive. On décrit alors la phylogénie des organismes. Dans un arbre phylogénétique, les espèces les plus proches dérivent des ancêtres communs les plus récents et partagent le plus de caractères communs. Nous présentons ici deux types de classifications taxonomiques, qui diffèrent principalement par les critères utilisés pour la classification : critères physiques pour la classification classique, aujourd’hui obsolète pour la plupart des taxons, dont les microorganismes, et critères biomoléculaires pour la classification phylogénétique.

Qu’est-ce qu’une espèce ?
La notion d’espèce est définie chez les eucaryotes pluricellulaires comme un groupe d’individus interféconds, pour qui la transmission du matériel génétique est dite « verticale », c’est-à-dire de génération en génération au sein d’une même espèce. Dans ce cas, les génomes des individus d’une même espèce sont plus proches génétiquement que ceux d’individus d’espèces différentes. Ce concept d’espèce basé sur la transmission verticale est toutefois difficilement généralisable aux procaryotes qui peuvent aussi s’échanger du matériel génétique « horizontalement », c’est-à-dire entre individus d’espèces différentes, par les processus de transformation, transduction et conjugaison. En l’absence de meilleure suggestion, il a été proposé en 2005 de définir une espèce procaryote comme un groupe d’individus partageant une similarité de séquence de l’ARNr 16S supérieure à 97% d’identité [37], et définissant ainsi un OTU (Operational Taxonomic Unit). Ce seuil de similarité arbitraire ne fait pas forcément de sens biologiquement, mais il est toujours utilisé dans les approches de métagénomique ciblée pour la construction d’OTU (2.3.1). Toutefois, à la suite des efforts de séquençage de la biodiversité inconnue ces dernières années, cette définition commence maintenant à être remise en question [66] et est appelée à évoluer.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Contexte biologique
1.1 Introduction à la biologie environnementale
1.1.1 Bref rappel historique, non exhaustif
1.1.2 L’exploration des micro-organismes dans leur environnement
1.1.3 L’ADN
1.1.4 L’ARN
1.1.5 L’ARN ribosomique
1.1.5.1 L’ARNr de la petite sous-unité du ribosome (ARNr SSU)
1.1.6 L’arbre du vivant
1.1.6.1 La classification taxonomique du vivant
1.1.6.2 Les domaines du vivant
1.1.7 Les enjeux
1.1.7.1 Dans les différents domaines de la recherche ou de l’industrie
1.1.7.2 Exploration marine : Tara Océans
1.1.7.3 Analyse du microbiote humain
1.2 Les technologies de séquençage de l’ADN
1.2.1 Définitions
1.2.2 Perspective historique
1.2.3 Le séquençage à haut débit
1.2.3.1 Approche ciblée ou globale
1.2.3.2 Lectures simples et appariées
1.2.3.3 Les plateformes de séquençage à haut débit (HTS)
1.3 La métagénomique
1.3.1 Le séquençage ciblé (amplicon ARNr SSU)
1.3.2 Le séquençage métagénomique complet (shotgun)
1.3.3 Les technologies de séquençage en métagénomique
1.3.4 Exemples d’applications en métagénomique
1.3.4.1 Retour sur le projet Tara Océans
1.3.4.2 Retour sur HMP
1.3.4.3 Mais tellement d’autres aussi (data-flood)
2 Les méthodes bio-informatiques
2.1 Comparaison de séquences
2.1.1 Les formats de séquences : FASTA/FASTQ
2.1.2 Définitions du problème d’alignement
2.1.3 Algorithmes d’alignement
2.1.4 Les formats d’alignements : SAM/BLAST
2.2 La reconstruction de séquences
2.2.1 Définitions
2.2.2 Le paradigme glouton
2.2.3 Le paradigme OLC
2.2.4 Graphe de De Bruijn
2.2.5 Le scaffolding / échafaudage
2.2.6 Un mot sur le nettoyage des jeux de données de séquençage
2.3 Analyse de données de métagénomique
2.3.1 Analyse de séquençage ciblé de type amplicon
2.3.1.1 Les données d’amplicons
2.3.1.2 Les pipelines d’analyse
2.3.1.3 Les limitations de l’approche
2.3.2 Assemblage de données de séquençage métagénomique complet
2.3.2.1 Un nouveau problème
2.3.2.2 Les méthodes d’assemblage métagénomique
2.3.3 Analyse taxonomique directe, sans assemblage
2.3.4 Reconstruction de marqueurs conservés pour l’analyse taxonomique
2.3.4.1 Le problème
2.3.4.2 Identification des lectures de marqueurs conservés
2.3.4.3 EMIRGE
2.3.4.4 REAGO
2.3.4.5 Comparaison expérimentale d’EMIRGE et REAGO
2.3.5 Conclusion sur les méthodes d’analyse de données métagénomique
3 MATAM méthode
3.1 Schéma général de la méthode
3.1.1 Le choix du marqueur conservé
3.1.2 Données en entrée
3.1.3 Résultats en sortie
3.1.4 Les étapes de MATAM
3.2 Détail de la méthode
3.2.1 Identification des lectures d’ARNr et alignement sur une base de
référence
3.2.1.1 Construction de la base de référence partitionnée
3.2.1.2 Alignement des lectures sur la base de référence partitionnée
3.2.1.3 Sélection des alignements informatifs
3.2.2 Construction d’un graphe de chevauchement de lectures
3.2.2.1 Détail de l’algorithme de construction du graphe de chevauchement
3.2.2.2 Implémentation et pièges liés aux alignements locaux
3.2.3 Compression du graphe de chevauchement, identification et assemblage des composantes
3.2.3.1 Propriétés du graphe de chevauchement
3.2.3.2 Compression du graphe de chevauchement
3.2.3.3 Identification des composantes
3.2.3.4 Assemblage des composantes
3.2.4 Reconstruction des séquences en pleine longueur
3.2.4.1 Alignement des contigs
3.2.4.2 Sélection des alignements pour scaffolding
3.2.4.3 Génération des scaffolds
3.2.5 Analyse taxonomique de l’échantillon
3.2.5.1 Estimation des abondances
3.2.5.2 Assignation taxonomique des scaffolds
3.2.5.3 Représentation de la composition taxonomique avec Krona
3.3 Illustration de la méthode sur un jeu de 16 ARNr SSU bactériens
3.3.1 Génération du jeu de données
3.3.1.1 Propriétés du jeu de données
3.3.1.2 Sélection des séquences initiales
3.3.1.3 Simulation des lectures
3.3.2 Illustration des étapes de MATAM
3.3.2.1 Alignement des lectures
3.3.2.2 Sélection des alignements informatifs
3.3.2.3 Construction du graphe de chevauchement
3.3.2.4 Compression du graphe de chevauchement
3.3.2.5 Assemblage des composantes
3.3.2.6 Scaffolding
3.3.2.7 Estimation de la composition taxonomique
3.4 Implémentation et disponibilité
Conclusion