Difficultés engendrées par la diversité des méthodes en métagénomique

Télécharger le fichier pdf d’un mémoire de fin d’études

Le microbiote intestinal et le régime alimentaire

Le microbiote intestinal a déjà été étudié dans un grand nombre d’espèces de vertébrés et d’invertébrés, principalement l’homme, notamment pour établir des liens entre le régime alimentaire, le microbiote et les différences morphologiques, comprendre comment cette communauté microbienne se structure. Les études de microbiote chez l’humain à partir de l’ARNr 16S, ont entre autre permis de définir la notion d’entérotypes (Arumugam et al. 2011; Knights et al. 2014), et de proposer un lien entre les entérotypes et le régime alimentaire (Lim et al. 2014; Wu et al. 2011). Les entérotypes sont des groupes d’hôtes construits à l’aide d’une méthode de « clustering » supervisée en se basant sur la composition taxonomique des microbiotes (Arumugam et al. 2011). La méthode de constitution des entérotypes est détaillée dans le chapitre 3. On retrouve d’ailleurs cette notion d’entérotypes chez d’autres lignées d’hôtes, telles que chez le bourdon, espèce présentant 2 entérotypes (Li et al. 2017), ou encore chez le chimpanzé, espèce présentant 3 entérotypes (Moeller et al. 2012). Cependant, cette notion d’entérotypes est assez controversée.

Si certains auteurs parlent de 3 entérotypes chez l’homme (Wu et al. 2011), d’autres n’en trouvent que deux (Wu et al. 2011) et enfin, certains contestent la notion même d’entérotypes, et proposent plutôt que différents hôtes d’une même espèce hébergent des communautés microbiennes dont la diversité n’est pas facilement partitionnable en types (Ian B. Jeffery et al. 2012). D’autres études soulignent également que les méthodes utilisées peuvent conduire à des erreurs dans le « clustering » (i.e. algorithme permettant de créer des groupes d’échantillons), notamment quand le nombre de genres trouvés dans les données est plus important que le nombre d’échantillons (Knights et al. 2017). Dans la continuité de ces études, nous avons recherché des entérotypes chez Podarcis sicula, afin de vérifier si ces groupes (dans l’hypothèse où on les détecterait) soient en lien (ou pas) avec le régime alimentaire.

Une autre façon d’étudier la structure des communautés microbiennes consiste à quantifier et comparer leur diversité. Pour cela, deux types d’études sont couramment utilisées : la diversité alpha, qui correspond à la diversité d’un écosystème, c’est à dire combien d’espèces (ou phyla, genres,…) différentes sont présentes au sein de la communauté microbienne étudiée, et la bêta diversité, qui correspond à la comparaison de la diversité de deux écosystèmes, ou à la comparaison de la diversité d’un même écosystème à deux moments différents (Hamady, Lozupone, and Knight 2010). L’étude comparative du microbiote entre une population d’humains obèses et d’humains sains a ainsi permis de montrer que des différences morphologiques peuvent être corrélées à des différences d’abondances faibles (Everard et al. 2013) (moins de 5% pour les Akkermansia muciniphila par exemple). Un changement morphologique peut donc être associé à des variations chez certaines espèces bactériennes, sans que pour autant cela débouche sur des entérotypes. Nous avons donc également recherché des espèces bactériennes dont l’abondance pourrait être différente entre les individus insectivores et omnivores, indépendamment de la notion d’entérotypes.

Enfin, deux types de résultats sont communément observés lorsque l’on étudie le lien entre le régime alimentaire et le microbiote ciblé. Un première ensemble d’études a pour résultats de grandes différences dans le microbiote associés à un changement de régime alimentaire, touchant des genres majoritaires (David et al. 2014; Sonnenburg et al. 2016). Cependant, les résultats de comparaison d’humains à régimes alimentaires très différents en provenance de continents différents sont à nuancer, car ces modifications peuvent aussi découler de contraintes imposées par la génétique de l’hôte, qui ne sont pas les mêmes d’une population à une autre, de différences en terme d’hygiène de vie (notamment avec l’utilisation très importante d’antibactériens dans les pays occidentaux), en termes de parasites, et en termes d’environnement. Dans l’idéal, il faudrait pouvoir comparer une population contenant des individus avec des régimes alimentaires différents. Ce type de comparaison est effectué chez les souris, et se traduit effectivement par des changements importants du microbiote associé au changement de régime alimentaire (Hildebrandt et al. 2009; Zhang et al. 2012).

Un autre ensemble d’études indique néanmoins que deux régimes alimentaires différents ne sont associés qu’à de petites différences au niveau du microbiote, et que la variabilité interindividuelle a plus d’impact que le régime alimentaire sur le microbiote. C’est un résultat trouvé par exemple chez l’humain par Lozupone (Lozupone et al. 2012), mais aussi chez le panda (Y. Li et al. 2015; Wei, Hu, et al. 2015; Xue et al. 2015).
Dans le cadre de cette thèse la question suivante se pose : le changement de régime alimentaire des Podarcis sicula est-il associé à peu ou à beaucoup de différences au sein du microbiote ?

Le microbiome : fonctions de la communauté microbienne

Si le microbiote constitue la moitié d’un holobionte chez l’humain en nombre de cellules (soit environ 3.9×1013 bactéries (Sender, Fuchs, and Milo 2016)), le nombre de gènes microbiens par rapport au nombre de gènes humains est considérablement plus important. Regarder « qui est là » au sein d’une communauté bactérienne est très informatif et indispensable à la compréhension de son fonctionnement. Pour cela il faut analyser notamment les fonctions des gènes de la communauté bactérienne. Précisément, le microbiome correspond au contenu génétique d’un microbiote (Yeoman et al. 2011). Des études préliminaires du microbiome ont été effectuées sur plusieurs microbiomes dont les microbiomes intestinaux, vaginaux, oraux, aussi bien chez les mammifères dont l’humain (Avila, Ojcius, and Yilmaz 2009; Dewhirst et al. 2010; Kim et al. 2009; Ma, Forney, and Ravel 2012; Medina-Colorado et al. n.d.; Schueller et al. 2017), chez les reptiles (Costello et al. 2010), ou encore chez les insectes, dont les hyménoptères (Li et al. 2017; Suen et al. 2010).
Pour les raisons évoquées dans la partie précédente, nous nous intéressons plus spécifiquement au microbiome intestinal. Le microbiome intestinal correspond au contenu génétique provenant de micro-organismes présents dans l’intestin, c’est-à-dire, aux gènes microbiens présents dans l’intestin. Des études ont montré des différences au niveau des fonctions de gènes pour différents régimes alimentaires chez l’être humain (David et al. 2014). Dans la mesure où nous nous intéressons à l’impact du changement de régime alimentaire des Podarcis sicula sur leur microbiome intestinal, l’une des questions que l’on se pose est la suivante : les gènes présents dans le microbiome intestinal des lézards insectivores sont-ils les mêmes que ceux présents dans le microbiome intestinal des lézards omnivores ?
Répondre à ces questions nécessite d’avoir des « reads » obtenus par séquençage non ciblé (données de métagénomique) (Figure 4). L’une des études couramment menée se base sur la quantité de reads par catégorie COG (Clusters of Orthologous Groups) (Gill et al. 2006). Il existe en tout 25 catégories COGs regroupées dans les différentes grandes classes de fonctions : une classe de catégories COGs relative aux processus cellulaires et de signalisation, une classe relative au stockage d’informations et aux processus informationnels, une classe relative au métabolisme, et une classe de catégories COGs relatives aux fonctions peu connues. Les catégories COGs sont détaillées dans le chapitre 4.

Dans cette thèse nous avons plus précisément étudié les abondances des différentes catégories COG en fonction du régime alimentaire, ainsi que les différences d’abondances d’expression des enzymes présentes dans les microbiomes en fonction du régime alimentaire des lézards.
Il semble communément accepté qu’une différence de régime alimentaire se traduise par des changements spécifiques concernant l’abondance de certaines enzymes impliquées dans des voies métaboliques spécifiques (David et al. 2014; Wei, Hu, et al. 2015; Zhu et al. 2011). En fonction des études, ces différences sont plus ou moins importantes. Dans un premier temps, nous nous sommes basés sur la littérature, en étudiant l’abondance d’enzymes réputées importantes pour la digestion des végétaux (notamment de la cellulose) et pour la digestion des insectes (notamment de la chitine). Puis nous avons étudié de façon moins ciblée les différences d’abondances en enzymes des différentes voies métaboliques entre les microbiomes de lézards insectivores et omnivores.

De la diversité des méthodes en métagénomique

La métagénomique est une discipline récente (Escobar-zepeda, León, and Sanchez-flores 2015; Thomas, Gilbert, and Meyer 2012) dont la dénomination a été proposée en 1998 par Handelsman (Escobar-zepeda et al. 2015). Cette science résulte des progrès en matière de séquençage (de l’invention de la technique de séquençage de l’ADN par Sanger en 1977 aux premières analyses de communautés microbiennes se basant sur de l’ARNr 16S en 1990) (Escobar-zepeda et al. 2015) et des progrès en matière de traitement des données massives, appelées « Big Data » (terme apparu en 1997). En effet, le nombre de publications dans le domaine des « Big data » a explosé à partir de(Liu et al. 2016; Mokane Bouzeghoub 2017).

Qu’est-ce que la métagénomique ?

La métagénomique est une discipline appartenant au champ de la collecte de données (« data gathering ») (Krohs 2012). Les données collectées sont des fragments d’ADN recueillis dans un environnement donné (Thomas et al. 2012). Il peut s’agir aussi bien de microbiomes animaux (Gomez et al. 2015; Hong et al. 2011; Kohl et al. 2013; Martinson et al. 2011; McCann, Wickersham, and Loor 2014; Moeller et al. 2012, 2015; Su et al. 2016; Wei, Wang, and Wu 2015; Xu et al. 2016; Yáñez-Ruiz, Abecia, and Newbold 2015; Zeng et al. 2015; Zheng et al. 2016; Zhu et al. 2011) (intestinaux, oraux, vaginaux, etc) (Avila, Ojcius, and Yilmaz 2009; Le Chatelier et al. 2013; Gill et al. 2006; Huttenhower and Human Microbiome Project Consortium 2012; Kim et al. 2009; Ma, Forney, and Ravel 2012; Medina-Colorado et al. n.d.; Prado-Irwin et al. 2017; Schueller et al. 2017; Turnbaugh, Ridaura, et al. 2009; Turnbaugh, Hamady, et al. 2009; Walter and Ley 2011; Yatsunenko et al. 2012) que de microbiomes végétaux (Hartman et al. 2017; Turner, James, and Poole 2013; Vandenkoornhuyse et al. 2015), ou du microbiome d’un environnement (exemple du microbiome marin avec TARA (Pesant et al. 2015; Sunagawa, Coelho, Chaffron, Kultima, Labadie, Salazar, Djahanschiri, Zeller, Mende, Alberti, Cornejo-Castillo, Costea, Cruaud, D’Ovidio, et al. 2015; de Vargas et al. 2015)). Suite à cette collecte, la seconde étape de la métagénomique est l’analyse de ces jeux de données (Escobar-zepeda et al. 2015).

Difficultés engendrées par la diversité des méthodes en métagénomique

Avant l’apparition d’un nouveau champ disciplinaire, il est attendu de voir naître une myriade de nouvelles méthodes et approches différentes, dont certaines deviendront éventuellement les questions posées par la discipline naissante (Krohs 2012; Sydow, Schreyögg, and Koch 2005). Si cette créativité est nécessaire pour l’émergence d’un nouveau champ et de nouvelles idées, l’absence de standardisation des méthodes rend les résultats obtenus par les scientifiques difficilement comparables (voire incomparables) d’une étude à l’autre.

La production des données métagénomiques

L’une des premières difficultés pour comparer des métagénomes est le fait qu’il existe différentes méthodes d’acquisition des données (cf. les différentes méthodes de séquençage et d’extraction de l’ADN) (Burke, Kjelleberg, and Thomas 2009; Delmont et al. 2011; Liu et al. 2012; Venter et al. 2004) dont les résultats ne sont comparables ni en termes de nombre et de longueur de reads, ni en termes de qualité (cf. table 1 de l’article (Escobar-zepeda et al. 2015)). Dans le chapitre « Analyse de la diversité microbienne : de la difficulté (paradoxale) de voir large en métagénomique » du livre Biodiversité et Evolution présenté en partie 2.5, la Figure 1 illustre que deux séquençages sur une même plateforme utilisant deux kits de séquençage proches (illumina 2x300paires de bases en 2014 et illumina 2×250 paires de bases en 2015) ne donnent pas des résultats comparables entre eux. L’absence de standardisation des méthodes d’acquisition des données est donc un frein à la comparaison des études entre elles.

Un avantage d’une démarche pluraliste en termes de méthodes est la mise en évidence du biais de chaque méthode grâce à la comparaison des résultats des méthodes les uns avec les autres. Ainsi, concernant l’assemblage, les performances de chaque assembleur sont différentes. Certains sont plus précis, d’autres plus rapides, d’autres moins coûteux en mémoire (i.e. Meta-IDBA requiert moins de mémoire que MetaVelvet), certains permettent de prédire plus de contigs (concaténation de reads en plus longue séquence, en se basant sur la similarité entre les reads) que d’autres (i.e. MetaVelvet permet de prédire 66 241 gènes alors que Meta-IDBA n’en prédit que 62 833 sur le même jeu de données) (Namiki et al. 2012). Selon les critères d’évaluation utilisés pour déterminer quel est le meilleur assembleur, le résultat ne sera pas le même (Bradnam et al. 2013). D’un jeu de données à l’autre, l’assembleur le plus précis n’est pas toujours le même (Treangen et al. 2013). Ainsi selon les ressources computationnelles disponibles et selon le jeu de données à étudier, la méthode choisie ne sera pas systématiquement la même.
Du fait de l’évolution des techniques, cette pluralité des méthodes semble inévitable. Tout d’abord, une partie de la métagénomique est externalisée. En effet, le séquençage est souvent réalisé par des laboratoires spécifiques, qui ne sont pas les mêmes que ceux d’analyse. Cela a donc un coût, et la « kittification » du séquençage ainsi que son évolution dépend du marché économique du séquençage.

Par ailleurs, l’évolution des modèles et des champs disciplinaires dépend aussi de cette pluralité des méthodes. En effet, un modèle est une simplification de la réalité. Une des questions que l’on se pose souvent est donc : à quel point le modèle simplifie la réalité ? Peut-on créer un modèle plus proche de la réalité que le précédent ? Par exemple, pour répondre à la question : « existe-t-il une structure dans le microbiote permettant de trouver des groupes d’individus ? » (que l’on peut résumer par « existe-t-il des entérotypes ? ») deux méthodes d’analyses sont utilisées. Un premier modèle se base sur une discrétisation des données, et l’on cherche à trouver les meilleurs groupes possibles en choisissant le nombre optimal de groupes (Arumugam et al. 2011). Un autre modèle consiste à regarder les abondances relatives des espèces présentes dans les microbiomes, et à appliquer un clustering non supervisé, tel qu’un clustering hiérarchique, afin de voir si l’on trouve des groupes. Cette seconde méthode permet de trouver que la structure de la population ne peut se regrouper de façon discrétisée, mais plutôt que la structure des communautés microbiennes étudiées est représentable sous forme d’un gradient (Ian B Jeffery et al. 2012). On a donc pour une même question, deux modèles différents : un plus synthétique (les entérotypes) et un plus précis (les gradients) grâce à cette diversité des méthodes.

Absence de standardisation des méthodes en métagénomique

Une seconde difficulté rencontrée est l’absence de standardisation dans l’analyse des métagénomes obtenus. En effet, si en métagénomique des pipelines d’analyse commencent à émerger, le choix des outils pour réaliser chacune des étapes reste encore très vaste (Figure 6). Certaines étapes, comme le binning (classement des objets à analyser dans diverses catégories) sont optionnelles. Le binning peut être placé avant ou après l’assemblage. Les analyses statistiques, quant à elles, sont variables et décrites dans la partie 2.3.
Chaque étape présente donc une multitude d’outils, pour lesquels les paramètres diffèrent, ce qui illustre bien l’absence de standardisation des méthodes.

De la diversité des données en métagénomique et en analyse de données microbiennes

Cette nouvelle discipline qu’est la métagénomique a donné naissance à de nouveaux jeux de données, les métagénomes. Il existe deux types de métagénomes (cf. Figure 4). En premier lieu, les métagénomes dits « ciblés » (ou encore « amplicon sequencing ») (1) séquencent dans l’environnement un marqueur précis, en général une partie de l’ARN ribosomique. Suite à cela, les microbes présents dans l’environnement sont prédits et des gènes sont prédits pour chaque microbe. Le terme métagénomique employé ici est considéré comme abusif dans plusieurs publications, et il est plutôt recommandé d’utiliser le terme « metaprofiling » (Escobar-zepeda et al. 2015) ou « metabarcoding » (Nagaraj et al. 2017).

L’autre type de données produites sont les métagénomes « non ciblés » (aussi appelés « shotgun sequencing »). Ce type de jeu de données est constitué en séquençant aléatoirement des fragments d’ADN (appelés « reads »). Les reads sont ensuite assemblés en « contigs », dans le but de reconstruire au maximum les génomes des microbes présents dans l’environnement.
Ces deux types de jeux de données sont traités à l’aide d’outils d’analyses différents, visant à répondre aux questions « quels sont les microbes présents ? » et « quels sont les gènes présents ?». Si les méthodes d’analyse des données ciblées tendent à converger vers un sentier de dépendance (cf 2.5), les méthodes d’analyse des données non ciblées sont, elles, encore très diverses.

Etude des microbiomes intestinaux de Podarcis sicula et sentier de dépendance

Nous avons adapté une définition de sentier de dépendance fournie par Sydöw pour appliquer cette notion en sciences. Selon cette nouvelle définition, un sentier de dépendance correspond à une convergence des méthodes d’analyses relatives à un type de données (par exemple, les métagénomes), dans le but de répondre à des questions bien identifiées. L’étude du microbiote en utilisant le marqueur 16S est engagé sur un sentier de dépendance. En effet, il existe des pipelines d’étude du microbiote qui sont standards. Par exemple, on utilise des Operational Taxonomic Units (OTUs) (Sneath and Sokal 1962) pour regrouper les séquences d’ARNr 16S. Les séquences sont regroupées ainsi : si une séquence présente 97 % de similitude avec au moins une autre séquence d’une OTU, alors cette séquence appartient elle aussi à l’OTU. Le seuil de similitude peut varier, cependant le chemin de dépendance emprunté par les études de microbiote le choisit préférentiellement. Cela permet de considérer qu’une OTU correspond à une espèce. En effet, une des définitions de l’espèce est que deux espèces sont distinctes l’une de l’autre si leurs ARNr 16S présentent moins de 97 % d’identité (Konstantinidis and Tiedje 2005). Bien que cette définition soit controversée, l’utilisation de ce seuil nous permet de nous inscrire dans un modèle biologique pré-existant. Il existe différents outils pour construire les OTUs, dont QIIME (Caporaso et al. 2010; Kuczynski, Stombaugh, Walters, González, J. Gregory Caporaso, et al. 2012) et MOTHUR (Schloss et al. 2009).

A partir de ces OTUs, la diversité des métagénomes est étudiée à l’aide d’outils tels que les indices de Shannon, Simpson, et Chao1 (Shannon 1948; Whittaker 1960, 1972). Les études de diversité utilisent un seul ou plusieurs de ces indices, qui sont détaillés dans le chapitre 3. Ensuite, on s’intéresse à la beta diversité. Là encore, plusieurs outils d’analyses sont disponibles (PcoA, NMDS, …)(Borcard, Gillet, and Legendre 2011) et sont détaillés dans le chapitre 3. Enfin, les OTUs sont annotées afin de pouvoir déterminer quelles sont les espèces présentes dans les métagénomes (à l’aide de BLAST (BLAST n.d.; Camacho et al. 2009; Johnson et al. 2008), de BLAT (Kent 2002), de CD-HIT (Fu et al. 2012),…).

En revanche, les études de microbiome ne convergent pas autant vers un sentier de dépendance. En effet, il existe de multiples façons de les étudier. Si l’on se réfère à la Figure 1 par exemple, on peut constater que la plupart du temps, l’assemblage des métagénomes en contigs (concaténation de reads en plus longue séquence, en se basant sur la similarité entre les reads) est une étape indispensable à l’analyse. Après l’assemblage en contigs, des ORFs (Open Reading Frames) sont prédites à l’aide d’outils tels que MetaGeneMark (Ismail, Ye, and Tang 2014; Zhu, Lomsadze, and Borodovsky 2010) et MetaGeneAnnotator (Noguchi, Taniguchi, and Itoh 2008). Suite à ces prédictions d’ORFs, il est possible d’annoter taxonomiquement et/ou fonctionnellement les ORFs, mais aussi de construire des Réseaux de Similarités de Séquences (RSS), comme présenté dans le chapitre 5. Ce second type d’analyses permet de choisir d’étudier des processus très différents, affectables au microbiome. Par exemple, il est possible d’étudier la structure de la communauté et de faire apparaître différentes figures de transmission, dont les transferts latéraux de gènes (Doolittle 1999; Zhaxybayeva and Doolittle 2011) (Roberts and Mullany 2010) (Figure 7).

Les cellules bactériennes sont représentées par les ovales verts et violets. L’ADN est représenté par l’hélice. Les transposons et plasmides sont des rectangles et cercles bleus. Les flèches montrent la direction du transfert d’ADN. (a) Transformation : la cellule donneuse (en haut à gauche) a subi une lyse et l’ADN a été libéré dans l’environnement. Cet ADN peut être réceptionné par une bactérie et incorporé dans son génome. (b) Conjugaison de plasmides. (c) Conjugaison de transposons via un pore d’accouplement. (d) transduction par l’intermédiaire d’une injection d’ADN par un bactériophage (Roberts and Mullany 2010).
Cependant, il est aussi possible d’étudier les microbiomes directement à partir des reads, en les annotant taxonomiquement et/ou fonctionnellement, mais aussi en construisant des réseaux de similarités de reads afin d’étudier la diversité présente dans les microbiomes (cf chapitre 5).
Il existe donc au moins 2 stratégies pour l’étude de microbiomes (assembler ou ne pas assembler les reads), comprenant au moins 3 types d’analyses chacune, avec plusieurs méthodes pour chaque type d’analyse. Il n’y a donc pas encore de sentier de dépendance pour l’étude de microbiomes.

Etudes du microbiote : une discipline engagée sur la phase II du sentier de dépendance (début de standardisation)

L’analyse des données ciblées correspond à une science engagée sur un sentier de dépendance. En effet, les analyses que l’on présentera par la suite sont assez standards.
Par exemple la diversité alpha, qui est une mesure classique de biodiversité à laquelle nous nous intéressons dans ce chapitre, peut se calculer à l’aide de différents indices. Les indices que nous présenterons ci-dessous (Shannon, Simpson, et Chao1) sont utilisés dans les études de diversité du microbiote (Bennett et al. 2013; Blasco et al. 2017; Yang et al. 2017). La méthode de calcul de la diversité bêta (distance de Bray-Curtis) est elle aussi standard, et sa visualisation à l’aide de la NMDS (« Non-metric MultiDimensional Scaling », appelée en français analyse multidimensionnelle non métrique, méthode statistique permettant de visualiser les similarités entre les individus d’un jeu de données) est classique (Borcard, Gillet, and Legendre 2011).

Choix des analyses et des méthodes utilisées

Analyse de la diversité

La première analyse que l’on a souhaité réaliser est une analyse de la diversité taxonomique dans les microbiotes. Cela fait suite à l’article de Ruth Ley (Ley et al. 2008), dans lequel il a été démontré que le microbiote intestinal des mammifères herbivores présentait plus de diversité taxonomique que le microbiote intestinal des Mammifères omnivores, lui-même plus diversifié que le microbiote intestinal des carnivores. Il est donc intéressant d’étudier si chez Podarcis sicula, qui est un vertébré non mammifère, nous retrouvons ce type de résultat, à savoir une différence de diversité associée à une différence de régime alimentaire.

La diversité taxonomique est souvent mesurée à l’aide du concept de richesse spécifique du milieu donné (Whittaker 1960, 1972). Trois mesures de richesses spécifiques existent :
– la diversité alpha, qui correspond au nombre d’espèces (ou d’OTUs) qui coexistent dans un milieu donné (ici, l’intestin du lézard) (Whittaker 1960, 1972),
– la diversité bêta, qui correspond à la différence de diversité des espèces entre plusieurs milieux (Whittaker 1960) (par exemple, l’intestin des lézards insectivores et celui des lézards omnivores). Il s’agit donc de comparer le nombre de taxons (phyla, ou genres, …) qui sont exclusifs et partagés entre des milieux que l’on compare.

– la diversité gamma, qui correspond au taux d’addition d’espèces lorsque l’on échantillonne le même milieu à différents endroits.
Dans le cas de notre étude, nous avons donc choisi de regarder la diversité alpha, qui permet de connaître la richesse spécifique d’un microbiote et la diversité bêta, afin de comparer la diversité entre nos échantillons, à l’échelle du genre et du phylum, pour les 62 individus.
La diversité alpha et la diversité bêta de chaque microbiote sont calculées à partir de la table d’abondances d’OTUs produites par QIIME. Dans ce cas, les variables en entrée sont les 32 850 OTUs.

Mesures de diversité alpha

L’indice de Shannon a été défini indépendamment par Claude Shannon (Shannon 1948) et par Norbert Wiener en 1948 (Wiener 1948). Cet indice représente à la fois le nombre d’espèces d’un milieu mais aussi la répartition des effectifs individuels au sein des espèces présentes. L’indice de Shannon se calcule ainsi (Shannon 1948): = − ∑ ln =1 où Pi représente l’abondance relative du taxon i.
Plus l’indice de Shannon est grand, plus la diversité taxonomique du microbiote est importante. Si cet indice est informatif sur la richesse en espèces et sur la répartition des effectifs individuels entre les espèces, il reste cependant des cas ambigus. En particulier, il est compliqué de différencier les cas de figures suivants, en se basant uniquement sur l’indice de Shannon :
– le milieu contient un grand nombre d’espèces à faibles effectifs,
– le milieu contient un petit nombre d’espèces très abondantes.
Le second indice utilisé est l’indice de Simpson. Cet indice a été défini par E.H. Simpson en 1949 (Simpson 1949). Il s’agit une mesure de régularité, cela signifie qu’il mesure la probabilité que deux individus pris au hasard appartiennent à la même espèce. La formule de l’indice de Simpson est la suivante : = ∑ ( − 1)/( − 1) avec Ni le nombre d’individus de l’espèce i, et N le nombre total d’individus
Enfin, le troisième indice de diversité alpha que l’on a souhaité utiliser est l’indice Chao1, parce qu’il tient davantage compte des espèces peu abondantes. Il est utilisé depuis 1984. Cet indice estime le nombre d’espèces non observées à partir de celles qui n’ont été observées qu’une ou deux fois. Cet indice de diversité est un estimateur minimum. Pour qu’il soit adapté au jeu de données, il est nécessaire que les singletons et les doublons représentent une part importante de l’information (i.e. que les taxa peu abondants soient nombreux). La formule permettant de calculer l’indice Chao1, S1* est le suivant (Colwell , Robert K., Coddington 1994) : 2 ∗= +( ) 1 2 où Sobs est le nombre de taxa observés dans l’échantillon, a le nombre d’espèces représentées par un seul individu dans l’échantillon, et b le nombre d’espèces représentées par exactement deux individus dans l’échantillon.
D’autres estimateurs de diversité alpha existent (Chao2, ACE, ICE,..) (Gotelli and Colwell n.d.), cependant les trois indices présentés ci-dessus nous permettent d’appréhender la diversité alpha avec suffisamment de précision.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. INTRODUCTION
1.1 Contexte de l’étude des microbiomes de Podarcis sicula
1.2 De l’individu à l’holobionte
1.2.1 Présentation du microbiote
1.2.2 Le microbiote intestinal et le régime alimentaire
1.2.3 Le microbiome : fonctions de la communauté microbienne
1.3 Objectifs de la thèse
2. De la diversité des méthodes à la standardisation des analyses
2.1 De la diversité des méthodes en métagénomique
2.1.1 Qu’est-ce que la métagénomique ?
2.1.2 Difficultés engendrées par la diversité des méthodes en métagénomique
2.1.3 La production des données métagénomiques
2.2 De la diversité des données en métagénomique et en analyse de données microbiennes
2.3 Etude des microbiomes intestinaux de Podarcis sicula et sentier de dépendance
2.4 Analyse de la diversité microbienne : de la difficulté (paradoxale) de voir large en métagénomique (chapitre de livre n°1).
3. Le changement de régime alimentaire des Podarcis sicula est associé à des changements ciblés dans le microbiote
3.1 Études du microbiote : description des données
3.2 Etudes du microbiote : une discipline engagée sur la phase II du sentier de dépendance (début de standardisation)
3.3 Choix des analyses et des méthodes utilisées
3.3.1 Analyse de la diversité
3.3.1.1 Mesures de diversité alpha
3.3.1.2 Mesures de diversité bêta
3.3.2 Analyse de la composition du microbiote
3.3.2.1 Présence d’un microbiote ubiquitaire chez Podarcis sicula
3.3.2.2 Présence d’entérotypes chez le Podarcis sicula
3.3.2.3 Identification des taxa associés au changement de régime alimentaire
3.3.2.4 Identification des variables permettant de construire un modèle expliquant les tables d’abondance taxonomiques
3.4 Le régime alimentaire et la provenance géographique de populations sauvages de lézards impacte leur microbiote intestinal au niveau des taxa rares (article n°1).
4. Le changement de régime alimentaire chez Podarcis sicula est associé à des changements ciblés dans le microbiome
4.1 Présentation de l’ensemble du jeu de données microbiome
4.2 Présentation du jeu de donnée utilisé dans cette étude
4.3 Impact du régime alimentaire du Podarcis sicula sur les catégories COGs
4.3 Impact du régime alimentaire du lézard sur les voies métaboliques
4.4 Perspectives
5. Utilisation de réseaux de similarité dans l’étude des microbiomes intestinaux
5.1 Les réseaux de similarité de séquences
5.1.1 Présentation des réseaux de similarité de séquences (RSS)
5.1.2 Les réseaux de similarités d’ORFs
5.1.3 Les graphes bipartis
5.1.4 Etude des règles d’introgression et de transmission avec des réseaux (chapitre de livre n°2)
5.1.5. Les réseaux de similarités de reads
5.2 Les k-laminaires
5.3 Détection de laminaire et découpage des composantes connexes (article n°2)
5.4 Les boucles et points de jonction
5.5 Création d’indices quantifiables afin de pouvoir analyser statistiquement la diversité
6. Conclusion
6.1 De la diversité des méthodes à la standardisation des analyses
6.2 Le changement de régime alimentaire de Podarcis sicula est associé à des changements ciblés dans le microbiote
6.3 Le changement de régime alimentaire de Podarcis sicula est associé à des changements ciblés dans le microbiome
6.4 Proposition de l’hypothèse des changements ciblés
6.5 De la diversité des contextes génomiques dans les réseaux de similarité de reads
6.6 Recherche des règles d’introgression et de transmission dans les microbiomes à l’aide de réseaux
6.7 Perspective : Quantifier et identifier la matière noire.
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *