Détection de gènes coadaptés par analyse pangénomique de signatures de sélection épistatique

La diversité génétique

Depuis l’apparition de la vie sur terre et l’hypothétique premier ancêtre commun LUCA (Last Universal Commun Ancestor), les organismes vivants ont évolué et se sont diversifiés. La diversité génétique est à la base de l’évolution, elle représente toutes les variations naturelles possibles entre les génomes ou les chromosomes des individus d’une même espèce ou de différentes espèces. Cette diversité génétique est à la source de la diversité phénotypique, c’est-à-dire d’une multitude de variations biologiques interindividuelles qui évoluent dans des environnements spécifiques. Les individus d’une même espèce ne sont pas génétiquement identiques, leurs séquences d’ADN diffèrent en un grand nombre de positions et ces différences constituent la diversité génétique, appelée également le polymorphisme génétique. La diversité génétique est essentielle pour permettre l’adaptation des espèces. Elle contribue par exemple au développement des différences en termes de résistance aux agents pathogènes, de stratégies de survie ou de reproduction, ou plus généralement de caractéristiques moléculaires, cellulaires, physiologiques ou morphologiques qui évoluent en fonction des modifications de l’environnement d’un organisme. De manière générale, la diversité génétique varie entre les espèces ; par exemple, le génome de Drosophila simulans présente une variabilité génétique moyenne de 3% (Begun et al., 2007; Ellegren & Galtier, 2016; Lack et al., 2015), tandis que le génome humain est variable à 0.1% (McVean et al., 2005, The 1000 Genomes Project Consortium 2015). Le polymorphisme varie également au sein des génomes entre différents locus ou entre les chromosomes, cela a pu être montré par exemple chez la plante modèle Arabidopsis thaliana (Magnus Nordborg et al., 2005) ainsi que chez le maïs (Tenaillon et al., 2001), chez l’homme (Sachidanandam et al., 2001) ou le poulet (Wong et al., 2004). Le polymorphisme varie aussi selon la fonction des séquences d’ADN. Ainsi, les séquences géniques codant pour des protéines dont les fonctions sont souvent préservées dans l’évolution sont généralement plus conservées que les séquences intergéniques.

Méthodes d’associations génotype-phénotype et génotypeenvironnement

Les analyses de GEA exploitent les données de polymorphisme entre les individus de différentes populations qui évoluent dans des environnements spécifiques et qui présentent des phénotypes localement adaptés. Ces analyses se focalisent sur l’identification de locus dont les variants alléliques sont associés à des variables de l’environnement. Ces dernières peuvent être, par exemple, des variables climatiques qui sont considérées comme des agents sélectifs auxquels les populations vont répondre par un processus d’adaptation locale (Coop et al., 2010). Deux grands types d’approches sont proposées pour réaliser des analyses de GEA : les approches ‘individus-centrées’ dont les données de génotypes sont constituées d’un individu par sous-population et les ‘approches populationnelles’, plus récentes, qui prennent en compte plusieurs individus par population et qui intègrent donc la variation génétique intra-populationnelle (Coop et al., 2010; Frachon et al., 2018, 2019; Gautier, 2015; Günther & Coop, 2013). Dans la littérature, il existe plusieurs exemples d’analyses GEA notamment chez les plantes modèles Arabidopsis thaliana (Hancock et al., 2011) et Medicago truncatula (Burgarella et al., 2016; Yoder et al., 2014). Une étude récente menée chez A. thaliana a montré l’association entre des variants génétiques et la diversité α, qui est la composition et l’abondance des espèces végétales au contact des populations naturelles de cette espèce (Frachon et al., 2019). Cette analyse de GEA a permis d’identifier des gènes candidats impliqués dans les interactions plante-plante dont, notamment, des gènes de réponse à l’altération de la lumière. La plupart des analyses de GEA sont aussi réalisées à partir de variables environnementales abiotiques telles que la température, le taux d’humidité ou la luminosité (Ferrero-Serrano & Assmann, 2019; Hancock et al., 2011). Les corrélations génotype-environnement identifiées au cours d’analyses GEA sont le reflet de la variation des fréquences alléliques entre les populations analysées en réponse aux changements de l’environnement et cela peut-être la signature génétique d’adaptation locale par sélection naturelle. Toutefois, les variations génétiques qui sont associées à une variable environnementale ne sont pas nécessairement adaptatives mais il est possible de tester cette hypothèse en recherchant des signatures de sélection sur ces mêmes locus. Une étude menée chez la plante Medicago truncatula a identifié un certain nombre de SNP en association avec des variables climatiques, et les locus ainsi identifiés présentaient également des signatures génétiques de balayage sélectif (Yoder et al., 2014). Par une approche ciblée sur les gènes de floraison, il a aussi été montré que chez Medicago truncatula, le temps de floraison intervient dans l’adaptation au régime annuel de précipitations. Ceci se fait principalement par la variation allélique sur des gènes dont la position dans les voies de signalisations de la floraison est proche des stimuli environnementaux (Burgarella et al., 2016). Les approches de cartographie de QTL et de GWAS étudient les relations entre les variations génétiques et les variations pour des traits phénotypiques quantitatifs. Les approches de cartographie de QTL sont réalisées à partir de populations « artificielles » issues de croisements contrôlés, telles que les RIL (Recombinant Inbred Lines), ou simplement à partir de populations dont on connait le pedigree des individus génotypés. .Les approches de GWAS sont réalisées avec des populations naturelles. Les populations artificielles étant difficiles à mettre en place chez certaines espèces et notamment les espèces animales, la GWAS présente un avantage majeur par rapport aux méthodes de cartographie de QTL traditionnelles. De plus, les GWAS reflètent mieux la variation génétique à l’échelle des populations, contrairement aux approches de cartographie de QTL qui sont limitées à la diversité génétique parentale des populations issues de croisements. Les analyses de GWAS identifient donc des associations génotype-phénotype en recherchant, dans une population, des corrélations significatives entre les génotypes aux marqueurs SNP et les valeurs (quantitatives ou qualitatives) phénotypiques mesurées sur les individus (Bergelson & Roux, 2010; Bonhomme & Jacquet, 2020). La probabilité de détecter des QTL associés à une variable phénotypique dépend de l’héritabilité de ce trait, autrement dit, de la proportion de la variation du trait phénotypique qui est due à des différences génétiques entre les individus. Cette probabilité va dépendre aussi de la fréquence des allèles aux QTL. Chez les plantes, les premières analyses de GWAS ont été réalisées chez Arabidopsis thaliana sur une variété de phénotypes liés à la résistance aux pathogènes, au développement et à la floraison (Atwell et al., 2010; Hancock et al., 2011). Les premières études de GWAS chez M. truncatula portent sur des phénotypes de nodulation, de croissance, de floraison (Stanton-Geddes et al., 2013) et de résistance à l’oomycète Aphanomyces euteiches(Bonhomme et al., 2014, 2019). Les variations génétiques identifiées en association avec un trait phénotypique ne sont pas nécessairement des variations génétiques adaptatives, tout comme il n’est pas toujours démontré que le trait phénotypique étudié est adaptatif. Afin de tester si les mutations identifiées par GWAS sont des mutations adaptatives, il est possible de rechercher des signatures de sélection aux locus identifiés par GWAS. Ainsi, les approches de génétique d’association visent à identifier les déterminants génétiques de la variation phénotypique, qui peut elle-même être la cible de la sélection naturelle (Flood & Hancock, 2017; Josephs et al., 2017; Magnus Nordborg & Weigel, 2008; Schork et al., 2009).

Description générale des réseaux génomiques d’interactions génétiques et de leurs propriétés

Pour analyser l’ensemble des résultats de DL produits à l’échelle du génome de Medicago truncatula, nous avons utilisé une approche réseau. La Figure 40 présente les réseaux d’interactions construits avec les résultats de DL calculés entre chaque paire de gènes du génome de M. truncatula dans la population entière et les populations FW et C. Les réseaux ont été construits avec le logiciel Cytoscape (Shannon et al., 2003), les nœuds correspondent à des gènes et deux gènes sont reliés par une arête si la p-valeur du test de corrélation (statistique ??????1?) est inférieure au seuil de 10-11. Un filtre supplémentaire est ajouté afin de réduire le bruit de fond au sein des réseaux ; seuls les nœuds (i.e. gènes) possédant au moins trois arêtes significatives au seuil fixé sont conservés. De cette façon, tous les gènes qui ne possèdent qu’une ou deux interactions significatives au seuil de 10-11 ne sont pas représentés et cela permet d’éliminer certains gènes. De plus, le DL est calculé entre toutes les paires de gènes de M. truncatula impliquant à la fois des interactions longue distance entre paires de gènes pouvant être liées à de la sélection épistatique, mais aussi de la liaison physique entre des gènes proches produisant également du DL. Pour construire ces réseaux, les interactions intrachromosomiques et interchromosomiques ont été représentées sans qu’il n’y ait de filtre sur le DL physique (intrachromosomique). Ainsi lorsque nous représentons le DL à l’échelle globale dans les trois populations, cela produit des réseaux denses avec un nombre de nœuds très important, et constitués d’une composante connexe principale comportant la plupart des gènes et des petites composantes connexes annexes. Une composante connexe est définie comme un sous-graph connexe maximal c’est-à-dire un ensemble de points qui sont reliés deux à deux par un chemin.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1. Diversité génétique et forces évolutives
1.1 La diversité génétique
1.2 Les forces évolutives
1.2.1 Les forces génomiques
1.2.2 Les forces démographiques
1.2.3 La sélection naturelle
2. Détection des bases génétiques de l’adaptation
2.1 Méthodes d’associations génotype-phénotype et génotype-environnement
2.2 Méthodes basées exclusivement sur les données génétiques
2.2.1 Les approches interspécifiques
2.2.2 Les approches intraspécifiques de génétique des populations
3. L’épistasie
3.1 Définition de l’épistasie
3.2 La sélection épistatique
3.3 Exemples de sélection épistatique dans la littérature
4. Projet de thèse
4.1 Contexte scientifique et modèle biologique
4.2 Objectifs de la thèse
Chapitre 1 : Simulations génétiques et détection statistique de la sélection épistatique entre paires de locus
1.1 Présentation des modèles théoriques de sélection épistatique
1.1.1 Le modèle de coadaptation
1.1.2 Le modèle compensatoire
1.1.3 Le modèle neutre
1.1.4 Influence d’autres facteurs : structure génétique, système de reproduction, interaction entre les allèles d’un même locus
1.2 Les outils statistiques de détection de la sélection épistatique
1.2.1 Les statistiques classiques de déséquilibre de liaison
1.2.2 Les statistiques de déséquilibre de liaison qui prennent en compte la structure des populations et l’apparentement entre les individus
1.2.2.1 Mesures du DL dans les populations structurées
1.2.2.2 Mesures du DL corrigées par la structure des populations
1.2.2.3 Mesures du DL corrigées pour la structure et l’apparentement
1.2.2.4 Mesures du DL sur des fenêtres génomiques
1.3 Les outils statistiques de détection de la sélection naturelle
1.4 Description des Simulations
1.4.1 Les simulations « backward » par coalescence
1.4.2 Simulations « forward » avec SimuPop – python
1.5 Résultats des simulations
1.5.1 Contrôle qualité des simulations
1.5.2 Déséquilibre de liaison entre paires de locus sous sélection épistatique
1.5.3 Contrôle du taux de faux positifs et puissance de détection des statistiques de DL
1.5.4 Signatures de sélection sur les locus en épistasie dans les simulations
Chapitre 2 : Détection de gènes sous sélection épistatique
2.1 Présentation des données
2.1.1 Description des données de Medicago truncatula
2.1.1.1 Histoire démographique et structure des populations chez M. truncatula
2.1.2 Description des données humaines
2.2 Approche GWESS avec une méthode appât
2.2.1 Principe – méthode de l’approche appât
2.2.1.1 Approche appât chez Medicago truncatula
2.2.1.2 Approche appât chez l’humain
2.2.2 Approche appât chez Medicago truncatula
2.2.2.1 Association entre le gène candidat MtSUNN et MtCLE02
2.2.2.2 Association entre le gène candidat MtCRA2 et MtRPG
2.2.2.3 Association entre le gène candidat MtNIN et MtSHR
2.2.3 Approche appât chez l’humain
2.2.3.1 Association entre les gènes SLC24A5 et EDAR
2.2.4 Conclusion/Discussion approche appât
2.3 Polymorphisme moléculaire des gènes de Medicago truncatula et traces de sélection sur les gènes en épistasie
2.3.1 Polymorphisme à l’échelle du génome
2.3.2 Signatures de sélection sur des gènes en épistasie
2.4 Signatures génomiques de sélection épistatique chez M. truncatula
2.4.1 Approche exploratoire par l’analyse de sets de gènes candidats
2.4.1.1 Analyse de gènes candidats de même voies biologiques
2.4.1.2 Analyse de gènes candidats de même fonctions moléculaires
2.4.2 Approche systémique par l’analyse de réseaux génomiques d’interactions entre gènes
2.4.2.1 Description générale des réseaux génomiques d’interactions génétiques et de leurs propriétés
2.4.2.2 Sous-réseaux génomiques d’interactions ancrés sur des gènes symbiotiques
Synthèse et perspectives
1. Méthodologie statistique et simulations
1.1 Evolution des allèles des SNP simulés
1.2 Evolution du déséquilibre de liaison
1.3 Contrôle des faux positifs et puissance de détection de la sélection épistatique
1.4 Signatures de sélection sur les locus en épistasie
2. Détection de gènes sous sélection épistatique à l’aide de données SNP
2.1 L’approche GWESS avec un gène « appât »
2.2 L’approche GWESS chez Medicago truncatula
2.3 L’approche GWESS chez l’homme
2.4 Perspectives pour l’approche GWESS
2.5 Polymorphisme des gènes de M. truncatula et traces de sélection sur les gènes en épistasie
2.6 Signatures génomiques de sélection épistatique chez M. truncatula
3. Conclusion
Publications
Bibliographie