Les polymorphismes génétiques
L’ADN peut subir différents types de modifications de sa séquence nucléotidique. On distingue les substitutions d’un acide nucléique par un autre ou SNP (pour single nucleotide polymorphism) des autres polymorphismes, appelés variantions structurelles. Ces derniers rassemblent les inversions de séquences plus ou moins longues, les insertions et délétions d’un ou plusieurs nucléotides, et l’amplification d’un motif répété de nucléotides (Feuk et al. 2006). Ce dernier type de polymorphisme est réparti en trois classes d’éléments en fonction de la longueur des motifs répétés. On distingue les microsatellites, de 1 à 6 pb (paires de bases), les minisatellites, de 6 à 100 pb, et les variations du nombre de copies (CNV, copy number variation), de quelques centaines de bases à plusieurs mégabases (Kidd et al. 2008, Redon et al. 2006, Sebat et al. 2004). Ces mutations créent de la diversité, mais ne seront transmises à la descendance que si elles apparaissent dans les cellules de la lignée germinale, à l’origine des gamètes, et pourront alors se propager dans la population. Les SNP sont les mutations les plus nombreuses dans le génome humain et les plus étudiées en génétique des populations, notamment dans le cadre des études d’association entre génotype et phénotype (GWAS, genome-wide association studies) et de la détection de la sélection naturelle. Les études d’association ont permis de montrer que de nombreuses mutations pouvaient expliquer, au moins partiellement, des variations phénotypiques (Welter et al. 2014). La dernière version de la base de données dbSNP (build 142, octobre 2014, Sherry et al. (2001)) recense un peu plus de 88 millions de SNP validés. Ces mutations proviennent principalement de deux types de mécanismes : une erreur de la machinerie de réplication de l’ADN entraînant l’insertion d’un nucléotide erroné, ou une erreur du système de réparation de l’ADN suite à une altération physique (radiation ionisante, rayons ultraviolets ou UV), ou chimique (exposition à des molécules mutagènes) de la molécule d’ADN (Friedberg 2003). Le taux de mutation dans l’espèce humaine est d’environ 10−8 par site et par génération. Cependant, ce taux est très variable selon les régions du génome (Campbell et al. 2012). En particulier, les dinucléotides CpG présentent un taux de mutation environ dix fois supérieur (Nachman and Crowell 2000), et certaines régions hypervariables du génomes peuvent présenter un taux de mutation allant jusqu’à 10−5. On constate que les transitions, c’est-à-dire les remplacements d’une purine par une autre (adénosine (A) <-> guanine (G)) ou d’une pyrimidine par une autre (cytosine (C) <-> thymine (T)) sont beaucoup plus fréquentes que les transversions (Nei 1987). Des études récentes comparant les mutations rares spécifiques de chaque population suggèrent que ce taux de mutation pourrait avoir varié au cours de l’histoire de l’espèce humaine, avec notamment une augmentation de la fréquence de mutations spécifiques de l’exposition aux UV chez les Européens (Harris 2015). Si les SNP sont beaucoup plus fréquents que les variations structurelles, ces derniers, de par leur longueur, représentent une part importante de la diversité génétique humaine. Ils pourraient en effet représenter jusqu’à 13% du génome (Stankiewicz and Lupski 2010). dbVar (www.ncbi.nlm.nih.gov/dbvar) recense près de 3,5 millions de variations structurelles, dont 1 868 inversions, qui peuvent concerner quelques bases ou des fragments importants de chromosomes. Les insertions ou délétions de fragments d’ADN sont aussi de tailles très variables. Le 1,000 Genomes Project a permis d’en identifier près de 1,5 million, et dbVar compte aujourd’hui plus de 1,2 millions d’insertions. Quant aux amplifications de motifs nucléotidiques, on a découvert environ 379 000 microsatellites (microsatDB, http ://discovery.vbi.vt.edu/MicrosatDB), des centaines de types de minisatellites, chaque type pouvant être répété sur des centaines ou milliers de paires de bases (Vergnaud and Denoeud 2000), et plus de 353 000 CNV (The Database of Genomic Variants, MacDonald et al. (2014)). Ces variations structurelles proviennent d’erreurs du mécanisme de réplication, de la réparation des cassures double-brins de l’ADN, et de la recombinaison méiotique (Conrad et al. 2010, Gu et al. 2008). Ils présentent un taux de mutation beaucoup plus élevé que les substitutions, allant de 10−3 à 10−5 (Lupski 2007) et peuvent avoir des effets importants sur le phénotype (Conrad et al. 2010, Cooper et al. 2007, Hurles et al. 2008, Stankiewicz and Lupski 2010).
La dérive génétique et la taille des populations
La dérive génétique désigne la variation stochastique des fréquences alléliques dans une population en l’absence de sélection naturelle (Nei 1987, Wright 1931). Dans ces conditions, et sous isolement génétique (absence de migration), l’ensemble des allèles présents dans une génération proviennent d’un échantillonnage aléatoire des allèles dans le réservoir constitué par la génération précédente, et la probabilité de transmission d’un allèle d’une génération à l’autre dépend de la taille efficace de la population Ne, c’est-à-dire du nombre d’individus pouvant se reproduire dans une population où les rencontres sont aléatoires. Ainsi, une mutation qui apparaît dans une population humaine et donc diploïde a une probabilité de fixation égale à 1 2Ne, et l’espérance du temps de fixation de cette mutation est égal à 4Ne générations. La dérive génétique influe donc sur les fréquences alléliques et provoque une diminution de la diversité génétique. Selon ce modèle, les changements de taille d’une population ou histoire démographique vont avoir un impact direct sur sa diversité génétique. Une augmentation de la taille de la population (expansion) entraîne une plus faible dérive génétique et une augmentation de la diversité génétique de la population, alors qu’une réduction de la taille de la population ou goulot d’étranglement provoque une forte dérive génétique, avec la disparition ou la fixation d’un certain nombre d’allèles, et une diminution de la diversité génétique. L’effet fondateur, qui se produit lorsqu’un petit groupe d’individus se sépare d’une population mère pour fonder une nouvelle population, est un cas de forte dérive génétique qui provoque une diminution importante de la diversité génétique et une variation considérable des fréquences des allèles.
L’histoire démographique des populations humaines
Nous venons de le voir, les modifications de la taille d’une population et les événements de migration influencent sa diversité génétique. Il est aujourd’hui possible de faire le chemin inverse, et de se servir de l’étude la variabilité du génome humain, ainsi que des données archéologiques pour établir l’histoire démographique et migratoire des populations humaines. L’analyse phylogéographique du génome mitochondrial et du chromosome Y ont d’abord permis d’identifier l’origine africaine de l’espèce humaine (Cann et al. 1987, Cavalli-Sforza and Feldman 2003, Ingman et al. 2000, Thomson et al. 2000). Les datations génétiques et les enregistrements fossiles s’accordent à dater l’apparition de notre espèce il y a environ 200 000 ans en Afrique (Chen et al. 1995, Ingman et al. 2000, McDougall et al. 2005, Santos-Lopes et al. 2007). D’après l’étude des plus vieux fossiles retrouvés hors d’Afrique (Mellars 2006) et les datations génétiques à partir de données mitochondriales (Macaulay 2005, Les branches en bleu désignent la lignée humaine, les branches en violet, celles des Hommes archaïques Neandertal et Denisova. Les changements de taille efficace des populations sont donnés à titre indicatif (expansion modérée ou forte, goulot d’étranglement). Les variations d’épaisseur des branches ne représentent les facteurs réels d’expansions et de réductions. Pour l’Afrique sub-saharienne, des exemples de populations représentatives de chaque régime démographique sont notés en-dessous de chaque branche. w-RHG : chasseurs-cueilleurs Pygmées de l’Ouest de l’Afrique Centrale. e-RHG : chasseurs-cueilleurs Pygmées de l’Est de l’Afrique Centrale. Quintana-Murci et al. 1999) et autosomales (Excoffier et al. 2013, Fagundes et al. 2007, Gravel et al. 2011, Hellenthal et al. 2008, Laval et al. 2010, Schaffner et al. 2005), de petits groupes de populations seraient ensuite sortis d’Afrique il y a entre 50 000 et 75 000 ans par la péninsule arabique avant de coloniser toute la planète (Océanie, Eurasie, Amérique). La plus grande diversité génétique des populations africaines et le fait que la diversité génétique des populations non africaines soit une sous-partie de la diversité génétique africaine corroborent ce modèle (Excoffier 2002, The 1000 Genomes Project 2010, The International HapMap 3 Consortium 2010, The International HapMap Consortium 2007). Les génomes d’Hommes archaïques, obtenus grâce à l’avancée des techniques de séquençage de l’ADN ancien ont fourni des preuves que des événements d’admixture se sont produits entre Néandertal et les ancêtres des populations eurasiennes il y a environ 50 000 à 60 000 ans (Fu et al. 2014, Green et al. 2010, Prüfer et al. 2014). Une cartographie des fragments de génome de Néandertal présents dans le génome des Hommes modernes a révélé qu’ils représentent entre 1,5 à 2,1% du génome des Européens et des Asiatiques, et que Néandertal a plus contribué au génome des populations asiatiques (Sankararaman et al. 2012, Vernot and Akey 2014, Wall et al. 2013), révélant un processus d’admixture complexe (Vernot and Akey 2015). De plus, 2 à 8% du génome des populations asiatiques et océaniennes d’Homme moderne proviendraient de Denisova (Prüfer et al. 2014, Reich et al. 2010, 2011). Enfin, le génome des populations africaines porte des traces d’admixture avec une population d’Hommes archaïques non identifiée (Hammer et al. 2011, Lachance et al. 2012, Plagnol and Wall 2006). Ces éléments, ainsi que le croisement de données de génotypage et de séquençage avec des résultats de simulations, ont permis d’établir un modèle de variation des tailles des populations humaines résumant la diversité génétique humaine (figure 2). On distingue ainsi une séparation entre populations africaines et non africaines il y a 50 000 à 75 000 ans. Les populations africaines ont ensuite traversé un épisode d’expansion modérée, alors que la sortie d’Afrique s’est accompagnée d’un ou plusieurs goulots d’étranglement. Enfin, les populations asiatiques et européennes se sont séparées il y environ 20 000 ans, avant de connaître une expansion forte (Excoffier et al. 2013, Fagundes et al. 2007, Gravel et al. 2011, Laval et al. 2010, Schaffner et al. 2005). Des méthodes récentes ont permis de cartographier à une échelle plus fine les nombreux événements de migration et d’admixture ayant rythmé l’histoire démographique humaine (Alexander et al. 2009, Schiffels and Durbin 2014). Plus généralement, les populations humaines suivent donc un modèle d’isolement avec migration, où deux groupes d’individus se séparent par isolement géographique ou reproductif, puis échangent des migrants à un taux variable.
Distinguer démographie et sélection positive
Je l’ai évoqué dans les paragraphes précédents, les statistiques basées sur des comparaisons inter-spécifiques, sur l’analyse du spectre de fréquences alléliques et sur la différenciation entre populations sont sensibles à l’histoire démographique des populations (tableau 1). Or les populations humaines ne sont pas de taille constante (figure 2), les Africains montrant une variabilité génétique compatible avec une expansion modérée, alors que les Européens et les Asiatiques ont une variabilité génétique compatible avec un ou plusieurs goulots d’étranglement suivis d’une expansion importante. Pour distinguer les effets de l’histoire démographique et de la sélection naturelle, on peut tirer profit du fait que la première affecte l’ensemble du génome, alors que la seconde n’affecte que localement la diversité génétique autour de la mutation sélectionnée. Pour détecter la sélection positive dans les populations humaines, on peut donc comparer les valeurs obtenues sur une région candidate en utilisant une statistique donnée à une distribution nulle intégrant les effets de la démographie. Celle-ci peut être obtenue en calculant les valeurs de cette même statistique sur des régions du génome supposées évoluer sous neutralité, et qui reflètent donc uniquement l’histoire démographique de la population. Si l’histoire démographique de la population est connue, cette distribution peut également être obtenue par simulation d’un modèle démographique réaliste (Fagundes et al. 2007, Gravel et al. 2011, Laval et al. 2010, Schaffner et al. 2005, Voight et al. 2005). Il existe également des statistiques basées sur l’étude du spectre de fréquence allélique et corrigeant directement en interne les effets de la démographie, comme le MFDM (Li 2011) qui étudie le déséquilibre de l’arbre des fréquences alléliques à un loci ou le CLR (composite likelihood ratio, Nielsen et al. (2005b)), et son équivalent comparant les fréquences alléliques dans plusieurs populations l’XP−CLR (Chen et al. 2010) qui combinent les scores obtenus pour plusieurs sites dans une région donnée. Enfin, la comparaison des valeurs des statistiques directement entre sites fonctionnels (sites codants ou régulateurs) et apparemment non fonctionnels permet également d’identifier des régions sous sélection positive (Barreiro et al. 2008, Bustamante et al. 2005, The 1000 Genomes Project 2010, The International HapMap Consortium 2007, Voight et al. 2006). Dans tous les cas, l’utilisation de ces tests nécessite une annotation précise et fiable du génome pour distinguer les régions potentiellement fonctionnelles (régulatrices ou codant des protéines) des régions évoluant sous neutralité.
|
Table des matières
INTRODUCTION
1 De la diversité génétique à la variabilité phénotypique
1.1 Les facteurs génomiques à l’origine de la diversité génétique
1.1.1 Les polymorphismes génétiques
1.1.2 La recombinaison méiotique
1.2 Les facteurs démographiques influençant la diversité génétique
1.2.1 La dérive génétique et la taille des populations
1.2.2 Isolement, migration, flux génique
1.2.3 L’histoire démographique des populations humaines
2 La sélection naturelle
2.1 Les différents types de sélection naturelle
2.1.1 La sélection positive
2.1.2 La sélection négative
2.1.3 La sélection balancée
2.2 Détecter la sélection positive
2.2.1 L’apport des comparaisons inter-spécifiques
2.2.2 L’étude du spectre de fréquence allélique
2.2.3 La différenciation entre populations
2.2.4 Les variations locales de la longueur des haplotypes
2.2.5 Distinguer démographie et sélection positive
3 La sélection positive à l’heure des études génomiques
3.1 Exemples de sélection positive dans les populations humaines
3.1.1 Adaptation au climat
3.1.2 Adaptation aux changements de régimes alimentaires
3.1.3 Adaptation aux pathogènes
3.2 Apports et limites des études génomiques pour l’étude de la sélection positive
3.2.1 Intérêts des études « génome entier »
3.2.2 Le séquençage à haut débit, avantages et problèmes potentiels
4 Les acteurs épigénétiques, sources de variabilité phénotypique
4.1 Les différents acteurs épigénétiques
4.1.1 Les états chromatiniens et l’expression des gènes
4.1.2 Les différents acteurs épigénétiques
4.2 La méthylation de l’ADN : genèse des profils et rôle
4.2.1 Les mécanismes de méthylation et de déméthylation chez l’Homme
4.2.2 Le profil de méthylation de l’ADN chez l’humain : caractérisation et conservation
4.2.3 Les rôles de la méthylation de l’ADN
5 Variation des profils de méthylation de l’ADN et influence de divers facteurs
5.1 Les variations des profils de méthylation
5.1.1 Variabilité des profils de méthylation au cours de la vie
5.1.2 Variabilité des profils de méthylation entre individus et entre populations
5.2 Variations des profils de méthylation : facteurs génétiques et environnementaux
5.2.1 Les facteurs génétiques de la variabilité des profils de méthylation
5.2.2 Les facteurs environnementaux de la variabilité des profils de méthylation
5.2.3 Héritabilité des profils de méthylation
OBJECTIFS DE LA THÈSE
RÉSULTATS
6 Existence et fréquence des balayages sélectifs dans le génome humain
6.1 Contexte
6.2 Article 1
6.3 Conclusions et discussion
6.3.1 Résumé des résultats et nouveautés
6.3.2 Intérêts
7 Environnement, génétique et variation des profils de méthylation de l’ADN
7.1 Contexte
7.2 Article 2
7.3 Conclusions et discussion
7.3.1 Résumé des résultats et nouveautés
7.3.2 Intérêts
DISCUSSION
8 Perspectives
8.1 Vers un tableau plus complet de l’action de la sélection positive sur le génome humain
8.1.1 Au-delà des gènes : quel impact de la sélection positive et régions régulatrices du génome ?
8.1.2 Les autres modes de sélection positive : quel impact sur la diversité phénotypique humaine ?
8.2 Reproductibilité et effets phénotypiques des variations épigénétiques associées à l’environnement
8.2.1 Les variations de méthylation liées à l’environnement : quel impact sur l’expression des gènes ?
8.2.2 Reproductibilité des variations épigénétiques associées à l’environnement
8.3 L’environnement et la diversité génétique, épigénétique et phénotypique : un modèle d’adaptation plus complexe ?
9 Conclusion générale
BIBLIOGRAPHIE
Télécharger le rapport complet