Télécharger le fichier pdf d’un mémoire de fin d’études
Polymorphismes génétiques
Les polymorphismes génétiques sont des différences génétiques entre individus qui sont transmissibles d’une génération à l’autre. Ces variations s’étendent de la taille d’un chromosome à la simple variation de base nucléotidique. Les différents variants observables sont appelés allèles. Les polymorphismes ont des mécanismes de genèse différents mais ont souvent pour origine des dysfonctionnements des mécanismes de réplication du génome.
1 Polymorphismes chromosomiques
Lespolymorphismes chromosomiques sont des altérations de l’intégrité des chromosomes appelées aneuploïdies. Elles peuvent représenter des relocalisations de fragments de chromosomes telles que des translocations, inversions, fusions ou fissions (figure 4).
L’aneuploïdie peut aussi porter sur des chromosomes entiers ce qui entraînera chez l’espèce humaine des dysfonctionnements plus ou moins grave pouvant aller jusqu’à l’inviabilité de l’organisme. On peut citer dans les aneuploïdies viables, la monosomie du chromosome X appelée syndrome de Turner [2] ou bien la trisomie XXY appelée syndrome de Klinefelter [3].
1 Séquences répétées en tandem
Appelés satellites, minisatellites ou microsatellites en fonction de leurs tailles, ces séquences répétées en tandem correspondent à la répétition d’un motif particulier dans une séquence. Ce sont des polymorphismes multi-alléliques (plus de deux allèles observables au sein de la population). Les microsatellites sont des motifs de 1 à 5 paires de bases répétées de 2 à 50 fois pour une taille totale inférieure à 300 paires de bases ; les mini-satellites sont des motifs de 15 à 100 paires de bases répétés entre 15 à 50 fois pour une taille totale entre 1 et 5 kb ; les satellites sont de grands motifs (alpha : 171 paires de bases, beta : 68 pb) répétés en tandems entrant la plupart du temps dans des mécanismes cellulaires tels que la méiose [4].
De tels polymorphismes peuvent avoir un impact sur le bon fonctionnement d’une unité génétique comme dans le cas de la dystrophie myotonique [5] où un codon CTG est répété à plus de 37 copies dans le gène DMPK, perturbant ainsi la structure de la protéine.
1 Insertion-délétion
Les insertions-délétions ou plus communément appelées indels sont des fragments nucléotidiques rajoutés ou retirés par rapport au génome de référence. Ils sont pour la plupart du temps bi-alléliques et sont notés A/AT ou bien -/T dans les bases de données. Ils s’étendent de 1pb à 1kb. En général, lorsqu’ils sont présents dans la séquence codante, ils entraînent un décalage du cadre de lecture entraînant une traduction totalement différente de l’originale. En moyenne, un être humain compte entre 192 et 280 décalages du cadre de lecture dans son génome [6].
1 Polymorphisme du nombre de copies CNV
Les « Copy Number Variations » sont un type de polymorphisme correspondant à une large séquence d’ADN (>1kb jusqu’à plusieurs Mb) présente en un nombre variable de copies par rapport au génome de référence. Contrairement aux satellites, ils ne sont pas répétés en tandem mais à travers tout le génome. Les CNVs sont issus d’évènements d’insertion, de délétion ou de duplication, et peuvent influer sur le niveau d’expression des gènes et entraîner des pathologies [7, 8].
1 Polymorphismes mono-nucléotidique SNP
Les « Single Nucleotide Polymorphisms » sont la plus petite forme de polymorphisme car elles n’affectent qu’une seule paire de bases. Elles constituent près de 90% des polymorphismes répertoriés. Les SNPs seront abordés plus longuement dans la partie suivante.
SNP
Présentation
Le polymorphisme mono-nucléotidique correspond à un nucléotide pour lequel on peut observer des variations au sein de la population. Hormis de rares cas, les SNPs sont des polymorphismes bi-alléliques. Leur répartition uniforme sur tout le génome et la simplicité pour les caractériser expérimentalement en font le marqueur de prédilection des chercheurs afin d’établir une cartographie dense et précise du génome (e.g. dbSNP, HapMap [9-11], le projet 1000 génomes [6]). Le nombre de SNPs connus aujourd’hui est d’environ 40 millions (source dbSNP) et ils représentent plus de 90% de la diversité génétique humaine connue. Un SNP se caractérise par sa position chromosomique, ses allèles et sa fréquence allélique mineure appelée (Minor Allele Frequency en anglais ou MAF).
Un SNP est d’abord soumis dans dbSNP en attente de validation, il a alors le statut de Submitted SNP « ss » avec un numéro unique qui lui est attribué. Puis, après validation, il acquiert le statut de Reference SNP « rs ». Le SNP est alors caractérisé par ses 30 paires de bases flanquantes de part et d’autre du polymorphisme. Cette séquence peut donc être alignée sur le génome ce qui permet de déterminer la position du SNP, à savoir son chromosome et sa position sur le chromosome. Néanmoins, comme l’alignement du génome peut varier, un SNP peut être déplacé sur le génome selon les versions d’alignement utilisés (appelée « builds ») au fur et à mesure que l’information du génome se précise.
Plusieurs banques de données ont vu le jour pour référencer ces SNPs et n’ont cessé de s’enrichir aussi bien en termes de SNPs génotypés mais aussi en nombre de sujets. Par exemple, le projet HapMap est passé de 1 à 3 millions de SNPs entre la phase I (2003) et la phase III (2007). De plus, HapMap a aussi augmenté le nombre de ses sujets ainsi que leur diversité, passant de 4 groupes pour un total de 270 sujets en 2003 à 11 groupes pour un total de 1301 sujets en 2007.
Le projet HapMap, quant à lui, a été développé pour étudier la structure du génome au sein de populations aux ethnicités distinctes. Le projet s’est focalisé sur des trios, à savoir un individu et ses deux parents, pour une sélection de SNPs. Le projet propose deux axes d’études majeurs à savoir : (i) les variations entre les différentes ethnies étudiées, (ii) les relations entre les SNPs au sein d’une même ethnie. Nous reviendrons par la suite sur ces relations inter-SNPs et leurs applications.
Le projet 1000 génomes propose un séquençage exhaustif du génome visant à déterminer des SNPs de fréquences faibles (MAFs inférieures à 1%) avec pour but de séquencer 2500 individus sur 28 populations différentes. Le séquençage nous offre aussi la possibilité de travailler sur des insertions-délétions. A l’heure actuelle, le projet propose une couverture de 4X sur l’ensemble du génome (un locus est lu en moyenne quatre fois) et de 50X dans les gènes.
Modèle d’équilibre d’Hardy-Weinberg
Le modèle d’équilibre d’Hardy [12]-Weinberg [13] est l’un des principes fondamentaux de la génétique des populations. Il modélise le comportement des fréquences alléliques et génotypiques pour un polymorphisme, plus particulièrement les SNPs, au sein d’une population au fil des générations sous différentes conditions. Il stipule, sous certaines hypothèses, que les fréquences alléliques et génotypiques d’un polymorphisme sont stables au sein de la population au fil des générations.
Hypothèses :
1 Population de taille infinie ;
1 Pangamie (union aléatoire des gamètes) et panmixie (union aléatoire des individus) :
O Générations non chevauchantes (n’influence que les fréquences génotypiques) ;
1 Absence de sélection, mutation et migration.
Importance des marqueurs génétiques dans l’étude des maladies
L’intervention de facteurs héréditaires dans les maladies a été observée depuis des siècles, mais la description objective d’une variation génétique causale de phénotypes particuliers remonte aux années 1950 avec la découverte par Lejeune [35] de la trisomie du chromosome 21 associée au phénotype de “mongolisme“. Avec les progrès de la génétique moléculaire dans les années 1980, il a été possible d’identifier des loci génétiques précis associés à des maladies familiales, ces maladies ont été qualifiées de monogéniques car dues à la défaillance d’un seul gène.
Au fur et à mesure que les techniques de biologie moléculaires ont progressé, il a été possible de couvrir le génome par des marqueurs génétiques de plus en plus fins. Les premiers marqueurs furent les polymorphismes de longueurs des fragments (RFLP) puis les mini satellites et les micro satellites. Les derniers marqueurs a avoir été exploités sont les SNPs sur lesquels nous allons nous attarder.
En fonction de la relation entre la population d’étude et le phénotype, les études peuvent donc se diviser en deux catégories études de liaison qui se focalisent la transmission des gènes et celui du phénotype au sain d’individus et les études d’association qui se focalisent la corrélation entre nos marqueurs et celle SNPs. De plus les études se divisent aussi en deux catégories selon la couverture du génome étudiée, à savoir la couverture de quelques gènes, appelée études gènes candidats, et la couverture intégrale du génome, appelée génome entier. Les études les plus populaires en génomique aujourd’hui sont les études d’association génome entier appelées GWAS (Genome Wide Association Study) en anglais.
Après avoir décrit les différents types d’études possibles (familiale : étude de liaison, ou sur des individus non apparentés : études d’association), et le type de récolte d’informations sur notre cohorte (transversale ou longitudinale), nous aborderons alors la question de la région du génome à étudier.
Études de liaison
Les études de liaisons sont les premières études à avoir vu le jour. Elles étudient la co-ségrégation d’un phénotype et d’un génpotype au sein de familles en d’autres termes en cherchant un polymorphisme qui se transmette de la même façon que le phénotype (figure 8). Ce type d’étude permet d’identifier des facteurs génétiques liés à des traits monogéniques tels que la mucoviscidose [36, 37] ou la chorée de Huntington [38-40].
Les études de liaisons sont particulièrement efficaces pour trouver des traits dits mendéliens, mais sont soumises à quelques limitations :
1 les arbres généalogiques sont parfois incomplets ou insuffisants ou encore on peut ne disposer que d’un seul membre de la famille touchée ;
1 efficacité limitée dans les maladies multifactorielles où chaque facteur n’explique qu’une fraction du génotype, ou bien lorsque les traits étudiées ont des composantes externes.
Cas d’une famille vénezuellienne [40], les ronds représentant les femmes et les carrés les hommes,les blancs représentant les individus non atteints et les noirs les individus atteints,les barrés représentant les individus décédés,les génotypes sont sous les individus.
Ces études ont été les premières à avoir vu le jour et elles restent encore d’actualité comme en attestent les récentes études pour l’autisme [41, 42] ou bien pour la schizophrénie [43, 44].
Études d’association
Les études d’association comparent la répartition des allèles en fonction du trait étudié entre les individus qui portent le trait et ceux qui ne le portent pas. Plus la répartition est différente, plus le SNP est susceptible d’être impliqué avec le trait étudié. Elles sont réalisables aussi bien sur des individus apparentés que sur des non apparentés mais nous n’allons décrire uniquement les études d’association sur des individus non apparentés. Dans ce cas, on cherchera alors à disposer d’une population homogène et non apparentée.
Ces études se sous-divisent en deux catégories : les études transversales et les études longitudinales selon le type de données et la logistique disponible en termes de recueil des données.
Les études transversales se focalisent sur un moment donné et s’apparentent à un « cliché » de la situation. On recherche une corrélation entre le trait et une variable explicative (figure 9), dans notre cas un SNP, se traduisant par une différence de répartition des variables explicatives (génétiques) vis à vis des variables à expliquer (trait phénotypique).
Les études longitudinales suivent l’évolution d’un trait sur une période donnée. Une étude longitudinale s’apparente à un « film » par son suivi régulier des patients afin d’avoir le plus « d’images » possibles pour obtenir une définition plus précise de l’évolution du trait au cours du temps.
Les courbes de survie (figure 10) permettent de visualiser la survenue d’un évènement (apparition d’un trait phénotypique, par exemple la mort) au cours du temps pour les différents groupes étudiés à risque supposés différents. Dans le cas d’études génomiques, les différents groupes étudiés sont alors les génotypes.
Courbe de survie avec en abscisse le temps et en ordonné le pourcentage de survie au sein des groupes
Les études longitudinales nous permettent de suivre l’évolution de groupes de sujets jusqu’à ce qu’ils atteignent l’état étudié (apparition du trait). Cela suppose une logistique de collecte de données importante car il faut que les sujets soient suivis régulièrement afin d’avoir une estimation précise de la survenue de l’évènement, en particulier l’apparition des maladies. De par leur construction, ce type d’études permet de mettre en évidence des gènes associés à des maladies longues telles que des cancers [45-47] ou des maladies coronaires [48, 49] plus précisément dans la survenue d’évènements (mort, rechute, arrivée d’un accident) ou bien de réponse aux traitements (survie, temps avant rechute) une fois que la maladie a été diagnostiquée.
Les représentations schématiques (figures 9 et 10), montrent que l’on peut visuellement discriminer les deux groupes et supposer qu’un des groupes est effectivement corrélé à l’état étudié ou à une survenue du trait étudié. Nous décrirons plus loin les moyens permettant de quantifier ces différences observées.
Études gènes candidats
Si le trait phénotypique est bien renseigné et que nous avons déjà des informations concernant les mécanismes moléculaires ou génétiques entrant en jeu, nous pouvons nous restreindre à l’étude d’une où des régions bien définies, le plus souvent centrées sur des gènes (expliquant ainsi le nom de ce type d’analyses). Dans ce type d’analyse, on se focalise donc sur une région prédéfinie par des a priori biologiques, ce qui nous permet de concentrer nos moyens et donc d’obtenir une cartographie très fine via le séquençage de la région.
Dans ce cas de figure, nous pouvons travailler sur une liste de polymorphismes génomiques caractérisés de manière exhaustive sur la région étudiée, tels que les insertion/délétions, les séquences répétées en tandem, les SNPs de fréquence commune ou rare (MAF <1%) voire des singletons (un seul porteur de l’allèle au sein de toute la population). Enfin, cette cartographie fine peut permettre d’identifier des polymorphismes qui n’étaient pas encore connus.
Malgré les avantages indéniables de l’approche gène candidat au niveau des polymorphismes caractérisés, elle souffre d’un écueil notable : sa nécessité de connaissances sur le rôle possible du gène a priori. Les études gènes candidats permettent en revanche d’approfondir des connaissances déjà acquises et de valider ou non des hypothèses préalables, mais rarement de découvrir des mécanismes ex nihilo. Pour ces études, il est possible d’utiliser le séquençage direct ou des puces de génotypage à façon (dont le principe va être décrit juste après) qui impliquent d’avoir une connaissance préalable des polymorphismes de la région.
Études génome entier
Lorsque l’on cherche à découvrir de nouveaux mécanismes biologiques, il est important de partir sans hypothèse génétique a priori sur les traits étudiés. Les progrès de la biochimie ont permis de franchir cette barrière et de génotyper (caractériser le génotype d’un sujet) le génome entier par le biais de puces de génotypage.
Il y a principalement deux sociétés qui proposent actuellement des puces de génotypage reposant sur deux méthodes biochimiques différentes mais aussi sur deux approches différentes dans le choix de SNPs. Affymetrix a choisi ses SNPs à un intervalle régulier sur le génome, faisant abstraction du déséquilibre de liaison. Illumina a choisi ses SNPs en sélectionnant des TagSNPs afin de maximiser l’information du génome en utilisant le moins de marqueurs possibles. Les premières puces Affymetrix renseignaient environ une centaine de milliers de SNPs répartis sur tout le génome. Elles contiennent aujourd’hui jusqu’à 2,5 millions de SNPs, ainsi que des polymorphismes de types CNVs.
Les puces permettent de cartographier finement le génome entier et d’identifier des régions d’intérêt. Néanmoins, de par le choix des polymorphismes présents sur la puce, seule une fraction (même grande) du génome est renseignée, étant considérée comme intéressante par les sociétés fabricantes. Il faut aussi ajouter que les SNPs ayant une MAF de fréquence faible sont difficilement génotypés et que les indels sont aussi absents des puces. Ces puces ne font encore une fois que repousser la limite de l’ex nihilo mais ne sont pas exhaustives.
Les progrès en terme de densité ainsi que la réduction de leur coût ont tout de même fait des puces de génotypage l’outil standard d’identification de nouveaux gènes impliqués dans des maladies humaines comme en témoigne la base de données GWAS catalog ( ABCDEFC )[50] répertoriant plus de 1200 publications référençant près de 6200 SNPs significativement associés. De plus ceci ne concerne que les études d’association, il est possible aussi de mener une étude de liaison à travers le génome entier.
Outre les questions du type d’études et de phénotypes observées, les études génome entier ont eu pour conséquence l’accroissement de la quantité des données à traiter. Les centaines de milliers ou les millions de SNPs ne peuvent être analysés manuellement et nécessitent l’intervention de bioinformaticiens et biostatisticiens pour prendre en charge toute la logistique des données informatiques mais aussi pour l’analyse de ces mêmes données.
|
Table des matières
Introduction
1. Rappel sur la génétique
a. ADN
b. Rôle dans le vivant
c. Polymorphismes génétiques
2. SNP
a. Présentation
b. Modèle d’équilibre d’Hardy-Weinberg
c. Haplotypes
d. Déséquilibre de liaison
1. Définition
2. Mesures
e. Reconstruction des haplotypes
1. Problématique
2. Méthodes d’inférence des haplotypes
3. Importance des marqueurs génétiques dans l’étude des maladies
a. Études de liaison
b. Études d’association
c. Études gènes candidats
d. Études génome entier
4. Analyse d’association sur génome entier
a. Génotypage
1. Puces de génotypage
2. Inférence des génotypes
b. Contrôle de qualité du génotypage
c. Association entre un SNP et un phénotype
1. Répartition allélique
2. Répartition génotypique et modèle génétique
d. Test d’hypothèses
1. Facteurs de confusion
e. Contrôle de qualité de l’analyse : Q-Q plot
f. Recherches post-association
1. Bases de données
2. Analyse des haplotypes
3. Imputation
4. Réplication & méta-analyse
5. Redondance de l’information et tests multiples
a. Correction des tests multiples
1. Problématique
2. Méthodes de correction pour la problématique des tests multiples
b. Entropie
1. Définition
2. Déclinaison
3. Information mutuelle
6. Objectifs de ma thèse
Matériel & méthodes
1. Données utilisées dans le cadre du développement du logiciel Genetropy
a. Cohortes utilisées
1. Cohorte GRIV
2. Cohorte DESIR
3. Projet 1000 génomes
b. Algorithme de Kruskal
c. Calcul des mesures utilisées
2. GWAS sur le photo-vieillissement
a. Vieillissement de la peau
b. La cohorte SU.VI.MAX
c. Description de la cohorte des femmes étudiées
d. Covariables
e. Génotypage
f. Contrôle de qualité du génotypage
g. Stratification
h. Autres phénotypes
i. Logiciels de traitement des données
j. Logiciels d’analyse des données
Résultats
1. Genetropy
a. Calcul par l’entropie de Shannon de la quantité d’information indépendante dans un jeu
de données génomique
b. Résultats complémentaires
1. Tableau avec les nouveaux seuils de Bonferonni
2. Illustration de la méthode étendue et comparaison avec Gao et al.
2. Etude génome entier sur le photo-vieillissement
a. Travail en cours de publication
b. Etude génome entier sur le photo-vieillissement : analyses complémentaires
1. Utilisation du Meff
2. Autres phénotypes
Discussion
1. Discussion sur le logiciel Genetropy
a. Bilan de l’entropie et comparaison aux autres méthodes
b. Perspectives : applications sur données d’haplotypes
c. Perspectives : applications en analyse de données
2. GWAS sur le photo-vieillissement
a. Les signaux significatifs
b. Vue globale des associations identifiées
c. Perspectives : réplication et méta-analyse
3. Perspectives des GWAS
a. Polymorphismes simples
b. Polymorphismes multiples
1. Haplotypes
2. Composé hétérozygote
3. Interactions entre SNPs
4. Voies de signalisation
5. Interactions gène environnement
c. Paradigme « variants communs, maladies communes »
d. Avancées technologiques
1. Séquençage intégral
2. Séquençage de l’exome
e. Autres technologies
Conclusion
Bibliographie
Télécharger le rapport complet