Les variations structurales génomiques
Lors de l’analyse les génomes humains, on ne peut que constater la similarité des séquences génomiques entre les différents individus autour du globe (15–17). Il est estimé que deux humains pris au hasard ont un génome similaire à 99,9% en séquence nucléotidique. C’est donc dans une fraction infime du génome que se situent les variations génétiques conduisant à la diversité phénotypique observable entre les individus et à la prédisposition aux maladies. Le spectre des variations génétiques chez l’humain s’étend de la simple paire de bases nucléiques à de grands réarrangements chromosomiques. Il est aujourd’hui admis que les génomes des membres d’une même espèce diffèrent davantage les uns des autres en raison de variations structurelles que de différences entre paires de bases. Ces Variations de Structure (SV) génomiques contribuent de manière considérable à l’hétérogénéité globale du génome humain. (3,18,19) Les SV génomiques sont historiquement définies comme un ensemble d’altérations génomiques de taille supérieure à 1kb (20). Cette définition inclut les SV équilibrés (inversions et translocations), et les variations déséquilibrées (insertions/duplications et délétions) qui peuvent être pathologiques ou bénignes. Les SV sont donc des variations chromosomiques de différents types qui peuvent être quantitatives (délétions, duplications et insertions) ou qualitatives (translocations et inversions), par leur localisation et leur orientation .
Le choix historique du seuil de taille (> 1 kb) avait pour but de combler le vide descriptif existant entre les petites séquences répétées (comme les séquences répétées en tandem) et celles détectées à l’échelle d’un caryotype. Plus récemment la définition des SV a été révisée et l’on considère les SV comme étant des altérations de taille supérieure « à la taille d’un exon » ou encore une altération de taille supérieure à 50pb (5). C’est donc cette limite qui différentie aujourd’hui les SV des indels. Cette modification a été rendue nécessaire par la mise en place progressive en routine du séquençage génome entier (21) et illustre les changements globaux que subit la génétique avec l’avènement du séquençage haut débit. En parallèle des SV, une catégorie est à prendre à part, ce sont les éléments mobiles ou Mobile Element Insertion (MEI) aussi appelés éléments transposables ou simplement transposons. Leur classification au sein des SV n’est pas bien établie et selon les sources ils sont inclus ou non. Les éléments transposables sont l’une des principales sources d’instabilité génomique par divers mécanismes complexes. Parmi eux, les séquences Alu sont les éléments les plus fréquents, on estime qu’elles composeraient environ 10% du génome humain répartis sur l’ensemble des chromosomes. Les séquences Alu sont des rétrotransposons non autonomes, elles font partie de la famille des petits éléments nucléaires intercalés ou SINE (short interspersed nuclear element) avec les séquences MIR et MIR3.
Les transposons sont des éléments impliqués en pathologie humaine et leur détection est un challenge auquel les bio-informaticiens et biologistes se heurtent chaque jour. Leurs moyens de détection ne sont pas standardisés et assurer leur détection en routine dans notre laboratoire n’est pas l’objectif de cette thèse qui porte sur les CNV. Cependant la recherche et l’interprétation de ces séquences Alu comme des variations structurelles équilibrées (inversions) seront probablement l’étape suivante dans l’évolution du pipeline bioinformatique de notre laboratoire.
Les variations du nombre de copies
Les CNV sont un sous-ensemble des SV. Ils sont définis comme un segment d’ADN de taille supérieure à 50pb dont le nombre de copies est différent par rapport au génome de référence (3,6). Ce sont donc des SV déséquilibrés. Les CNV peuvent correspondre à un gain d’ADN (duplication et amplifications) ou à une perte (délétion) par rapport à un génome de référence. Les CNV fréquents, présents chez plus de 1 % de la population, sont appelés Copy Number Polymorphism (CNP). Un CNV peut contenir des gènes, parties de gènes et/ou leurs régions de régulation. Ils peuvent également n’être constitués que de séquences non codantes (20,25,26). Avec les avancées et la démocratisation des techniques d’Hybridation Génomique Comparative (CGH-array), l’importance des CNV en pathologie humaine a récemment été mise en lumière (27–32). Ils sont responsables d’un large spectre de maladies génétiques et l’étendue de leur implication en pathologie humaine est largement méconnue (33). Bien qu’il ne soit pas nécessaire de connaitre les détails des mécanismes moléculaires qui sont à l’origine des SV pour assimiler le contenu de cette thèse, on peut s’y intéresser car ils sont une bonne illustration de la complexité des rouages moléculaires agissant sur le génome humain.
Mécanismes à l’origine des SV
Trois principaux mécanismes conduisent à l’apparition de SV. De manière globale elles sont la conséquence de cassures chromosomiques suivies par un ou plusieurs recollements anormaux. Le premier mécanisme est appelé recombinaison homologue non allélique (non-allelic homologous recombination ou NAHR). Il survient pendant la méiose ou la mitose et nécessite deux répétitions segmentaires (low copy repeats ou LCR) ou duplicons (34). En raison de leur haut degré de similarité de séquence, les copies non alléliques de répétitions segmentaires peuvent parfois être alignées en méiose ou en mitose à la place des copies aux positions alléliques habituelles. Ce phénomène est appelé mésappariement et peut entrainer des remaniements chromosomiques dans les cellules filles .
Le second mécanisme est appelé jonction d’extrémités non homologues ou NHEJ (NonHomologous End Joining). Il s’agit d’un un outil moléculaire de réparation de l’ADN ayant pour objectif la réparation de cassures double brin. C’est un mécanisme dit non conservatif, car il ne restaure pas la séquence initiale de l’ADN, il assure seulement la continuité d’un ADN endommagé par une cassure double brin. Cette réparation peut ainsi conduire à une modification de l’information génétique et généralement à une délétion (Figure 4). C’est un phénomène décrit chez tous les organismes, des bactéries jusqu’aux mammifères. Il est couramment utilisé pour réparer les cassures physiologiques (ex. : recombinaisons des régions VDJ dans le système immunitaire) ou pathologiques induites par les radiations ionisantes ou les espèces réactives de l’oxygène.
Le dernier mécanisme que nous citerons sans toutefois le détailler est désigné par l’acronyme FoSTeS (Fork Stalling and Template Switching). Il n’est pas en lien avec une cassure double brin et entraine la formation de réarrangements non récurrents complexes. Ces 3 mécanismes sont parfois groupés en 2 catégories : les recombinaisons homologues (NAHR) et non homologues (NHEJ et FoSTeS). Il est probable que tous les phénomènes biologiques conduisant à la création et à la transmission des SV ne soient pas encore découverts. La génétique est un domaine très évolutif qui implique le développement constant de nouvelles techniques d’analyse s’appuyant sur les technologies disponibles. C’est pourquoi nous ferons une brève description des techniques de référence pour l’étude des SV.
Détection des SV, méthodes de référence
Techniques de cytogénétique
La détection des anomalies chromosomiques a commencé avec la possibilité d’observer les différents chromosomes en microscopie dans les années 1950-1960 (Figure 5). Deux grands types de mutations ont alors été distinguées : les anomalies de nombres (aneuploïdies et polyploïdies) et les anomalies de structure (équilibrées et déséquilibrées).
Au fil du temps, les avancées en matière d’optique et de « banding » des chromosomes ont permis une lente amélioration des techniques de cytogénétique. De l’observation d’anomalies à l’échelle du chromosome entier (aneuploïdies, grands réarrangements, chromosomes acrocentriques) jusqu’à l’observation d’anomalies de plus petite taille : translocations, duplications et délétions de taille modeste (>3Mb) .
|
Table des matières
Introduction
Partie 1 : Généralités
1. Les variations structurales génomiques
2. Les variations du nombre de copies
3. Mécanismes à l’origine des SV
4. Détection des SV, méthodes de référence
4.1. Techniques de cytogénétique
4.2. Techniques de CGH-array
4.3. Techniques de biologie moléculaire – PCR
5. Séquençage haut débit et bioinformatique
5.1. Séquençage haut débit
5.2. Technologies NGS à lectures courtes ou « short reads »
5.3. Technologies NGS à lectures longues ou « long reads »
5.3.1. Les technologies SMRT
5.3.1.1. Pacific Biosciences « PacBio »
5.3.1.2. Oxford Nanopore Technologies
5.3.1. Les technologies synthétiques
5.4. Bioinformatique
5.4.1. Pipeline Bioinformatique
5.4.2. Trimming qualité et filtrage
5.4.3. Étape d’alignement globale
5.4.4. Gestion des duplicats de PCR
5.4.5. Le réalignement des indels (réalignement local)
5.4.6. Le recalibrage des scores qualité
5.4.7. L’identification des variants (Variant calling)
5.4.8. Le Génome humain de référence
6. Détection des CNV par séquençage haut débit (NGS)
6.1. Approche « Read-Pairs » ou « Paired-end mapping »
6.2. Approche Split-read
6.3. Approche par analyse de la profondeur de lecture
6.4. Approche par assemblage de novo
Partie 2 : Logiciels disponibles et sélectionnés
1. ExomeDepth
2. Delly
3. DECoN
4. Smoove/Lumpy
5. Biomedical Genomics Workbench
Partie 3 – Matériel et Méthode
1. Échantillons utilisés
2. Composition du panel de gènes
3. CNV du set de référence
4. Gestion des pseudogènes
Partie 4 : Résultats
1. Sélection et utilisation des logiciels
1.1. Expérimentation des 5 logiciels sélectionnés
1.2. Etude des cas discordants entre les logiciels
1.2.1. BRCA2 – Délétion de l’exon 7
1.2.2. MSH2 délétion des exons 8 à 16 et BRCA1 délétion des exons 8 à 13
1.2.3. PMS2 – Duplication des exons 11 et 12
1.2.4. MSH6 – Délétion des exons 5 et 6
1.3. Optimisation de l’utilisation de ExomeDepth
1.3.1. Optimisation d’ExomeDepth concernant PMS2 et PM2CL
1.3.2. Limites analytiques : duplication des exons 11 et 12 de PMS2
1.3.3. Phase 2 de l’optimisation d’ExomeDepth
1.3.4. Automatisation de l’exécution logicielle
Discussion
Conclusion