Première génération
Principe de base
Séquencer l’ADN n’est pas une chose facile, les quatre bases ont une taille de 0.3?? et se ressemblent beaucoup à notre échelle. Dans la cellule le mécanisme de recopie de l’ADN agit avec une excellente précision recopiant le génome quasiment sans erreur . L’enzyme qui accomplit ce petit miracle est appelée la polymérase, celle-ci recopie un brin d’ADN pour synthétiser son complémentaire avec une cadence de quelques centaines de bases par seconde. Pour séquencer l’ADN, il suffit donc de faire “parler” la polymérase. Nous allons voir qu’au cours du temps, les chercheurs ont réussi de mieux en mieux dans cette aventure. Revenons quelques instants sur le fonctionnement de la polymérase pour comprendre les méthodes de séquençage qui l’utilisent.
La polymérase (souvent schématisé comme une main droite) étend un brin incomplet en se servant du brin complémentaire comme modèle. Le site de la réaction (au niveau de la paume de la main et sous le pouce) stabilise transitoirement une base triphosphate en face de sa base complémentaire, puis si cette stabilisation dure assez longtemps, l’enzyme coupe les deux derniers phosphates et lie la nouvelle base au groupe OH libre à l’extrémité 3’ du brin polymérisé. La réaction se répète, à chaque fois le fait que la base qui est complémentaire à l’autre brin conduit à une immobilisation transitoire plus longue que si la base n’est pas complémentaire. Cette sélectivité assure la première étape de la fidélité de la polymérase.
Les chimistes savent fabriquer des analogues des briques élémentaires permettant de synthétiser l’ADN. Les ddNTP ressemblent aux dNTP, mais ils leur manquent le groupement OH auquel est attaché la base suivante, de ce fait leur incorporation est possible, mais elle bloque complètement la synthèse. Ces ddNTP sont ainsi des terminateurs.
Séquençage de Sanger
En 1977 (Sanger, Nicklen, et Coulson 1977) propose le séquençage de l’ADN, première génération. Pour faire parler la polymérase, Sanger propose d’utiliser les ddNTs et les possibilités expérimentales de l’époque: On sait mesurer par électrophorèse la longueur d’un ADN simple brin avec la précision d’une base, on utilise une molécule simple brin correspondant à la molécule que l’on veut séquencer. On en fabrique au préalable un très grand nombre de copies. On hybride à son extrémité 3’ un primer contenant un marqueur fluorescent. Celui-ci assurera la détection de la molécule finale et le primeur permet à la polymérase de démarrer la copie. On rajoute des polymérases des dNTPs et on ajoute un des ddNTPs dans le volume de réaction, par exemple le ddATP. Les polymérases recopient l’ADN insérant majoritairement les dNTPs, mais de temps en temps elles se trompent et incorporent un ddATP (en face d’une base T). Ceci conduit à l’arrêt de la copie du brin en question. Une fois la réaction finie, on dénature toutes les molécules qui se sont répliquées et ont finies en incorporant en ddATP (un terminateur). On recommence la même opération pour chacun des autres types de ddNTPs (ddCTP, ddGTP, ddTTP) puis on fait un gel d’électrophorèse permettant de mesurer la longueur des quatre groupes de molécules. Le gel permet de lire directement la séquence.
Mais cette méthode possède également des défauts: on séquence une molécule à la fois, le gel d’électrophorèse permet de déterminer des séquences d’environ mille bases, le séquençage complet d’un génome est donc long, coûteux, et fastidieux. L’information épigénétique des molécules est perdue lors de l’amplification. Malgré ces défauts, le premier génome humain a été séquencé en utilisant la méthode de Sanger en 2001 (Consortium 2001), mais la méthode, bien qu’exploitable, reste mal adaptée au séquençage des génomes. Elle reste utilisée pour des besoins de séquençage simple de nos jours, notamment grâce à sa longueur de lecture (readlength) relativement grande et à son faible taux d’erreur.
Seconde génération – Next generation sequencing
Le principe qui a amené au séquençage de masse s’est invité dans la compétition farouche qui a eu lieu lors du séquençage du génome humain: comme le génome humain contient 3 milliards de bases et que le séquençage de Sanger ne peut en lire que mille bases à la fois est apparue la nécessité de développer une stratégie d’assemblage des séquences obtenues pour couvrir au mieux le génome humain. La première stratégie, que nous appellerons raisonnable, consiste à séparer le génome en morceaux en suivant un découpage hiérarchique permettant un réassemblage facile. Mais, le fait que certains morceaux d’ADN soient difficiles à séquencer et que le beau découpage comportait quelques erreurs inévitables a fait apparaître les difficultés de cette stratégie. En 1995 Greg Venter a lui proposé une approche radicalement différente: le “shot gun” ((Fleischmann et al. 1995), au lieu de rigoureusement couper le génome de façon très ordonnée, il propose de tout couper de façon aléatoire, de séquencer les morceaux et de les réassembler comme un puzzle en utilisant les recouvrements de séquences se produisant entre les différents morceaux. Cette proposition qui a rencontré une forte résistance à ses débuts est vite devenue la méthode la plus efficace, et ceci grâce à la montée en puissance des ordinateurs qui ont permis l’assemblage du génome à bas coût.
Le séquençage à grande échelle et très grand parallélisme
Le ressemelage du génome est possible, car sa séquence est presque aléatoire, seul un petit nombre de régions du génome présentent des motifs répétés qui posent de sérieux problèmes (et n’ont pas été séquencées dans les premiers génomes). Par ailleurs, si le génome était parfaitement aléatoire, la connaissance de 16 bases consécutives permet de façon statistique d’avoir une seule occurrence de cette séquence dans l’ensemble du génome. En pratique une vingtaine de bases sont suffisantes. La seconde génération de séquenceur s’est faite avec ces concepts : au lieu de séquencer très bien une molécule, on a cherché à séquencer un grand nombre de molécules simultanément quitte à avoir une longueur de lecture réduite.
On coupe l’ADN génomique en petites molécules, on s’arrange pour fabriquer un grand nombre de colonies différentes contenant chacune 10 à 100 000 copies d’une seule de ces molécules. On réalise cette opération, par exemple en faisant une réaction de PCR sur une émulsion de petites gouttes de réactifs contenant chacune au plus une copie de l’ADN génomique, une bille magnétique recouverte de streptavidine, un primer universel avec une biotine, de la polymérase et des dNTPs. On réalise des cycles de PCR et à la fin chaque bille est recouverte de 10 à 100 000 copies de la molécule d’ADN génomique.
La méthode Illumina
Le séquençage en temps réel par la méthode Illumina s’appuie sur une technologie clé: la préparation de dideoxynucléotides “terminateurs” réversibles, qui comprend trois principes.
• Fabrication de dNTPs fluorescents avec une couleur différente pour chaque base.
• Insertion d’un groupe bloquant la réplication.
• Ces deux modifications sont clivables par un composé chimique.
La technologie Illumina inclut une phase de préparation des échantillons qui consiste à polymériser un très grand nombre de copies du fragment de séquence inconnue, tout immobilisée sur une surface de verre par une extrémité, et regroupé sous forme de “clusters” ou colonies. Une plaque de verre comprend des centaines de millions de colonies, composées de séquences inconnues différentes d’une colonie à l’autre. Ce stratagème est important afin d’obtenir un signal facilement mesurable. En effet, toutes les molécules d’une colonie ont la même séquence et sont utilisées de manière synchrone comme matrice (brin complémentaire) pour la polymérisation à l’aide des bases modifiées. À l’étape de polymérisation ? la même base fluorescente est incorporée dans toutes les molécules d’une colonie au même endroit de la séquence, et le signal de fluorescence est donc la somme de la fluorescence de 10000 à 100 000 molécules identiques. En lisant la couleur émise par chaque colonie, on détermine ainsi la nature de la base ? de chacune des molécules. Après cette lecture, on rince l’échantillon avec un produit qui clive le groupe fluorescent et le groupe bloquant la polymérisation de la base suivante. On peut alors procéder au séquençage de la base ? + 1 de la même façon (Figure 1.7).
|
Table des matières
1 Introduction
1.1 Méthodes de séquençages
1.1.1 Première génération
1.1.2 Seconde génération – Next generation sequencing
1.1.3 Les méthodes de troisième génération
1.1.4 Fingerprinting – Signature
1.2 Problématique
1.3 Signature par pince magnétique
1.3.1 Introduction
1.3.2 Molécules en épingle à cheveux
1.3.3 Description d’une expérience
1.3.4 Contraintes liées à l’acquisition
1.4 Conclusion
2 Sélection d’oligonucléotides pour signature
2.1 Introduction
2.1.1 Nécessité de la sélection des oligonucléotides
2.1.2 Utilisation simultanée d’oligonucléotides
2.2 Méthode de sélection d’oligonucléotides
2.2.1 Sélection d’un jeu d’oligonucléotides adapté au génome d’E. coli
2.2.2 Validation expérimentale des oligonucléotides
2.3 Conclusion
3 Méthodes de cartographie
3.1 Méthode par régression
3.1.1 Données d’entrée
3.1.2 Contexte
3.1.3 Comparaisons de signature
3.2 Méthode par classification de segments
3.2.1 Introduction
3.2.2 Présentation détaillée de l’approche
3.2.3 Détermination des catégories de segments
3.2.4 Matrice de substitution
3.2.5 Fusion de segments
3.2.6 Fonctionnement général de l’algorithme
3.3 Conclusion
4 Estimation des performances de l’identification de signature
4.1 Simulation des données pseudo-expérimentale
4.2 Hypothèse de simulation
4.2.1 Bruits de mesure
4.2.2 Étirement
4.2.3 Hybridations manquantes
4.3 Conclusion
5 Conclusion
Télécharger le rapport complet