Modèles DSBR et SDSA
La réparation de CDB par recombinaison homologue nécessite un appariement de la séquence à réparer avec une région d’ADN homologue. Cette région peut être le même locus sur la chromatide soeur ou le chromosome homologue, on parlera alors de recombinaison allélique. Si la zone d’homologie est une région distante, sur le même chromosome, ou sur un autre, on parlera de recombinaison ectopique. La recombinaison homologue est surtout reconnue comme le mécanisme qui permet un brassage d’information entre séquences d’ADN, via le crossing-over. Cet événement est d’ailleurs souvent considéré comme la phase primordiale du sexe en ce qu’elle casse les liaisons entre allèles, et permet un maintien de la diversité au sein des populations [Marais, 2002]. La recombinaison homologue peut être réalisée par plusieurs mécanismes concurrents, avec des conséquences différentes et représentés par divers modèles. Le premier modèle est appelé modèle DSBR (pour Double Strand Break Repair), ou modèle de Szostak et al. [Szostak et al., 1983], et est celui qui autorise le plus de crossing-over (Figure 1.3.1). A la suite de la CDB, les brins d’ADN sont dégradés du 3′ au 5′ pour libérer de l’ADN simple-brin sur au maximum 800 nt. Ces brins vont ensuite créer des jonctions de Holliday avec la région homologue. On appelle jonction de Holliday la conformation de l’ADN où quatre brins sont liés simultanément (A et B sur la gure 1.3.1). Une fois l’appariement eectué, l’ADN endommagé utilise l’autre brin comme matrice pour se réparer. Les brins d’ADN sont ensuite sectionnés au niveau des jonctions, se séparant ainsi en deux brins resynthétisés. On appelle cette étape la résolution des jonctions de Holliday, qui peut être avec ou sans crossing-over, en fonction des brins qui ont été sectionnés. La probabililité d’avoir une résolution avec crossing-over est a priori la même que de celle ne pas en avoir dans les cellules en phase mitotique, mais est plus importante dans les cellules en phase méiotique [Paques and Haber, 1999]. La réparation via le SDSA (pour Synthesis-Dependant Strand Annealing) est quant à elle un mécanisme n’impliquant généralement pas de jonctions de Holliday, mais un réappariement des brins réparés. Plusieurs modèles de SDSA ont été proposés, selon que un seul brin à réparer ou les deux sont re-synthétisés à partir de la région homologue [Formosa and Alberts, 1986, Hastings, 1988, Mcgill et al., 1989]. La réparation débute là encore par la dégradation des brins d’ADN de part et d’autre de la CDB pour libérer de l’ADN simple brin. L’un des deux brins, ou les deux, envahissent ensuite la zone homologue pour entamer leur réparation (figure 1.3.2). La ou les séquences resynthétisées se séparent enn de la séquence matrice pour se réapparier avec la séquence complémentaire. Si un seul brin avait été réparé, le deuxième brin est synthétisé en prenant la nouvelle séquence comme matrice (figure 1.3.2). La différence fondamentale entre ces deux modèles de recombinaison est la formation ou non de jonctions de Holliday, qui induisent des événements de crossing-over. Un autre modèle de SDSA a toutefois été proposé qui autorise, dans certains cas, la formation de jonctions de Holliday [Ferguson and Holloman, 1996].
Recombinaison non-homologue
Bien que la recombinaison homologue soit le mécanisme principal pour réparer les CDB, il existe certains cas où son recours s’avère impossible (absence de région homologue, système de réparation endommagé par des mutations, etc.). Les cellules font alors appel à un second type de mécanisme, appelé recombinaison non-homologue, ou illégitime [Paques and Haber, 1999]. Deux possibilités sont envisageables. La première est le ré-appariement direct des régions complémentaires produites par le clivage. La ligation directe permet une réparation sans erreur et sans recours à une tierce séquence (figure 1.5.1) La seconde possibilité est un réappariement non-homologue des deux brins complémentaires, appelé NHEJ (pour Non Homologous End Joining), qui nécessite une micro-homologie d’environ 1 à 3 nucléotides. L’appariement peut être décalé en aval des brins (figure 1.5.2a), créant des fragments simple brin qui sont comblés par un processus de remplissage ( filling in en anglais). Ce mécanisme produit une duplication de quelques bases au niveau de la zone réparée. A l’inverse, si l’appariement est décalé en amont sur les brins, quelques bases seront supprimées. Il est aussi possible que la recherche de micro-homologie se fasse sur une distance plus grande. Ce mécanisme implique une dégradation des brins de part et d’autre de la CDB, puis un appariement au niveau de la micro-homologie, suivi d’une excision des régions non-homologues (figure 1.5.2b). Le NHEJ a pour conséquence, dans ces cas-là, la délétion de toute la région située entre les deux zones de micro-homologie (de quelques bases à plusieurs kilobases). Le processus est relativement similaire à celui du SSA mais n’implique pas les mêmes voies métaboliques, ce n’est donc pas de la recombinaison homologue. De plus, les mécanismes de NHEJ sont facilités si la CDB a eu lieu dans une séquence répétée, car chaque répétition peut être utilisée comme zone de micro-homologie.
Les transposons
Les éléments de la première classe sont appelés simplement transposons. Ils possèdent une région fonctionnelle, qui code la transposase. Cette enzyme va reconnaître les bornes du transposon et le cliver (le détacher de la séquence d’ADN), pour le ré-insérer à une nouvelle position sur le même ou un autre chromosome (Figure 1.6.1). Ce mécanisme de couper-coller ne produit a priori pas de nouvelle séquence, mais l’amplication des transposons est tout de même assurée de deux manières. D’une part, le clivage de la séquence d’origine va produire une CDB, qui sera réparée par un événement de recombinaison. Or, nous avons vu dans le paragraphe précédent que la recombinaison provoque généralement une conversion génique, c’est-à-dire la réparation via la copie de la séquence homologue. Si cette séquence possède le transposon (ce qui est forcément le cas pour la chromatide soeur, et est possible pour le chromosome homologue), le transposon d’origine sera re-synthétisé, tandis que la copie clivée sera insérée ailleurs. D’autre part, un grand nombre de transpositions semblent survenir lors de la réplication de l’ADN. Si un transposon déjà répliqué va se ré-insérer à une position en amont de la fourche de réplication, il sera répliqué une seconde fois. Dans ces cas-là, la séquence répliquée où ne s’est pas produit le clivage contiendra deux copies de l’élément [Eickbush and Eickbush, 2005]
Définitions et structure moléculaire
Il n’existe pas de définition formelle des microsatellites à l’heure actuelle. La seule caractéristique commune à tous les microsatellites est celle, déjà énoncée, d’une séquence répétée en tandem de période 1 à 6 nucléotides. Pourtant, beaucoup d’autres paramètres permettent de qualifier et classer les microsatellites. Des caractéristiques comme le nombre de répétitions, le motif en lui-même, la complexité de la séquence, sont encore sujets à débats malgré de réguliers efforts de consensus [Tautz, 1993, Chambers and MacAvoy, 2000, Ellegren, 2004, Buschiazzo and Gemmell, 2006]. Pour bien comprendre la suite du document, et particulièrement les mécanismes d’apparition des microsatellites, il est nécessaire de connaître leurs propriétés structurelles. Nous allons donc les détailler dans cette section.
Motif :Un microsatellite est déni tout d’abord par sa période (la taille du motif répété). La période des microsatellites est généralement comprise entre 1 et 6 nucléotides. Chaque période représente une classe de microsatellites, nommées respectivement mono, di, tri, tétra, penta et hexanucléotides. La période se doit aussi d’être la plus petite possible, c’est-à-dire que le motif donné ne peut être la répétition d’un motif plus court (par exemple, ATAT est un AT répété deux fois). On dit alors que le motif est indivisible. Certaines études ne considèrent pas les mononucléotides comme des microsatellites. En règle générale, leur dynamique évolutive semble toutefois concorder avec celles des autres classes [Lai and Sun, 2003, Dieringer and Schlotterer, 2003], cette distinction n’a donc pas lieu d’être. La période maximum de 6 nucléotides est encore matière à débats, mais l’on sait que les séquences répétées de périodes plus importantes (les minisatellites) évoluent plutôt par erreurs de recombinaison (cf. section 2.1.1). Il y a donc une fenêtre de période entre 6 et 10 nucléotides, où l’on ne sait pas si c’est le glissement de polymérase, les erreurs de recombinaison, ou les deux qui sont majoritairement à l’origine de la variabilité des séquences. Ces classes de motifs sont toutefois intégrées à certaines analyses de microsatellites [Yeramian and Buc, 1999, Desmarais et al., 2006]. La grande majorité des études sur les microsatellites sont réalisées avec des séquences répétées de type AC/GT, pouvant laisser croire que seuls ces motifs correspondent à des microsatellites. En réalité, cette prédominance des AC est la conséquence de leur nombre important dans les génomes, du moins chez les animaux [Dokholyan et al., 2000] et de leur propension à être longs et polymorphes. Ils sont donc de fait devenus des marqueurs de choix en biologie des populations, et la matière première des études de dynamique évolutive (souvent amorcées par des biologistes des populations). D’autres motifs sont néanmoins utilisés, tels que AT, AG/CT, CAG/CTG, et quelques tétranucléotides comme les GATA et AAAG. De plus, l’utilisation s’est élargie à tous les motifs possibles depuis que de larges fractions de génomes, voire des génomes entiers, sont disponibles dans les banques de séquences.
Taille :Un second paramètre important pour un microsatellite est sa taille, en nombre de répétitions. On décrit généralement un microsatellite sous la forme (X)n, avec X le motif, et n le nombre de répétitions, même si cette notation pose plusieurs problèmes. Tout d’abord, la variabilité des microsatellites est due au glissement, qui, par dénition, n’implique que des changements de taille multiples de la période (voir section 1.2.5). Il n’y a cependant aucune raison que la séquence possède un nombre entier de répétitions. Par exemple, la séquence ggATCATCATCATgg ne peut être considérée comme (ATC)4, mais n’est pas non plus réellement un (ATC)3. L’utilisation d’un nombre de répétitions non entier devient alors nécessaire, comme ici un (ATC)3,67. De plus, la dénomination des microsatellites par leur nombre de répétitions peut amener une certaine confusion, lorsque l’on considère les différentes classes de motifs. Il est bien évident qu’un mononucléotide et un hexanucléotide possédant tous deux dix répétitions ne sont pas soumis aux mêmes contraintes physiques. L’hexanucléotide étant six fois plus long (en terme de nucléotides), il a par exemple beaucoup plus de chances de subir des mutations. Un autre problème est la question de la taille minimum. Si l’on veut être formel, on peut considérer un microsatellite comme tout élément constitué d’au moins une répétition en tandem d’un motif donné. Dans les faits, une taille limite bien supérieure est généralement utilisée, soit en nombre de répétitions [Kruglyak et al., 2000], soit en paires de bases [Richard and Dujon, 1997, Toth et al., 2000], soit les deux [Jurka and Pethiyagoda, 1995]. La justication de ces limites est statistique. En effet, la définition formelle considère par exemple que tous les doublons de types AA, CC, GG ou TT sont des microsatellites, malgré la très forte probabilité de les rencontrer aléatoirement dans les génomes. Il a donc été proposé de ne considérer les microsatellites que pour des tailles où leur densité est supérieure à celle attendue dans un génome dénué de dynamique de glissement [Delgrange and Rivals, 2004, Kolpakov et al., 2003, Rose and Falush, 1998]. L’apparition des microsatellites dans un tel génome n’est censée se produire que par mutation ponctuelle aléatoire, et tout écart à cet attendu dans un génome réel suppose qu’un glissement s’est produit. Cette taille minimum de glissement introduit une propriété non plus structurelle, mais mécanique à la définition des microsatellites. La taille minimum généralement admise est de huit paires de bases, comme proposé par Rose & Falush [Rose and Falush, 1998] suite à des analyses de distribution dans le génome de la levure (voir section 5.1.1). La question de la taille minimum est un point central de ma thèse, car des répétitions de taille inférieure à cette limite semblent quand même être capables de glissement [Noor et al., 2001, Primmer and Ellegren, 1998]. Ce thème sera abordé plus en détail dans le chapitre 5.
Proto-microsatellites et quasi-microsatellites :Les proto-microsatellites sont des séquences répétées possédant un très petit nombre de répétitions, trop peu pour pouvoir être variables. Ils apparaissent par hasard, à la suite de mutations ponctuelles, comme proposé dans le modèle de Jarne et al. [Jarne et al., 1998]. Le concept de protomicrosatellite n’est valable que si l’on considère qu’une séquence répétée a besoin d’atteindre une taille minimum (en paire de bases ou en répétitions) pour devenir un microsatellite. Les quasi-microsatellites sont des séquences non répétées, mais qui peuvent le devenir, via quelques mutations ponctuelles. Par exemple, la séquence aaACCTACTTgc est une séquence quasimicrosatellite car une substitution C→T ou T→C peut la transformer en (ACCT)2 ou (ACTT)2, respectivement. Une séquence telle que ttACCACCAGCta n’est pas considérée comme un quasimicrosatellite même si la transition G→C donne un (ACC)3, car le proto-microsatellite (ACC)2 existe déjà. Par contre, la séquence ttACCAGCACCta en est un. Le nombre de mutations n’est pas une limite exacte car il dépend de la taille du motif et de la position des mutations. La distinction entre proto- et quasi-microsatellite peut être ambiguë, comme par exemple pour une séquence de type ttAAGAAcc. Dans ce cas là, faut-il considérer les deux AA comme des protomicrosatellites distincts, ou préférer considérer l’ensemble comme un quasi-microsatellite ? La solution est de la considérer comme étant les deux. Ce genre de cas se retrouve fréquemment dans les régions de faible complexité ou cryptic simplicity [Tautz et al., 1986]. Ce sont des régions de taille variable, constituées de répétitions d’un faible nombre de motifs diérents, pas nécessairement adjacentes. La dénition des régions de faible complexité repose là encore sur un critère statistique de sur-représentation par rapport à un attendu dans un génome aléatoire, au même titre que la question de la taille minimum des microsatellites. Elles sont relativement communes dans les génomes eucaryotes et contiennent de nombreux proto- et quasi-microsatellites
|
Table des matières
1 Evolution moléculaire de l’ADN non-codant
1.1 Le monde du non-codant
1.2 Les mécanismes de mutation
1.2.1 Mutations ponctuelles
1.2.2 Déamination des cytosines méthylées
1.2.3 Mécanismes de la recombinaison
1.2.4 Transposition d’éléments mobiles
1.2.5 Glissement de polymérase
1.2.6 Fréquence des mutations
1.3 Les séquences Alu
1.3.1 Généralités
1.3.2 Mécanismes de la rétrotransposition
1.3.3 Les diérentes familles
2 Les microsatellites
2.1 Description générale
2.1.1 Les répétitions en tandem
2.1.2 Dénitions et structure moléculaire
2.1.3 Distributions dans les génomes
2.2 Les diérentes méthodes d’analyse
2.2.1 Les analyses de mutation directe et de variabilité
2.2.2 Les analyses phylogénétiques
2.2.3 Les analyses de séquences
2.3 Les processus de mutation
2.3.1 La théorie du glissement de polymérase (SSM)
2.3.2 Taux de mutation corrélé à la longueur du microsatellite
2.3.3 Pas multiples
2.3.4 Importance du motif
2.3.5 Interruptions stabilisantes
2.3.6 Biais de mutation
2.4 Le cycle de vie des microsatellites
2.4.1 Modèles théoriques
2.4.2 Modèle biologique
2.4.3 Apparition des microsatellites
3 Les limites de la détection bio-informatique
3.1 Approche bio-informatique
3.1.1 Choix du type d’étude
3.1.2 Problématique
3.2 Méthodes et résultats
3.2.1 Description des algorithmes
3.2.2 Inuence des paramètres
3.2.3 Comparaison des algorithmes
3.3 Discussion
4 Apparition via les séquences Alu
4.1 Relation microsatellites – séquences Alu
4.1.1 Etat de l’art
4.1.2 Problématique
4.2 Méthodes et résultats
4.2.1 Extraction des données
4.2.2 Méthodes de calcul de la proximité
4.2.3 Proximité entre microsatellites et éléments Alu
4.2.4 Inuence de la famille Alu
4.2.5 Taille des microsatellites associés aux séquences Alu
4.3 Discussion
4.3.1 Ré-évaluation de l’association entre microsatellites et séquences Alu
4.3.2 Réduction de la taille des microsatellites
4.3.3 Apparition des microsatellites à partir du polyA
4.3.4 Apparition en interne
4.3.5 Conclusion
5 Apparition de novo
5.1 Une taille minimum pour les microsatellites ?
5.1.1 Une sur-représentation des locus courts
5.1.2 Cas d’apparition de répétitions en tandem
5.1.3 Estimer l’importance du glissement pour les petites tailles
5.2 Méthodes et résultats
5.2.1 Méthode d’alignement
5.2.2 Calcul de la sur-représentation
5.2.3 Etude de la micro-duplication
5.2.4 Etude du glissement pour les répétitions de petite taille
5.3 Discussion
6 Dissertation et conclusion
6.1 Un modèle d’apparition des microsatellites
6.1.1 Apparition des doublons
6.1.2 Développement des microsatellites
6.2 Les diverses implications du modèle
6.2.1 Sur la distribution des microsatellites
6.2.2 Sur la construction des modèles théoriques
6.3 Conclusion
6.3.1 Synthèse
6.3.2 Vers un envahissement du génome ?
Télécharger le rapport complet