LES VARIATIONS DES SEQUENCES NON-CODANTES SONT A L’ORIGINE DE MALADIES

Télécharger le fichier pdf d’un mémoire de fin d’études

Les enhancers et silencers

Le terme d’ « enhancer transcriptionnel » a été utilisé pour la première fois par Schaffner pour décrire une courte séquence d’ADN du virus SV40 capable d’augmenter significativement la transcription du gène humain de la ß-globine (Banerji et al. 1981). Le premier enhancer humain découvert fut celui de la chaîne lourde de l’immunoglobuline qui présente une activité tissu-spécifique (Banerji et al. 1983; Gillies et al. 1983). Les enhancers et les silencers sont alors décrits largement comme des séquences d’ADN de quelques centaines de paires de bases permettant de moduler la transcription de façon positive pour les enhancers (fig. 1C) et négative pour les silencers (fig. 1C). Cette modulation intervient quelles soit leur orientation ou leur distance du promoteur et de façon spatio-temporelle (Maniatis et al. 1987). Les enhancers et silencers sont composés de séquences dégénérées de quelques paires de bases qui correspondent aux sites de fixation pour des TFs activateurs ou répresseurs, respectivement. Ces séquences sont souvent fonctionnellement conservées entre différentes espèces lorsque l’expression spatio-temporelle d’un gène est identique. Cependant la conservation de séquence est beaucoup plus rare, rendant l’identification des enhancers par alignement de séquences peu efficace. Une combinaison de plusieurs enhancers peut être utilisée pour réguler un seul gène à la fois dans des tissus différents comme au sein du même tissu. Ces enhancers peuvent alors être redondants. Le terme de ‘shadow enhancer’ énoncé par Mike Levine (Hong et al. 2008) décrit un enhancer distant du promoteur, découvert après le premier élément plus proximal d’un gène et possédant des sites de fixation pour les mêmes TFs, ce qui sous-tend une même logique transcriptionnelle. Ils apporteraient de la robustesse et de la précision pour l’expression spatio-temporelle des gènes de développement notamment et constitueraient une source d’innovation évolutive (Lagha et al. 2012; Barolo 2012, cf. 3.1.1). Le terme est controversé car il fait référence à des notions déjà associées aux enhancers ; Barolo proposera de les appeler ‘enhancers distribués’.

Les insulateurs

Les insulateurs, ou éléments barrières, empêchent les gènes d’être affectés par la transcription de gènes voisins (fig. 1C). Ils permettent de structurer le génome en domaine transcriptionnel. Ils ont deux propriétés principales : ils bloquent la communication entre enhancers et promoteurs et évitent la propagation d’hétérochromatine associée à une répression de la transcription. Chez les Vertébrés, le facteur CTCF (CCCTC-binding factor) fixe les insulateurs et a été associé aux deux propriétés précédentes (Kellum & Schedl 1991; Bell et al. 1999). Le rôle du facteur CTCF est ambivalent et j’y reviendrai.

Les LCR et/ou super-enhancers

Les LCR (Locus Control Regions) sont composés de plusieurs éléments régulateurs qui fonctionnent ensemble pour assurer l’expression spatio-temporelle d’un groupe de gènes proches (fig. 1C). Le premier LCR identifié est celui du locus humain de la ß-globine (Grosveld et al. 1987). Il comprend cinq sites hypersensibles à l’ADNase I qui contiennent de nombreux sites de fixation pour les TFs spécifiques de la lignée érythroïde (Goodwin et al. 2001). C’est un modèle d’interaction à distance entre promoteurs et enhancers.
Les super-enhancers ont été décrits dans des cellules souches embryonnaires (ES) murines de la façon suivante : 1) ces enhancers sont fixés par les facteurs de pluripotence tels Nanog, Oct4 et Sox2, 2) ces enhancers forment un concaténat sur une douzaine de kilobases, 3) un enrichissement fort de la fixation du Médiateur sur ces enhancers est observé par rapport aux autres régions alentour (Whyte et al. 2013). Un super-enhancer désigne donc un regroupement d’enhancers forts qui contrôlent des gènes clefs de la différenciation.
La pertinence du terme super-enhancer est controversée (Pott & Lieb 2015) car il inclut aussi les LCRs et l’archipel régulateur du groupe HoxD (Montavon et al. 2011). De plus la définition des super-enhancers n’est pas associée à une nouvelle notion de mécanistique des séquences régulatrices.

Les acteurs de la transcription

La transcription des gènes codants conduit à la production d’ARNm qui sera l’intermédiaire ribonucléique de l’information génétique avant la traduction en protéines. La transcription des gènes eucaryotes par l’ARN polymérase de type II implique trois types de facteurs : les facteurs généraux de la transcription (GTF), les activateurs spécifiques au niveau du promoteur et des enhancers ainsi que les co-activateurs. Ces facteurs forment des complexes multiprotéiques qui s’assemblent au niveau des éléments cis-régulateurs et dirige l’ARN polymérase vers le TSS (Maston et al. 2006).

Les facteurs généraux de la transcription

Les GTFs fixent le promoteur cœur en formant le complexe de pré-initiation (PIC). Ce dernier s’assemble de façon linéaire au niveau du promoteur. La protéine TBP qui fait partie du facteur TFIID fixe la TATA box auquel s’associe TFIIA pour l’étape de nucléation. Vient ensuite le facteur TFIIB qui s’associe au niveau du TSS et de BRE et crée le lien pour le recrutement de l’ARN polymérase II et le facteur TFIIF. L’étape de maturation est achevée par la fixation de TFIIE et TFIIH au complexe préexistant (fig. 2A). Le PIC seul n’est pas capable d’activer la transcription in vivo (Poss et al. 2013).

Les activateurs en trans ou facteurs de transcription

Les activateurs de la transcription sont les facteurs de transcription qui fixent le promoteur proximal et les enhancers distaux. Ils sont composés d’un domaine de trans-activation où se lient d’autres facteurs pour réguler la transcription et un domaine de fixation à l’ADN pour la reconnaissance. Les facteurs de transcription sont regroupés par familles en fonction de leur domaine de fixation à l’ADN comme par exemple les homéodomaines des gènes Hox et les domaines à doigts à zinc du gène Krox20. Ils fixent des séquences nucléotidiques dégénérées qui peuvent être déterminées in vitro par exemple par EMSA (Electrophoretic Mobility Shift Assay) ou SELEX (Systematic Evolution of Ligands by EXponential Enrichment) et in vivo par ChIP (Chromatin ImmunoPrecipitation). Ces expériences permettent de générer des matrices de faible ou de forte affinité pour des recherches in silico de sites de fixation putatifs aux niveaux d’éléments cis-régulateurs. La combinaison des facteurs de transcription fixés à ces éléments définit la spécificité et l’activité spatio-temporelle de ce dernier. L’élément cis-régulateur comprend plusieurs sites de fixation pour des facteurs de transcription organisés selon un ordre, une orientation et un espacement particuliers que l’on peut assimiler à une « grammaire ». Typiquement, cette grammaire assure que les facteurs de transcription sont correctement agencés pour faciliter les interactions protéines-protéines, le recrutement de co-facteurs et la machinerie de transcription. La dissection fonctionnelle de plusieurs enhancers a conduit à proposer 3 modèles d’activité des enhancers par la fixation des facteurs de transcription (pour revue : Spitz & Furlong 2012) :
– Le modèle enhancéosome : les enhancers sont composés d’un ensemble serré de sites de fixation contactés par des facteurs de transcription selon un ordre précis dans le temps et dans l’espace. Les facteurs de transcription de l’enhancéosome agissent ensemble de façon synergique (Thanos & Maniatis 1995; Merika & Thanos 2001).
– Le modèle du « billboard » : les enhancers présentent des sites de fixation arrangés de façon flexible avec de plus faibles contraintes de distance entre les sites où les facteurs de transcription agissent de façon coopérative et additive. La mutation d’un site n’abolit pas complètement l’activité de l’enhancer suggérant que seulement quelques sites sont actifs à la fois (Lam et al. 2015; Arnosti & Kulkarni 2005).

La régulation de l’expression génétique chez les eucaryotes

Pendant le développement, un enchaînement d’étapes précises conduit, à partir d’une cellule œuf, à un organisme entier dont chaque cellule possède le même patrimoine génétique. Les différents types cellulaires mettent en œuvre des programmes génétiques spécifiques et stéréotypés, impliquant l’activation séquentielle de certains gènes au cours de la différenciation et pour le métabolisme correct de l’organisme adulte. Ceci sous-tend une régulation fine de l’expression des gènes au sein d’un même réseau génétique. Cette régulation, au niveau transcriptionnel, est essentiellement le fait de la présence des facteurs en trans. Cependant, plusieurs niveaux de modulation existent, comme les modifications épigénétiques, les interactions entre promoteurs et éléments cis-régulateurs et la conformation globale de l’ADN au sein du noyau.

La régulation épigénétique

Le terme « épigénétique » a été défini par Conrad Waddington en 1942 comme « la branche de la biologie qui étudie les interactions causales entre les gènes et leurs produits qui induisent le phénotype » (Waddington 1942). Cette première définition n’inclut pas la notion d’héritabilité que défendra bien plus tard Robin Holliday en décrivant l’épigénétique comme « l’étude des changements de la fonction d’un gène qui sont héritables par mitose ou méiose sans entraîner de modification de la séquence d’ADN » (Holliday 1994). Le terme d’épigénétique est depuis utilisé pour décrire, d’une part, l’impact de l’environnement sur le génotype et le phénotype qui en résulte, donc plutôt associé à l’écologie, et, d’autre part, la persistance d’un patron d’expression entre les différentes cellules et à travers les générations, en relation avec la génétique (Deans & Maggert 2015). Il semble que le terme soit donc utilisé de façon dichotomique dans l’une ou l’autre de ces branches de la biologie. Je m’intéresserais ici à la définition ‘génétique’ en considérant la régulation épigénétique de l’expression des gènes eucaryotes. Je présenterai différents phénomènes épigénétiques comme la méthylation de l’ADN, le remodelage de la chromatine qui suit la fixation des facteurs pionniers, les modifications d’histones et les ARN longs non-codants.

La méthylation de l’ADN et les îlots CpGs

La méthylation de l’ADN est un des mécanismes épigénétiques majeurs chez les mammifères pour la régulation de l’expression génétique tissu-spécifique, l’inactivation du chromosome X, l’empreinte génomique et la répression des éléments transposables. Elle consiste au transfert d’un groupement méthyl sur une cytosine formant une 5-méthylcytosine. La majorité des cytosines méthylées précède une guanine, ces dinucléotides sont référencés comme des sites CpGs. Chez les mammifères, les sites CpGs sont sous-représentés dans le génome à cause de la désamination des 5-méthylcytosines en thymine (pour revue : Moore et al. 2012). Une exception existe cependant pour les îlots CpGs : de grandes régions à forte densité de CpGs le plus souvent non méthylés. Les îlots CpGs couvrent le TSS des promoteurs des gènes de ménage et des gènes régulés au cours du développement. La méthylation des îlots CpGs est associée à la répression stable de l’expression des gènes. La méthylation de l’ADN peut contrôler l’expression des gènes de quatre façons :
– en empêchant la fixation d’un facteur de transcription sur sa séquence consensus méthylée.
– en interférant avec des marques positives d’histones (cf 2.1.2).
– en recrutant des répresseurs qui fixent les groupements méthyles.
– en affectant la disposition des nucléosomes.
Les méthyltransférases d’ADN (DNMTs) catalysent la réaction de méthylation. Deuxtypes de DNMT assurent soit le maintien de la méthylation, soit la méthylation de novo. Le maintien de l’état de méthylation est perpétué par l’enzyme DNMT1 qui agit sur le brin non-méthylé après chaque réplication (Yoder & Bestor 1998). Les enzymes DNMT3A et DNMT3B (Okano et al. 1999), avec l’aide de DNMT3L (Bourc’his et al. 2001) ciblent des sites différents du génome et établissent un nouvel état de méthylation. Le retrait de la méthylation de l’ADN peut se faire de façon passive ou active. De manière passive, une inhibition de la DNMT1 conduit à la perte progressive de l’état de méthylation. Plusieurs mécanismes entraînant une déméthylation active sont encore débattus. Les deux stratégies consistent soit à la déamination active des méthylcytosines en thymine comme vu précédemment soit à la formation d’un intermédiaire par ajout d’un groupement hydroxyl menant à l’hydroxyméthylcytosine par les enzymes de la famille TET (Tahiliani et al. 2009). Ces deux composés sont ensuite pris en charge par d’autres enzymes pour la conversion en cytosine.
La méthylation est principalement identifiée par séquençage bisulfite qui consiste au traitement de l’ADN par du bisulfite qui convertit les cytosines en uraciles mais n’affecte pas les méthylcytosines. Le génome est d’abord fragmenté par digestion enzymatique pour la technique de RRBS (Reduced Representation Bisulfite Sequencing, Meissner et al. 2005) ou par sonication pour le WGBS (Whole Genome Bisulfite Sequencing, Lister et al. 2009) avant traitement au bisulfite et séquençage permettant une résolution au nucléotide près.

Le remodelage de la chromatine et les facteurs de transcription pionniers

La chromatine est l’organisation compacte et dynamique de l’ADN autour de protéines appelées histones, qui peut être divisée en euchromatine ouverte et en hétérochromatine condensée. L’unité de répétition de la chromatine est le nucléosome : un octamère d’histones (H2A, H2B, H3 et H4)2 entouré d’environ 200 pb d’ADN. Les nucléosomes peuvent être organisés en fibres de 30 nm grâce aux histones de liaison de types H1 ou H5. La présence de nucléosomes au niveau d’un promoteur inactif empêche les GTFs et l’ARN polymérase II de fixer l’ADN. La transition vers un état actif se fait par un remodelage de la chromatine qui va rendre l’ADN accessible. Ce remodelage peut se faire de différentes façons (fig. 3A) :
– Par glissement : les octamères d’histones peuvent glisser le long de l’ADN pour rendre accessible une séquence particulière.
– Par ajustement : la distance entre les octamères d’histones peut être modifiée.
– Par éviction : un octamère d’histones peut être complétement déplacé, créant alors une zone libre de nucléosome.
Plusieurs complexes de remodelage ATP-dépendants existent chez les mammifères. Les plus connus sont le complexe activateur SWI/SNF et le complexe répresseur ISWI (cf 1.3.2). Un autre complexe INO80/SWR est impliqué dans l’échange des histones et notamment de l’histone variant H2A.Z (Kobor et al. 2004). Les nucléosomes contenant H2A.Z et/ou H3.3 sont plus instables et le dépôt au niveau des promoteurs et des enhancers est associé à l’activation de la transcription (Jin et al. 2009 et fig. 3C). Les complexes de remodelage de la chromatine sont recrutés à l’ADN par des facteurs de transcription « pionniers » qui fixent l’ADN indépendamment de la position des nucléosomes, rendant accessible la chromatine aux autres facteurs de transcription pour l’expression génétique à un stade plus tardif au cours de la différenciation. Ils peuvent rester fixés tout au long de l’activation de l’enhancer ou peuvent être remplacés par d’autres facteurs de transcription formant une grande plateforme de recrutement. Certains facteurs comme FOXA possèdent un domaine de fixation ressemblant à celui des histones de liaison qui permettent cette fois la décompaction de la chromatine par l’altération de la structure des nucléosomes (Cirillo et al. 2002; Iwafuchi-Doi et al. 2016). Le facteur FOXA1 est en plus capable de favoriser un changement épigénétique lors de sa fixation avec une déméthylation de l’ADN et la déposition de la marque H3K4me1 sur les histones (Sérandour et al. 2011). Chez la drosophile, le facteur Zelda est requis pour l’activation des nombreux enhancers à la transition maternelle-zygotique (Liang et al. 2008). Ce facteur possède deux propriétés inhabituelles. D’une part, il occupe plus de la moitié de ses sites potentiels de fixation et d’autre part il est étroitement lié à un changement de l’expression des gènes (Nien et al. 2011; Harrison et al. 2011). Deux études récentes ont montré que Zelda promeut l’accessibilité des enhancers à d’autres facteurs de transcription, par éviction des nucléosomes en association avec le facteur GATA et conduisant à l’activation du génome zygotique (Sun et al. 2015; Schulz et al. 2015). Ces résultats confirment le rôle de Zelda comme facteur pionnier qui, de façon surprenante n’est pas conservé chez les Vertébrés.
Les zones de décompaction de l’ADN peuvent être observées par le test d’hypersensibilité à l’ADNase I suivi de séquençage (Boyle et al. 2008), le FAIRE-seq (Formaldehyde Assisted Isolation of Regulatory Elements following by sequencing, Giresi et al. 2007) et plus récemment par l’ATAC-seq (Assay for Transposase-Accessible Chromatin using sequencing, Buenrostro et al. 2013). Ces techniques se basent sur la sensibilité de la chromatine à la fragmentation, par une endonucléase (Dnase I), par sonication après fixation en paraformaldéhyde (FAIRE-seq), ou par insertion d’étiquettes par une transposase pour une amplification par PCR (ATAC-seq). Ces zones de décompaction de l’ADN correspondent aux promoteurs actifs mais aussi aux éléments cis-régulateurs pour lesquels ces techniques sont un moyen d’identification à l’échelle génomique.

Les modifications d’histones et l’activation séquentielle des enhancers

Les queues d’histones dépassent de chaque côté du nucléosome de façon désordonnée et sont sujettes à des interactions avec d’autres protéines et des modifications post-traductionnelles. Toutes les histones peuvent être modifiées de façon covalente à différentes positions par méthylation, acétylation, phosphorylation, sumoylation ou ubiquitination (fig. 3B). La lysine (K) est la cible la plus commune pour ces modifications. La méthylation des lysines ne change pas la charge positive de l’acide aminé alors que l’acétylation des lysines apporte une charge neutre qui déstabilise l’interaction avec l’ADN chargé négativement et favorise donc la décompaction de la chromatine. De plus, l’acétylation des lysines est reconnue par des facteurs à bromodomaine alors que la méthylation est fixée par les facteurs à chromodomaine, les domaines Tudor et MBT. L’acétylation des histones est un équilibre entre l’activité enzymatique des HATs et des HDACs. Les HATS sont réparties en deux groupes. Les HATs du groupe B acétylent les histones néosynthétisées dans le cytoplasme et participent à l’assemblage des nucléosomes. Celles du groupe A agissent directement sur les histones de la chromatine et sont impliquées dans le contrôle de la transcription comme co-activateurs (cf 1.3.2). Le co-activateur le mieux décrit est p300/CBP (CREB binding protein, fig. 3C) qui acétyle majoritairement les histones au niveau des enhancers. L’analyse pangénomique de la fixation de p300/CBP par immunoprécipitation de chromatine suivie de séquençage (ChIP-seq) a été notamment utilisée pour l’identification des enhancers (Visel et al. 2009). Les HDACs sont des répresseurs transcriptionnels (cf 1.3.3). Les HATs et les HDACs sont généralement peu spécifiques (pour revue : Verdin & Ott 2014). La méthylation des histones est plus complexe car elle peut être associée à l’activation ou la répression de la transcription. Les histones méthyltransférases (HMTs) ciblant la lysine contiennent un domaine SET ou appartiennent aux protéines DOT1 (Disruptor Of Telomeric silencing 1), celles ciblant l’arginine possèdent un domaine PMRT. La méthylation a longtemps été considérée comme irréversible à cause de son extrême stabilité. Depuis une dizaine d’années, plusieurs histones déméthylases (HDMTs) ont été découvertes comme LSD1 (Lysine-Specific Demethylase 1) et les protéines à domaine Jumonjy C (pour revue : Greer & Shi 2012).
La combinaison de marques spécifiques d’histones détermine l’état transcriptionnel d’une région génomique ; ce concept est appelé le code histone (Jenuwein & Allis 2001). Des modifications associées aux promoteurs, aux éléments cis-régulateurs et au corps d’un gène caractérisent l’état actif ou inactif d’un locus. On distingue ainsi (pour revue : Zhou et al. 2011 et fig. 3C) :
– Les marques H3K36me3 et H3K79me2 au niveau du corps des gènes transcrits et en particulier des exons.
– Les marques H3K4me3 et H3K27ac au niveau des promoteurs actifs, H3K9me3 et H3K27me3 pour ceux inactifs et les promoteurs bivalents par H3K4me3 et H3K27me3. La marque H3K27me3 est déposée par le complexe PRC2 (Polycomb Repressive Complex) grâce à la protéine EZH2 (Enhancer of Zeste Homolog 2) qui permet ensuite le recrutement de PRC1 qui à son tour ubiquitine H2A119 grâce à RING1 (Ring Finger Protein 1). La fixation des complexes Polycomb au niveau des promoteurs chez les mammifères empêche le recrutement des complexes de remodelage de la chromatine induisant la compaction de la chromatine et réduisant l’accès aux facteurs de transcription (Grau et al. 2011). La marque H3K9me3 déposée par SUV38H1 est fixée par la protéine HP1 (Heterochromatin Protein 1) qui permet la formation et le maintien de l’hétérochromatine (Zeng et al. 2010).
– Les marques H3K4me1, H3K4me2 et H3K27ac décorent les enhancers actifs alors que ceux inactifs le sont par H3K9me2 et H3K9me3. Un troisième état « poised » (prêt à être activé) est associé aux enhancers dans le cas des cellules souches embryonnaires avec la présence de H3K4me1 et H3K27me3 et constitue un état intermédiaire qui faciliterait l’activation rapide des enhancers pour la différenciation.
H3K4me1 et H3K27ac sont les signatures chromatiniennes utilisées pour l’identification des enhancers notamment dans le cadre du projet ENCODE (cf 2.1.5).
Le dépôt des marques de chromatine participe à l’activation séquentielle des enhancers et promoteurs. La fixation des facteurs pionniers est concomitante avec la fixation des complexes de remodelage de la chromatine et l’incorporation des histones variants formant des zones de déplétion des nucléosomes. Les nucléosomes flanquants sont alors marqués par H3K4me1 par les HMTs Mll3/4 recrutées par les facteurs pionniers. Les facteurs de transcription tissu-spécifique fixent ces zones libres et mènent au recrutement de p300/CBP pour l’acétylation de H3K27. Cette activation des enhancers précède celle des promoteurs et coïncide avec l’éviction des facteurs Polycomb, la perte d’H3K27me3 et le maintien d’H3K4me3 par le remplacement de Mll1/2 par SET1A/B et le recrutement de la machinerie de transcription. De plus, enhancers et promoteurs peuvent être fixés par les complexes Cohésine et Médiateur qui participent à la formation de boucles chromatiniennes (Kondo et al. 2016).

Les ARNs longs non-codants

Les ARNs longs non-codants (lncRNAs) sont des ARNs de plus de 200 nucléotides, souvent polyadénylés et épissés mais dépourvus de cadres ouverts de lecture (ORFs) évidents. Les promoteurs des lncRNAs sont marqués par H3K4me3 contrairement aux ARNs issus d’enhancers (eRNAs, cf 2.2.2). Les lncRNAs servent de ligands pour des protéines et fixent l’ADN par complémentarité entre acides nucléiques sur le site cible en apportant les complexes de régulation transcriptionnelle. Les lncRNAs peuvent contrôler les gènes proches de leur site de transcription sur le même chromosome, ils agissent en cis (fig. 4B), ou bien ils activent ou répriment des gènes situés en trans (fig. 4A). Un exemple bien connu de lncRNA agissant en cis est Xist (X-inactive specific transcript) impliqué dans l’inactivation d’un des chromosomes X chez les mammifères par la formation d’hétérochromatine notamment grâce au recrutement du complexe Polycomb PRC2. Un autre lncRNA HOTAIR (HOX transcript antisens RNA) est transcrit du cluster HOXC et réprime le cluster HOXD en trans, là encore par recrutement de complexes de modification de la chromatine (pour revue : Fatica & Bozzoni 2014). Cependant les mécanismes de ciblage de ces lncRNAs, aussi bien la rétention sur le lieu de transcription pour ceux agissant en cis que l’adressage à longue distance pour ceux agissant en trans, ne sont pas connus.

Le consortium ENCODE

Le séquençage du génome humain achevé en 2001 a permis de révéler que les cadres ouverts de lecture représentent seulement 1,2% du génome (Lander et al., 2001 & Venter et al., 2001). Le reste du génome sera alors référencé comme ‘junk DNA’ d’après le terme utilisé par Ohno (Ohno 1972). Le projet ENCODE (Encyclopedia of DNA Elements) lancé en 2003, vise à référencer tous les éléments fonctionnels du génome humain et murin, comprenant les gènes, les transcrits, les régions régulatrices et les marques épigénétiques (Dunham et al. 2012; Feingold et al. 2004; Birney et al. 2007), en utilisant un grand nombre de techniques biochimiques reposant sur du séquençage à haut-débit (fig. 4C). En 2012, 80% du génome humain est assigné à une fonction biochimique, dont un grand nombre de séquences régulatrices potentielles ou correspondantes à des ARNs non-codants. Ainsi, le degré de complexité d’un organisme peut être mieux évalué par la quantité de transcription en ARN non-codant que par le nombre de gènes codants des protéines, même lorsque l’épissage alternatif et les modifications post-traductionnelles sont pris en compte (Taft et al. 2007). Ce projet constitue un catalogue de nombreuses données disponibles et facilement visualisables sur les navigateurs UCSC et Ensembl.

Les interactions enhancers-promoteurs

Chez les eucaryotes simples comme la levure, les éléments cis-régulateurs sont directement à proximité du promoteur autour d’1 kb. La drosophile est un organisme plus complexe dont le génome est plus vaste et comprend des régions régulatrices relativement proches du promoteur vers 10 kb. Chez les mammifères, les régions régulatrices sont plus diversifiées à la suite notamment de deux duplications complètes de génome. Les éléments cis-régulateurs peuvent alors être distants de plusieurs centaines de kb à plus d’un Mb du promoteur. La transcription des gènes cibles peut nécessiter la formation de boucles d’ADN qui rapprochent physiquement les enhancers du promoteur. Cette architecture en boucles d’ADN est modelée par des protéines de structure et conduit à des phénomènes de « pause » de l’ARN polymérase II, suivis de transcription souvent bidirectionnelle aussi bien au niveau des promoteurs que des enhancers.

Les protéines de structure modèlent l’architecture des boucles de chromatine

CTCF est un facteur de transcription à 11 doigts à zinc reconnaissant une séquence d’au moins 20 nucléotides non palindromique qui est conservée évolutivement chez la plupart des animaux (Heger et al. 2012). Il a d’abord été décrit comme ayant un rôle de barrière à la propagation d’hétérochromatine puis comme bloqueur des contacts entre enhancers et promoteurs (cf 1.2.3). Ce second rôle a été déterminé par transgénèse mais peu d’exemples in vivo l’ont confirmé et des expériences plus récentes contredisent cet effet. L’utilisation d’une méthode dérivée du 3C (Chromosome Conformation Capture, Dekker et al. 2002) comme le 5C (Carbon-Copy 3C, Dostie et al. 2006) a montré que 79 % des interactions à longue distance entre des éléments cis-régulateurs distaux et promoteurs n’étaient pas bloquées par la fixation de CTCF (Sanyal et al. 2012). De plus, une partie de ces enhancers distaux coïncident avec un enrichissement de CTCF et/ou de marques d’histones activatrices telles H3K27ac, H3K4me1 et H3K4me2, supportant l’idée d’un rôle majeur de CTCF dans le ciblage des enhancers distaux aux promoteurs des gènes qu’ils régulent (Handoko et al. 2011). La topologie du génome au sein du noyau peut permettre de rationaliser les différents rôles de CTCF comme nous le verrons dans le paragraphe 2.3.1.
Le complexe cohésine forme un anneau composé des protéines SMC1A, SMC3, Rad21 et SA1 ou SA2 (fig. 5A) qui entoure l’ADN sans fixation directe par reconnaissance d’une séquence consensus. La cohésine est bien connue pour son rôle cohésif des chromatides sœurs après la réplication de l’ADN en phase S jusqu’en anaphase où elle est éliminée de la chromatine et les chromatides sœurs sont ségrégées dans les deux cellules filles. Cette fonction de la cohésine est essentielle et le complexe est très conservé au cours de l’évolution (pour revue : Nasmyth & Haering 2009). La cohésine est aussi un composant majeur de la chromatine des cellules interphasiques et coïncide avec la fixation du facteur CTCF (Wendt et al. 2008; Parelho et al. 2008). Le complexe cohésine régule donc l’activité des gènes grâce à la formation et la stabilisation des boucles à longue distance de la chromatine au niveau des sites de fixation de CTCF (Hadjur et al. 2009). De plus, il a été montré dans plusieurs types cellulaires que la cohésine et le médiateur interagissent physiquement et permettent de connecter les promoteurs et enhancers (Kagey et al. 2010, fig. 5B).
L’association de CTCF et de la cohésine dans les interactions à longue distance permet de réguler des loci complexes tels celui de la ß-globine dans les érythrocytes (Splinter et al. 2006) et des proto-cadhérines dans le cerveau (Remeseiro et al. 2012; Hirayama et al. 2012). Il a été montré que CTCF et la cohésine sont fortement enrichis au niveau des super-enhancers permettant de réguler l’expression des gènes par le regroupement spatial des enhancers (Ing-simmons et al. 2015) et que ces interactions interviennent entre deux sites CTCF co-occupés par la cohésine (Dowen et al. 2014). Plusieurs études ont mis en évidence que l’orientation convergente des sites de fixation de CTCF permet la formation des boucles de chromatine en association avec la cohésine (Vietri Rudan et al. 2015; Rao et al. 2014; Guo et al. 2015; Wit et al. 2015 et fig. 5C et 6A). Cependant, l’utilisation du système d’édition du génome CRISPR/Cas9 a permis d’inverser l’orientation d’un site CTCF au niveau du super-enhancer de Sox2 et de montrer que la fixation de CTCF et de la cohésine n’est pas affectée, de même que l’expression du gène bien que la formation de boucles avec le promoteur soit abolie (Wit et al. 2015). De façon analogue, l’inversion d’un site CTCF au niveau de l’enhancer HS5-1 régulant les gènes du groupe Pcdhα (Protocadherin α) abolit les interactions avec les promoteurs de ce groupe alors qu’elles sont plus nombreuses pour ceux des groupes Pcdhβ et Pcdhγ. La fixation de CTCF reste identique mais celle de la cohésine diminue. Enfin l’expression des gènes du groupe Pcdhα est altérée mais il n’y a pas d’expression pour les autres groupes malgré les nouvelles interactions (Guo et al. 2015). Il semblerait donc que les interactions enhancer-promoteur ne soient pas indispensables à l’expression de certains loci qui serait plutôt la résultante de multiples acteurs. Par exemple, l’interaction entre le LCR et le promoteur de la ß-globine dépend aussi du facteur de transcription GATA1 et de la protéine de structure Ldb1. En l’absence de GATA1, le locus est inactif et déroulé. En adressant artificiellement Ldb1 au niveau du promoteur, l’interaction avec le LCR est restaurée et la transcription de la ß-globine réactivée (Deng et al. 2012). Le même groupe a montré de façon similaire que l’adressage de Ldb1 au promoteur du gène embryonnaire de la globine ßh1 permettant la réactivation de la transcription dans des érythroblastes primaires adultes, représentant une stratégie thérapeutique originale (Deng et al. 2014). Le rôle des protéines de structure dans les interactions à longue distance entre enhancers et promoteurs n’est pas encore totalement élucidé et dépend aussi probablement du locus considéré.

La transcription des enhancers

Deux études indépendantes de 2010 montrent que le recrutement de l’ARN Pol II et la transcription sont des caractéristiques pangénomiques des enhancers fonctionnellement actifs (Kim et al. 2010; De Santa et al. 2010). Les transcrits sont dénommés eRNAs (enhancer RNAs) et diffèrents des lncRNAs décrits précédemment. Les eRNAs sont transcrits à partir d’enhancers caractérisés par un niveau élevé de H3K4me1/2 par rapport à H3K4me3. Les eRNAs sont en général cappés (Lam et al. 2013) mais non-polyadénylés et sont donc de petite taille (<2kb). La transcription au niveau des enhancers est majoritairement bidirectionnelle sans biais contrairement aux promoteurs. Les eRNAs sont sensibles à la dégradation par les exosomes et sont transcrits à un faible niveau (pour revue : Lam et al. 2014). Leur détection par séquençage classique d’ARNs nécessite une grande profondeur de séquençage. Des techniques ont été développées pour palier à cette limitation comme le CAGE (Cap Analysis Gene Expression) qui consiste en la capture des ARNs par la coiffe, d’une étape de transcription inverse et de PCR avant séquençage (Shiraki et al. 2003), le GRO-seq (Global Run-On sequencing) qui utilise l’incorporation de Br-UTP pour détecter les ARNs naissants suivie d’amplification et de séquençage (Core et al. 2008) ou la combinaison des deux techniques logiquement dénommée GRO-cap (Core et al. 2014). Il semblerait que l’induction des eRNAs soit un indicateur pertinent de l’activité des enhancers. Une analyse pangénomique de la transcription des enhancers de plusieurs types cellulaire chez l’humain a notamment montré une forte corrélation entre les enhancers transcrits, les marques H3K4me1/H3K27ac et les sites de sensibilité à l’ADNase I ainsi qu’une activité testée par transgénèse des candidats chez le poisson-zèbre (Andersson et al. 2014; Wu et al. 2014).
Trois hypothèses non exclusives ont été formulées pour expliquer le rôle physiologique de la transcription des enhancers :
– la transcription à bas bruit résulte de l’accessibilité des enhancers aux ARN polymérases II .
– le processus de transcription per se conduit aux fonctions activatrices des enhancers .
– ou le transcrit lui-même participe à l’activation des enhancers.
Plusieurs études ont confirmé les deux dernières hypothèses pour certains eRNAs (Melo et al. 2013; Lam et al. 2013; Li et al. 2013). Les mécanismes d’action sont encore particulièrement débattus pour les interactions entre promoteurs et enhancers. Pour certains loci, les eRNAs participent directement aux boucles chromatiniennes et à la déposition de H3K27ac au niveau du promoteur cible (Pnueli et al. 2015; Li et al. 2013 et fig. 5B) ou plutôt à l’activation de la transcription au locus déjà pré-conformé, en permettant notamment le relargage de la polymérase en pause (Melo et al. 2013; Schaukowitch et al. 2014 et fig. 5B). Une étude a montré que les eRNAs contribuent au remodelage de la chromatine et l’accès à la machinerie de transcription (Mousavi et al. 2013 et fig. 5B). Il a été mis en évidence récemment que le complexe Integrator, qui s’associe avec le domaine CTD de la Pol II, participe à la biogenèse des eRNAs et à la fonction des enhancers. Lorsque plusieurs sous-unités du complexe sont inactivées, la synthèse des eRNAs diminue et le contact enhancer-promoteur est aboli (Lai et al. 2015). Il semble donc que la transcription des enhancers et le transcrit agissent sur l’activation de la transcription des gènes cibles par des mécanismes différents, plutôt en cis, toujours en cours d’investigation, rappelant la diversité d’action des ncRNAs.

Les polymérases en pause

Chez les métazoaires, un grand nombre de gènes présentent des ARN polymérases II (Pol II) dites « en pause ». Cette polymérase est une forme active qui s’arrête entre 30 pb et 50 pb après le TSS. Des études pangénomiques suggèrent que les pol II en pause représentent une étape commune de régulation de la transcription des gènes de développement ou de réponse à des voies de signalisation (pour revue : Adelman & Lis 2012). Le phénomène de pause des pol II dépend du promoteur proximal auquel se fixent les TFs en association avec deux facteurs stabilisateurs : NELF (Negative Elongation Factor) et DSIF (DBR-Sensitivity-Inducing Factor). Le relargage de la pol II fait intervenir le recrutement par les TFs et co-facteurs du complexe P-TEB (Positive Transcription Elongation Factor-b) qui phosphoryle le domaine carboxyterminal de la pol II sur les serines 2 ainsi que NELF qui est évincé du promoteur et DSIF qui devient un facteur positif du processus d’élongation de la transcription (pour revue : Peterlin & Price 2006 et fig. 5D). Comme mentionné précédemment, la présence locale de eRNAs au niveau du promoteur facilite l’éviction du facteur NELF (Schaukowitch et al. 2014 et fig. 5B). Cependant, plusieurs études ont mis en évidence que les interactions à distance entre enhancers et promoteurs participent au relargage de la pol II. Le Médiateur sert de pont pour la communication enhancer-promoteur. Il interagit d’abord avec TFIID puis échange avec le complexe de super élongation (SEC), qui comprend notamment P-TEB, et facilite donc le relargage de la pol II et une élongation productive (Takahashi et al. 2011). La déplétion de la cohésine entraîne la diminution de la transcription des gènes fixés par le complexe, augmente la pause des pol II et diminue les contacts entre les enhancers et leurs promoteurs, indiquant le rôle de la cohésine dans le relargage de la pol II et l’importance des contacts enhancers-promoteurs dans l’activation de la transcription (Schaaf et al. 2013). Une étude à grande échelle chez la drosophile montre qu’une grande majorité des interactions entre enhancers et promoteurs sont présentes avant l’activation des gènes cibles et sont associées avec les polymérases en pause. Cet état de pré-conformation conditionnerait l’activation rapide et précise de la transcription par le recrutement de facteurs tissu-spécifiques et le relargage de la pol II (Ghavi-helm et al. 2014). Une étude récente montre que la sous-unité PC (ou son orthologue UBX) de PRC1 est physiquement associée avec les pol II en pause et qu’elle inhibe CBP pour l’acétylation de H3K27 (Tie et al. 2016). De plus, les interactions enhancers-promoteurs sont dépendantes de CBP chez la drosophile, suggérant que l’inhibition de CBP par PC participe à la régulation de l’expression en affectant la configuration chromatinienne (Kellner et al. 2012).

La transcription bidirectionnelle des promoteurs

Comme pour les enhancers, des études génomiques ont démontré que les promoteurs pouvaient être transcrits de façon bidirectionnelle. En effet, les TSS des ARNm des mammifères sont accompagnés de TSS amonts de direction opposée produisant des transcrits amonts du promoteur (PROMPTs) or ARN amonts antisens (uaRNAs) qui sont très instables, non codants et dégradés rapidement par les exosomes (Preker et al. 2008; Seila et al. 2008; Core et al. 2008; Core et al. 2014; Andersson, Chen, et al. 2015; Flynn et al. 2011). L’initiation de la transcription des ARNm et des PROMPTs/uaRNAs est caractérisée par un espacement de 110 pb à 250 bp entre les TSS, autour duquel un grand nombre de facteurs de transcription se fixent et qui est donc accompagné d’une déplétion des nucléosomes (Core et al. 2014; Duttke et al. 2015; Scruggs et al. 2015 et fig. 5E). Ces propriétés ont conduit à appeler ces promoteurs « divergents » ou « bidirectionnels ». La fonction des PROMPTs/uaRNAs n’a pas encore été élucidée. Quant à la proportion de promoteurs unidirectionnels par rapport aux bidirectionnels, un débat a opposé les auteurs de deux articles récents : les premiers qui défendent une large majorité de promoteur bidirectionnel (Andersson, Chen, et al. 2015) alors que les seconds proposent que les promoteurs sont par nature unidirectionnels (Duttke et al. 2015). Entre sémantique, techniques à haut débit, profondeur de séquençage et analyses bioinformatiques, les avis divergent et illustrent l’avancée rapide des technologies qui invite à une certaine prudence quant à l’analyse et l’interprétation de ces données à grande échelle.
Deux revues récentes pointent les similitudes entre enhancers et promoteurs aussi bien au niveau architectural que fonctionnel (Andersson, Sandelin, et al. 2015; Kim & Shiekhattar 2015). La capacité de transcription bidirectionnelle par le recrutement de la pol II et des GTFs est partagée entre ces deux éléments, de même que la synthèse efficace d’ARN sens et antisens. Ils mettent aussi en lumière la réciprocité suivante : les enhancers possèdent une activité promotrice alors que les promoteurs peuvent fonctionner comme des enhancers. Cependant, ceci sous-tend que les enhancers proximaux sont maintenant complètement rattachés à la notion de promoteur. Les modifications d’histones sont un autre aspect qu’ils rapprochent. Les trois états de méthylation de H3K4 (me1/2/3) pourraient être le reflet de la dynamique de la transcription, avec d’un côté des enhancers forts marqués par H3K4me3 et les promoteurs faibles par H3K4me1, rendant la distinction entre les deux types d’éléments encore plus floue. Bien que les propriétés allouées aux enhancers et promoteurs aient changé avec le séquençage de nombreux génomes, il n’en demeure pas moins qu’un promoteur dirige la transcription d’un gène, qu’il soit codant ou non codant, et qu’un enhancer facilite cette transcription précise de manière spatio-temporelle.

L’organisation tridimensionnelle du génome

Le noyau eucaryote est un organite délimité par une enveloppe nucléaire qui confine l’ADN génomique dans un espace tridimensionnel. Il s’organise en compartiments qui peuvent être spécifiques d’un type cellulaire et donc participer à l’expression correcte des gènes. Les avancées de techniques associées au séquençage à haut débit telles les méthodes dérivées du 3C et la microscopie à haute résolution ont révolutionné notre compréhension de l’organisation du génome et des mécanismes qui régulent l’activité des gènes. Outre les boucles enhancers et promoteurs, d’autres structures modèlent la chromatine : en domaines topologiques (TADs), en compartiments subchromosomaux actifs ou inactifs, en domaines associés à la lamina de l’enveloppe nucléaire (LADs) ou en territoires chromosomiques.

Les domaines topologiques (TADs)

Les domaines topologiques sont des domaines de l’ordre du Mégabase (Mb) chez les mammifères caractérisés par une plus forte proportion d’interactions avec les loci d’un même domaine qu’avec ceux des domaines adjacents. Ils ont été mis en évidence par les techniques de Hi-C et de 5C qui permettent d’obtenir une carte des interactions génomiques, dont la résolution dépend de la profondeur de séquençage entre 10 et 100 kb, chez les mammifères et la drosophile (Nora et al. 2012; Dixon et al. 2012; Sexton et al. 2012 et fig. 6A). Les TADs sont globalement invariants au cours de la différenciation cellulaire et ils sont généralement conservés en position entre l’homme et la souris (Dixon et al. 2012; Vietri Rudan et al. 2015). Cependant ils sont divisés en sous-domaines d’interactions (aussi appelés sub-TADs) qui varient fortement d’un type cellulaire à un autre et correspondraient à différentes conformations entre éléments cis-régulateurs et promoteurs (Dixon et al. 2012; Nora et al. 2012; Phillips-Cremins et al. 2013; Rao et al. 2014 et fig. 6A). Les frontières des TADs sont enrichies en gènes de ménage, gènes d’ARNt, séquences répétées du type SINE et caractérisées par la présence de CTCF et de la cohésine chez les mammifères (Dixon et al. 2012). Chez la drosophile, les frontières comprennent des gènes constitutivement actifs et une forte proportion de protéines architecturales telles CTCF, BEAF-32, Su(Hw) et Mod(mdg4) (Sexton et al. 2012; Hou et al. 2012). Plusieurs études ont montré que les deux frontières d’un TAD contiennent des sites CTCF orientés de façon opposée et sont engagées ensemble dans une interaction à distance (Wit et al. 2015; Gómez-Marín et al. 2015; Guo et al. 2015; Rao et al. 2014; Vietri Rudan et al. 2015 et fig. 6A). Chez les mammifères, 85% des sites de fixation du facteur CTCF sont localisés à l’intérieur des TADs (Dixon et al. 2012) où ces sites favorisent les interactions enhancers-promoteurs dépendantes de CTCF (Tang et al. 2015).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1. LES GENES EUCARYOTES ET LA TRANSCRIPTION
1.1 QU’EST-CE QU’UN GENE ?
1.2 COMMENT S’ORGANISENT LES GENES ?
1.2.1 Le promoteur
1.2.2 Les enhancers et silencers
1.2.3 Les insulateurs
1.2.4 Les LCR et/ou super-enhancers
1.3 LES ACTEURS DE LA TRANSCRIPTION
1.3.1 Les facteurs généraux de la transcription
1.3.2 Les activateurs en trans ou facteurs de transcription
1.3.3 Les co-activateurs
1.3.4 Les répresseurs et co-répresseurs
2. LA REGULATION DE L’EXPRESSION GENETIQUE CHEZ LES EUCARYOTES
2.1 LA REGULATION EPIGENETIQUE
2.1.1 La méthylation de l’ADN et les îlots CpGs
2.1.2 Le remodelage de la chromatine et les facteurs de transcription pionniers
2.1.3 Les modifications d’histones et l’activation séquentielle des enhancers
2.1.4 Les ARNs longs non-codants
2.1.5 Le consortium ENCODE
2.2 LES INTERACTIONS ENHANCERS-PROMOTEURS
2.2.1 Les protéines de structures modèlent l’architecture des boucles de chromatine
2.2.2 La transcription des enhancers
2.2.3 Les polymérases en pause
2.2.4 La transcription bidirectionnelle des promoteurs
2.3 L’ORGANISATION TRIDIMENSIONNELLE DU GENOME
2.3.1 Les domaines topologiques (TADs)
2.3.2 Les domaines A&B et les usines de transcription
2.3.3 Les territoires chromosomiques et les LADs
3. LES ELEMENTS CIS-REGULATEURS AU COEUR DES PROCESSUS DEVELOPPEMENTAUX, EVOLUTIFS ET DES MALADIES
3.1 LES ELEMENTS CIS-REGULATEURS CONFERENT DE LA ROBUSTESSE PENDANT LE DEVELOPPEMENT
3.1.1 Redondance et précision transcriptionnelle
3.1.2 Les sites de faible affinité aussi importants que les sites de forte affinité
3.2 LES ELEMENTS CIS-REGULATEURS MOTEUR DE L’EVOLUTION
3.2.1 Évolution des enhancers et diversité animale
3.2.2 Conservation d’expression sans conservation de séquences et vice versa
3.3 LES VARIATIONS DES SEQUENCES NON-CODANTES SONT A L’ORIGINE DE MALADIES
3.3.1 Les petites variations génétiques modifient la fixation des TFs sur les éléments cisrégulateurs
3.3.2 Les grandes variations structurales altèrent les domaines chromatiniens
4. LA SEGMENTATION DU RHOMBENCEPHALE ET LE GENE KROX20
4.1 LA MISE EN PLACE DU RHOMBENCEPHALE
4.2 LA FONCTION DE KROX20 DANS LE RHOMBENCEPHALE DEVOILEE PAR L’ETUDE DU MUTANT KROX20-LACZ
4.3 LES ELEMENTS CIS-REGULATEURS DU GENE KROX20 DANS LE RHOMBENCEPHALE
4.4 UN MODELE TRANSCRIPTIONNEL INCOMPLET
RESULTATS
CHAPITRE 1 L’AUTOREGULATION DU GENE KROX20 DANS LA SEGMENTATION DU RHOMBENCEPHALE
CHAPITRE 2 DIFFERENT MODES OF COOPERATION BETWEEN CIS-ACTING ELEMENTS GOVERN THE EXPRESSION OF THE KROX20/EGR2 HINDBRAIN DEVELOPMENTAL GENE
CHAPITRE 3 DEVELOPPEMENT DE DEUX SYSTEMES POUR L’ETUDE DE LA REGULATION DU GENE KROX20 CHEZ LES VERTEBRES
1. DERIVATION DE CELLULES SOUCHES EMBRYONNAIRES MURINES
2. DELETION D’UN ENHANCER CHEZ LE POISSON-ZEBRE
DISCUSSION
1. DELETION D’UN ELEMENT AUTOREGULATEUR CHEZ LA SOURIS
2. LA BOUCLE ENTRE L’ELEMENT A ET LE PROMOTEUR APPORTERAIT DE LA ROBUSTESSE
3. NOUVELLES QUESTIONS SUR LE ROLE DE L’ELEMENT C DANS L’EXPRESSION EN DEUX PHASES DU GENE KROX20
4. LES ELEMENTS CIS-REGULATEURS DU GENE KROX20 DANS LE RHOMBENCEPHALE CHEZ LA SOURIS
5. LES ELEMENTS CIS-REGULATEURS DU GENE KROX20 DANS LE RHOMBENCEPHALE CHEZ LE POISSON-ZEBRE
6. LIMITATIONS DE NOTRE SYSTEME EMBRYONNAIRE, VERS UNE ETUDE EN CELLULE UNIQUE ?
REFERENCES BIBLIOGRAPHIQUES