Étudier l’expression des gènes grâce au Séquençage de l’ARN (RNA-Seq) 

Télécharger le fichier pdf d’un mémoire de fin d’études

La fleur à l’échelle de la plante

À l’opposé des espèces animales, les végétaux entretiennent des réservoirs de cellules souches (ou indifférenciées) tout au long de leur vie appelés méristèmes. Après la germination, l’embryon de plante met en place deux méristèmes : un méristème racinaire qui permettra à toutes les racines de se former dans le sol et un méristème apical caulinaire depuis lequel se produira la formation de tous les organes émergés de la plante. La plante croît donc en taille grâce à ces deux méristèmes. La formation de méristèmes axillaires à l’aisselle des feuilles permet la formations de branches. Les méristèmes secondaires à l’extrémité de ces branches peuvent alors à leur tour induire de nouveaux méristèmes axillaires.
Lors de la transition florale, les méristèmes végétatifs se différencient en méristème d’inflorescence sur lesquels les méristèmes floraux, qui formeront les futures fleurs, vont apparaître.
Après avoir présenté les fleurs, la suite immédiate de cette introduction va d’abord introduire les éléments généraux nécessaires à la compréhension des mécanismes moléculaires pour revenir ensuite sur les acteurs spécifiques à la fleur.

Les protéines façonnent la plante

Jusqu’alors, nous avons décrit l’architecture de la fleur et les étapes développementales de la plante qui conduisent finalement à la floraison. Pour comprendre l’orchestration de ces phénomènes macrosco-piques – ce qui est l’objet de cette thèse – il faut se pencher sur les mécanismes biologiques qui ont lieu dans la cellule, en particulier au niveau de l’ADN. En effet, l’ADN est le support des gènes et ceux-ci codent pour des protéines, qui façonnent la cellule.
Au sein d’un même organisme, l’unicité de l’ADN dans les cellules somatiques impose une régulation complexe des gènes exprimés et réprimés : la plupart des gènes régulateurs de l’architecture florale ne doivent pas être exprimés dans les racines, par exemple.

Généralités sur la régulation de la transcription

Les facteurs de transcription

La régulation de l’expression des gènes est orchestrée par les facteurs de transcription (TF). Ces protéines se lient sur des sites de liaison spécifiques sur le génome (Wasserman and Sandelin, 2004) à proximité des gènes pour recruter ou empêcher le recrutement du complexe d’initiation de la transcription.
À l’échelle d’un TF, le noyau de la cellule et le génome sont immenses. Pour faciliter le déplacement du TF vers ses sites spécifiques, celui-ci diffuse d’abord vers l’ADN. Une fois lié à l’ADN, des interactions aspécifiques permettent vraissemblablement au TF de glisser le long de la double hélice (Raccaud et al., 2019; Marklund et al., 2013). Le contexte génomique aux alentours des sites spécifiques (le contenu en nucléotides GC, la chromatine…) sont donc des éléments pouvant aider ou empêcher le TF d’atteindre ses sites de liaison spécifiques.
Le contact du TF à l’ADN est assuré par une séquence d’acide aminés appelé domaine de liaison à l’ADN. Comme ils assurent la spécificité de liaison du TF, ces acides aminés sont généralement très conservés au cours de l’évolution au sein d’une famille de TF partageant une même spécificité. Pour comprendre les interactions spécifiques entre le TF et l’ADN, il nous faut détailler la structure de la double hélice. Celle-ci forme deux sillons : le petit sillon (Minor groove) (figure 14) et le grand sillon (Major groove). La majorité des TF se lie dans le grand sillon : celui-ci affiche un plus grand nombre de configurations de donneurs et d’accepteurs de liaisons hydrogène que le petit sillon et permet donc une meilleure spécificité de liaison (figure 4).

Les facteurs épigénétiques

L’ADN s’enroule autour des histones pour former des nucléosomes qui constituent la chromatine (figure 3) Les nucléosomes sont constitués des histones de cœur H2A, H2B, H3 et H4. Les différents variant d’histones (H3.1, H3.2, H3.3, H2A.Z, H2A.X…), leur présence ou leur absence et les modifications post-traductionnelles présentes sur les celles-ci engendrent différents degrés de compacité. Par conséquent, si un promoteur suffisamment fermé contient un site de liaison pour un TF donné, ce TF ne pourra pas se lier (Klemm et al., 2019). De ce fait, il ne pourra pas exercer son action régulatrice. L’état des histones, leur présence ou leur absence agissent donc comme un deuxième niveau de régulation. Ainsi, des groupes de TF et des profils chromatiniens contribuent à définir des types cellulaires particuliers (Pikaard and Scheid, 2014).
L’état de la chromatine n’est pas figé, il peut être altéré par l’ajout, le retrait de nucléosomes, ou certaines modifications des histones qui le composent (Xiao et al., 2017) : certaines protéines peuvent déposer des marques, les lire ou les retirer (ces notions sont traitées plus en détail dans le paragraphe I.2.2). Ces protéines doivent être adressées à des régions données du génome alors qu’elles ne sont souvent pas spécifiques de séquences d’ADN définies. Certains facteurs de transcription sont alors capables d’interagir avec les remodeleurs chromatiniens, leurs permettant de cibler des régions précises (Li et al., 2016a).
De même que les histones, l’ADN est sujet à des modifications : les cytosines peuvent être respective-ment méthylées ou déméthylées par des protéines appelées ADN-méthyltransférases et ADN-déméthylases (He et al., 2011). Comme les remodeleurs chromatiniens, ces protéines ont besoin de partenaires pour cibler des régions spécifiques (Zhu et al., 2016). La méthylation des cytosines est généralement considérée comme une marque empêchant la liaison des TF et favorisant la liaison des methyl binding proteins (MBP) se liant sur l’ADN méthylé. Ces protéines agissent comme des compétiteurs des TF et sont connues pour recruter des remodeleurs qui compactent la chromatine (Zhu et al., 2016). Cependant, de nouvelles don-nées montrent que certains TF ont une affinité plus importante pour les régions où l’ADN est méthylé, suggérant que certaines régions méthylées peuvent être activement transcrites (Zuo et al., 2017).

Les modifications post traductionnelles des histones

Ici, nous détaillerons les phénomènes chromatiniens évoqués dans le paragraphe I.2.1.2.

Hétérochromatine et euchromatine

On distingue deux types de chromatine : l’hétérochromatine et l’euchromatine. La première forme comprend les régions de l’ADN qui ne sont pas destinées à être transcrites et qui sont donc très compactes. Dans ces régions, on compte d’une part les centromères et les télomères, qui ne contiennent pas de gène, et d’autre part les transposons (Sequeira-Mendes et al., 2014). À l’inverse, l’euchromatine est beaucoup plus riche en séquences codantes et moins compacte que l’hétérochromatine. La compacité de l’hétérochromatine est notamment assurée par la di-méthylation de la lysine 9 de l’histone 3 (H3K9me2). On constate que l’euchromatine affiche une plus grande variété de profils lui permettant de moduler l’expression des gènes : par exemple, H3K4me3, H3K27ac ou H3K36me3 peuvent marquer les gènes actifs alors que H3K27me3 est trouvé chez les gènes réprimés (Sequeira-Mendes et al., 2014; Pikaard and Scheid, 2014).

Les acteurs des modifications

Les remodeleurs chromatiniens peuvent être subdivisés en trois catégories : les protéines qui recon-naissent les marques (readers), celles qui positionnent ces marques (writers) ou celles qui les enlèvent (erasers). Le complexe PRC2 (polycomb repressive complex) qui dépose la marque H3K27me3 est un writer alors que les protéines qui contiennent un domaine « Jumonji » peuvent enlever cette marque et sont des erasers. Les readers joue également un rôle important en reconnaissant certaines marques et en recrutant des writers ou des erasers (Liu et al., 2010).
On peut illustrer leurs rôles à travers le phénomène de vernalisation, qui se traduit par une induction de la floraison d’une plante préalablement exposée au froid. Si la plante n’a pas subi de froid prolongé, le gène FLOWERING LOCUS C (FLC ) est actif et réprime la floraison. Lors d’une exposition au froid suffisamment longue, le complexe PRC2 ajoute les marques répressives H3K27me3 sur le locus du gène FLC (Bastow et al., 2004; De Lucia et al., 2008). La protéine TERMINAL FLOWER 2 se lie à ces marques et peut induire le dépot des marques H3K9me2 sur le gène (Gaudin et al., 2001; Mylne et al., 2006; Turck et al., 2007; Zhang et al., 2007). La chromatine est alors fermée de manière irréversible et le gène FLC est définitivement inactif. Notons que les readers sont également sensibles à la méthylation des cytosines. Par exemple, la protéine KRYPTONITE est une methyl binding protein qui recrute des H3K9 méthyltransferases pour déposer la marque H3K9me2 (Jackson et al., 2002, 2004).

Définir des états chromatiniens

Les différents variants d’histones et les nombreuses modifications qu’elles peuvent subir donnent un très grand nombre de combinaisons, ce qui rend leur interprétation difficile.
En prenant en compte plusieurs marques post-traductionnelles, plusieurs variants d’histones et la méthylation de l’ADN, des travaux ont mis en évidence des profils précis de combinaisons appelés états chromatiniens. Le nombre plus réduit d’états chromatiniens peut alors faciliter la compréhension de cer-tains phénomènes (Roudier et al., 2011; Sequeira-Mendes et al., 2014).

Comprendre où les TF se lient pour comprendre la régulation

Les apports de la génomique

Le début du XXIe siècle a coïncidé avec des avancées prodigieuses dans le domaine de la génomique. Si séquencer les premiers génomes était un véritable exploit, c’est devenu aujourd’hui une opération courante. De nombreuses méthodes ont ainsi vu le jour : elles donnent accès au transcriptome, à la compacité de l’ADN et aux régions du génome liées par une protéine donnée. Elles sont donc des outils précieux pour comprendre les réseaux de régulation entre les gènes et les TF.
Ici, nous allons détailler les principales méthodes utilisées. Dans ce cadre, vous trouverez des infor-mations supplémentaire dans une revue que j’ai co-écrite, placée en annexe V.1.

Étudier l’expression des gènes grâce au Séquençage de l’ARN (RNA-Seq)

Le RNA-Seq donne accès aux transcrits présents dans un échantillon donnant des indications sur les gènes exprimés. Des techniques avancées permettent même le RNA-Seq sur cellules uniques ! La méthode est décrite dans la figure 7. Précisons qu’on ne séquence en général pas les fragments en entier mais leurs extrémités : ceux-ci sont trop longs pour les technologies couramment utilisées. Connaissant la taille approximative des fragments, on est capable de les replacer précisément sur le génome pour en déduire le fragment.
Remarquons que le RNA-Seq donne accès à la quantité de transcrits et non de protéine traduite à partir de l’ARN.

Prédire la liaison d’un TF à l’ADN à partir de données génomiques
Nous venons de détailler les outils qui permettent d’observer ce qui se passe à l’échelle du génome. Comprendre ces phénomènes, c’est être capable de les expliquer, de les modéliser. Sans oublier notre quête, qui est d’expliquer les phénomènes macroscopiques qui conduisent à la formation de la fleur par les mécanismes moléculaires qui se produisent à l’échelle du génome, rappelons (Bilan de la section I.2) que les protéines qui induisent ces phénomènes sont les TF ; comprendre où ils se lient est donc capital.
Dans cette section nous détaillerons les principales méthodes utilisées pour modéliser leurs préfé-rences, un inventaire plus général et descriptif étant présent dans la revue en annexe V.1.
Un modèle simple : La PWM
La Matrice Poids Position (PWM), introduite la première fois par Stormo et al. (1982), est proba-blement l’outil le plus indiqué compte tenu de son rapport simplicité/efficacité. L’idée est de donner des scores à des séquences d’ADN possédantla taille de la région reconnue par le TF. Ici, nous allons détailler comment fabriquer une PWM, comment l’utiliser et ses limites.
Fabriquer une PWM La méthode pour obtenir une PWM est détaillée dans la figure 11 et se base sur l’article de Wasserman and Sandelin (2004). Les formules pour passer d’une étape à la suivante sont exposées dans le paragraphe suivant. La méthode pour aligner les séquences (Figure 11.a) dépend de la technique utilisée pur obtenir les sites de liaison du facteur de transcription. Pour le DAP-Seq, on peut utiliser un programme comme meme-suite (Bailey et al., 2009) qui cherche à aligner les régions liées autour d’un motif commun.
Formules liées à la PWM Le score S d’une séquence de N nucléotides est calculé en ajoutant les poids respectifs de chaque nucléotide de cette séquence.N S = Xi W (bi; i) (1)
W (b; i) : Poids de la base b à la position i
Les poids de la PWM représentent des sortes de pénalités et correspondent au ratio entre chaque fréquence observée et une probabilité attendue pexp(b), converti dans une échelle logarithmique.
Wb;i = ln f(b; i) (2)
f(b; i) : Fréquence de la base b à la position i
pexp(b) : Fréquence attendue de la base b

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction 
I.1 Généralités sur la fleur
I.1.1 Rapide histoire des plantes
I.1.2 Anatomie de la fleur
I.1.3 La fleur à l’échelle de la plante
I.2 Les protéines façonnent la plante
I.2.1 Généralités sur la régulation de la transcription
I.2.1.1 Les facteurs de transcription
I.2.1.2 Les facteurs épigénétiques
I.2.1.3 Ouvrir la chromatine fermée
I.2.2 Les modifications post traductionnelles des histones
I.2.2.1 Hétérochromatine et euchromatine
I.2.2.2 Les acteurs des modifications
I.2.2.3 Définir des états chromatiniens
I.3 Comprendre où les TF se lient pour comprendre la régulation
I.3.1 Les apports de la génomique
I.3.1.1 Étudier l’expression des gènes grâce au Séquençage de l’ARN (RNA-Seq)
I.3.1.2 Étudier les régions du génome liées par un TF in vivo grâce à l’immunoprécipitation de chromatine suivie du séquençage (ChIP-Seq) (1-2p)
I.3.1.3 Étudier les régions de l’ADN liés par un TF in vitro grâce au DNA Affinity Purification Sequencing (DAP-Seq)
I.3.1.4 Positionner les nucléosomes et quantifier l’ouverture de la chromatine
I.3.2 Prédire la liaison d’un TF à l’ADN à partir de données génomiques
I.3.2.1 Un modèle simple : La PWM
I.3.2.2 Prendre en compte les dépendances
I.3.2.3 Prendre en compte la structure de l’ADN
I.3.2.4 Améliorer les modèles en prenant en compte le contexte génomique
I.3.2.5 Base de données JASPAR (Khan et al., 2017)
I.4 Le déclenchement de la floraison
I.4.1 Le rôle de l’auxine
I.4.1.1 Présentation de l’auxine
I.4.1.2 La voie de signalisation nucléaire par l’auxine
I.4.2 Bilan et réflexion sur la voie de signalisation nucléaire par l’auxine
I.4.3 LEAFY, un gène maître du développement floral
I.4.3.1 D’où vient LEAFY ?
I.4.3.2 À propos de la protéine LFY
I.4.3.3 LEAFY dans Arabidopsis thaliana
I.4.4 Les gènes A, B, C et E contrôlent l’identité des organes floraux
I.4.4.1 Présentation des gènes du modèle ABCE
I.4.4.2 Spécificité des TF à boîte MADS
Objectifs
Méthodes 
II.1 Pré-traitement des données brutes de DAP-Seq
II.1.1 Traitement des reads
II.1.1.1 Format des reads
II.1.1.2 Qualité des reads
II.1.1.3 Suppression des adaptateurs
II.1.1.4 Alignement des reads sur le génome
II.1.1.5 Filtrer les reads alignés par bowtie2
II.1.2 Déterminer les régions liées par le TF
II.1.2.1 Évaluer la qualité des réplicats
II.1.2.2 Déterminer les pics significatifs pour un TF donné
II.1.2.3 Fusionner les réplicats pour obtenir le signal sous les pics
II.1.3 Pré-traitement des données brutes de DAP-Seq en résumé
II.1.4 Discussions
II.1.4.1 À propos des reads
II.1.4.2 À propos de l’alignement
II.1.4.3 À propos des pics
II.2 Analyse des données brutes de ChIP-Seq
II.3 Analyse des sites de liaison
II.3.1 Recherche de motifs
II.3.1.1 Données DAP-Seq sur les ARF
II.3.1.2 Données DAP-Seq et ChIP-Seq sur LFY
II.3.1.3 Données DAP-Seq sur les gènes à boîte MADS
II.3.2 Contrôle des motifs
II.3.3 Calcul des espacements entre les sites de liaison
II.4 Discussion sur les choix programmation
1 Syntaxe des facteurs de réponses à l’auxine 
1.1 Introduction
1.2 Article
1.3 Bilan
1.4 Discussion
1.4.1 Chez A. thaliana
1.4.2 Dans le maïs
2 LEAFY, un exemple pour mieux comprendre la liaison des TF 
2.1 Construction d’un modèle de liaison
2.1.1 Construire un modèle basé sur les PWM
2.1.2 Construire un modèle basé sur les TFFM et la structure de l’ADN
2.1.3 Discussion
2.2 Comparaison entre ChIP-Seq et DAP-Seq
2.2.1 Traitement des données
2.2.2 Observations
2.2.3 Déterminer les paramètres qui favorisent la liaison dans la cellule
2.2.3.1 Déterminer des éventuels co-facteurs de LFY
2.2.3.2 Discussion
2.2.4 Déterminer les paramètres qui empêchent la liaison dans la cellule
2.2.4.1 Observation du signal DNaseI dans les régions liées
2.2.4.2 Utiliser la DNaseI pour améliorer le modèle de liaison sur les régions liées en ChIP-Seq
2.2.4.3 Discussion
2.3 Discussion du chapitre
3 Tétramérisation des facteurs de transcription à boîte MADS 
3.1 Pré-traitement des réplicats
3.1.1 Qualité des réplicats
3.1.2 Choix des pics
3.2 Expliquer la spécificité de liaison de SEP3-AG et SEP3del-AG
3.2.1 SEP3-AG et SEP3del-AG ne lient pas les mêmes régions
3.2.2 Prédire la liaison des dimères
3.2.2.1 Prédire la liaison à l’aide des PWM
3.2.2.2 Prédire la liaison à l’aide des TFFM
3.2.3 Expliquer les spécificités différentes de SEP3-AG et SEP3del-AG
3.2.3.1 Observe-t-on les mêmes préférences d’espacement dans les deux sets de régions liées ?
3.2.3.2 Ces préférences d’espacements expliquent-elles l’éclatement de la figure 40 ?
3.2.4 Bilan et discussion
3.3 Spécificité des gènes à boîte MADS in vivo
3.3.1 Spécificité de liaison de SEP3-AG
3.3.2 Bilan et discussions
3.3.3 Spécificité dans les gènes liés régulées par AG
3.4 Discussion du chapitre
3.4.1 Importance de la tétramérisation
3.4.2 À propos des outils bioinformatiques
Conclusions 
Discussions 
IV.1 À propos des modèles de liaison utilisés
IV.2 À propos des méthodes utilisées pour tester les modèles de liaison
IV.2.1 Choisir un set de régions témoins
IV.2.2 Définir un critère pour évaluer nos modèles
IV.3 La liaison des TF définit un modèle de promoteur
IV.4 À propos de la bioinformatique
IV.5 Réflexion sur la portée des modèles et de la génomique
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *