Importance fonctionnelle des protéines de liaison à l’ARN

Télécharger le fichier pdf d’un mémoire de fin d’études

Structures des protéines de liaison à l’ARN

La section précédente illustre le caractère essentiel des interactions protéine-ARN et montre la diversité fonctionnelle des protéines de liaison à l’ARN. La plupart des RBPs sont composées de domaines de liaison à l’ARN (RBDs) souvent répétées en tandem. Si certains RBDs interagissent avec l’hélice de type A caractéristique des ARN double-brin, beaucoup reconnaissent spécifiquement une courte séquence nucléotidique (entre deux et huit nucléotides selon les domaines) sous forme simple-brin. Quelques structures des domaines les plus communs sont décrits ci-dessous.

Les principaux domaines de liaison à l’ARN

Le motif de reconnaissance de l’ARN

Le motif de reconnaissance de l’ARN (RRM) est retrouvé dans tous les domaines du vivant et est de loin le domaine de liaison à l’ARN le plus abondant chez l’Homme (Gerstberger, Hafner, Ascano, & Tuschl, 2014). Le domaine RRM se compose d’environ 90 acides aminés et présente une topologie β1α1β2β3α2β4 qui adopte un repliement formé par un feuillet de quatre brins β entourés des deux hélices α (Fig. 5). Les brins β3 et β1 sont constitués de deux motifs conservés appelés RNP1 et RNP2 (Fig. 6) composés respectivement de huit et six acides aminés (Adam, Nakagawa, Swanson, Woodruff, & Dreyfuss, 1986; Bandziulis, Swanson, & Dreyfuss, 1989 ; Afroz, Cienikova, Cléry, & Allain, 2015). Ces derniers exposent à la surface du feuillet trois résidus aromatiques conservés dont l’absence définit différentes sous-classes de domaines (Cléry, Blatter, & Allain, 2008) comme le quasi-RRM (qRRM) ou le pseudo-RRM (ΨRRM).
Les domaines RRMs sont très versatiles dans leur mode de reconnaissance des ARNs. Dans les interactions canoniques, l’ARN interagit au sein du feuillet β central où les résidus aromatiques des motifs RNP1 et RNP2 fournissent une parfaite plate-forme d’ancrage pour deux nucléotides consécutifs sous forme simple-brin (Fig. 7). Jusqu’à trois ou quatre nucléotides peuvent néanmoins y être accommodés grâce aux résidus des autres brins β. Certains domaines RRM présentent une
extension de la surface du feuillet β permettant la reconnaissance de un ou deux nucléotides supplémentaires (Maris, Dominguez, & Allain, 2005; Oberstrass et al., 2005).
Des interactions non canoniques entre RRM et ARN peuvent également faire intervenir, en plus des résidus du feuillet β, des boucles et/ou les résidus des extrémités N- et/ou C-terminales souvent peu structurées (Oberstrass et al., 2005; Tsuda et al., 2009). Les boucles peuvent aussi être impliquées dans la reconnaissance d’éléments structurels de l’ARN. La structure du domaine RRM
RBMY (Fig. 8) montre par exemple que les résidus de la boucle sont insérés dans le sillon majeur de l’ARN (Skrisovska et al., 2007) alors que les résidus du feuillet β interagissent spécifiquement avec les nucléotides non-appariés de la boucle de l’ARN.
Figure 6: Liaison de l’ARN aux feuillets β du domaine RRM. La structure représentée est celle de la hnRNPA1 interagissant avec un simple brin d’ADN. Le schéma à droite indique la topologie des feuillets bêta et les motifs RNP1 et RNP2 conservés avec leur séquence consensus composée de résidus aromatiques. Tirée de Afroz et al., 2015.
Figure 8: Interactions du domaine RRM de RBMY avec une région simple-brin en boucle de l’ARN. A. Vue stéréoscopique de l’interaction entre les feuillets β2- β3 et la boucle qui les connecte avec l’ARN. B. Détails des contacts entre résidus de la protéine et de l’ARN.
Les résidus en vert correspondent à des contacts avec le squelette protéique, les résidus en bleu les contacts avec les chaînes latérales. Tirée de Maris et al., 2005.

Le domaine à doigts de zinc

Le domaine à doigts de zinc (Zn) est un petit domaine ubiquitaire composé d’environ 30 acides aminés. Sa topologie ββα présente un repliement où l’épingle à cheveux β se retrouve associée à l’hélice α par l’intermédiaire d’un ion Zn2+ coordiné à des résidus cystéines (C) et/ou histidines (H) comme le montre la figure 9. Différentes combinaisons de ces résidus définissent plusieurs classes de Zn comme par exemple les domaines Zn-CCHH, Zn-CCHC, Zn-CCCH ou Zn-CCCC. S’ils peuvent être retrouvés seuls, ces domaines sont le plus souvent répétés en tandem dans les RBPs, ou bien en association avec d’autres RBDs (Gerstberger, Hafner, & Tuschl, 2014). Le facteur de transcription TFIIIA contient par exemple neuf domaines CCHH et peut lier aussi bien des molécules d’ADN que d’ARN (Pelham, 1980) en reconnaissant le squelette ribose-phosphate de régions double-brin (Drosphila, Lu, Searles, & Klug, 2003). Les protéines à domaines Zn-CCCH interagissent en revanche préférentiellement avec des séquences d’ARN simple-brin (Fig. 10). Des
structures ont révélé que les domaines Zn-CCHC et Zn-CCCC peuvent aussi interagir avec des régions d’ARN simple-brin. Généralement, deux à trois nucléotides sont spécifiquement reconnus par l’établissement d’interactions de stacking et de liaisons hydrogènes spécifiques, particulièrement entre la base et des atomes de la chaîne principale des domaines. La structure 3D
de ces domaines consitue donc une composante importante dans la reconnaissance spécifique de
séquences d’ARN. Une caractéristique des Zn provient de leur plasticité structurelle qui les autorise
à adopter différents repliements en vue de reconnaître différentes séquences (Cléry & Allain, 2013).

Le domaine KH

Le domaine KH (pour K-homology) tire son nom de la protéine nucléaire hétérogène K au sein de laquelle il a été identifié pour la première fois (Matunis, Matunis, & Dreyfuss, 1992). Il est lui aussi représenté dans tous les domaines du vivant et est capable de s’associer à des séquences simple-brin, aussi bien d’ADN que d’ARN (Valverde, Edwards, & Regan, 2008). Ce domaine est composé d’environ 70 acides aminés et se caractérise par la présence d’un motif conservé (I/L/V)-IG- X-X-G-X-X-(I/L/V) occupant la position centrale du domaine (Fig. 11). Deux types de domaine KH se distinguent toutefois selon leur topologie (Grishin, 2001). Le type I est typiquement retouvé dans les protéines eucaryotiques et présente un agencement de ses structures secondaires de la forme βααββα. Il se caractérise en conséquence par un feuillet β composé de trois brins β antiparallèles sur lesquels reposent les trois hélices α (Fig. 11A). Le domaine KH de type II, trouvé chez les procaryotes, présente étonnemment une structure tertiaire similaire malgré qu’il diffère dans l’arrangement de ses structures secondaires. Sa topologie αββααβ conduit cette fois à un feuillet β où le brin β’ central se retrouve dans une position anti-parallèle à β1 et parallèle à β2 (Fig. 11B). Le mode de liaison typique des domaines KH implique la reconnaissance de quatre nucléotides. Ces derniers sont accommodés au sein d’une crevasse formée d’un côté par les hélices α1, α2, et la boucle GXXG qui les relie, et d’un autre côté par le brin β2 et une boucle dont la longueur varie entre différents domaines KH (Fig. 12). Les deux nucléotides centraux du tétranucléotide reposent généralement sur un patch hydrophobe constitués des résidus I/L/V du motif conservé, où ils sont par ailleurs stabilisés par des interactions électrostatiques ou des liaisons hydrogènes. Ce mode d’interaction diffère de ceux obervés chez les domaines RRM et Zn pour qui l’ancrage de nucléotides est principalement établi par des interactions de stacking avec des résidus aromatiques. Il explique certainement la faible affinité de liaison (de l’ordre du micromolaire) que possèdent les domaines KH seuls envers l’ARN. Certains domaines KH présentent cependant une extension de leur surface d’interaction par l’addition d’hélices α les autorisant à contacter jusqu’à six nucléotides (Teplova et al., 2013). Ces interactions additionnelles leur permettent d’augmenter l’affinité de liaison et la spécificité de reconnaissance.

Le domaine de liaison à l’ARN double-brin

Le domaine de liaison à l’ARN double-brin (dsRBD) est un RBD composé d’environ 70 acides aminés agencés selon une topologie αβββα. Ces structures secondaires adoptent un repliement où les deux hélices α reposent sur le feuillet formé des trois brins β anti-parallèles. Comme son nom l’indique, le dsRBD reconnaît l’hélice de type A caractéristique de l’ARN sous forme double-brin, en s’associant à deux sillons mineurs séparés par un sillon majeur. L’interaction fait intervenir d’une part, des résidus de l’hélice α1 et de la boucle β1-β2 qui contactent chacun un sillon mineur, et d’autre part des résidus N-terminaux de l’hélice α2 qui lient le sillon majeur (Fig. 13). Les contacts établis impliquent essentiellement les groupements 2’OH et phosphate et sont donc indépendants de la séquence nucléotidique (Stefl, Skrisovska, and Allain 2005). Quelques cas particuliers ont néanmoins été identifiés révélant que certains dsRBD peuvent établir des contacts spécifiques, comme cela a été montré pour les protéines Staufen (Ramos et al., 2000) et ADAR2 (Stefl et al., 2010).
Figure 12: Traits caractéristiques des interactions protéine-ARN pour les domaines KH. A.
Domaine KH de type I; la région de liaison à l’ARN inclut l’hélice α1, le motif GXXG, l’hélice α2 et le feuillet β2 et une boucle variable (vert). B. Acide nucléique comportant quatre nucléotides empilés qui interagissent avec le domaine KH. C. Détails des contacts avec un résidu d’adénosine. (PDB ID: 1J5K, 2ASB). Tirée de Valverde et al., 2008.

Arrangement modulaire des protéines de liaison à l’ARN

La propriété qu’ont les RBDs classiques à ne reconnaître qu’une courte séquence nucléotidique les rend intrinsèquement peu spécifiques envers les ARNs. Les protéines de liaison à l’ARN parviennent néanmoins à cibler spécifiquement leurs partenaires ARNs, et cela grâce à une architecture modulaire (Lunde, Moore, & Varani, 2007) où plusieurs RBDs se retrouvent répétés en tandem (Fig 14). Cet agencement leur permet de combiner les propriétés de liaison propres à chaque domaine et confère aux RBPs la capacité à s’associer spécifiquement à leurs ARNs cibles avec des affinités de liaison élevées. Par exemple, les protéines à domaines RRM peuvent comporter entre deux domaines (protéine U1A) et quatre domaines (protéine PABP) espacés les uns des autres par des résidus dont la longueur peut varier. Elles peuvent aussi inclure différents domaines RBDs agencés de façons spécifiques: la protéine U2AF35 comporte un domaine RRM et deux domaines à doigts à zinc (Zn-CCCH) qui l’encadrent, la protéine SF1 un domaine KH et un domaine un domaine à doigts à zinc (Zn-CCHC). Un certain nombre de RBPs appartiennent à l’une des grandes familles de protéines de liaison à l’ARN définie par leur type de RBDs ou combinaison de RBDs; elles peuvent aussi avoir une activité enzymatique qui est portée, dans ces cas de figure, par des domaines spécifiques: endonucléase, hélicase, kinase, etc.
Figure 13: Reconaissance de l’ARN double-brin par une protéine à domaine RBM. A. le domaine de liaison à l’ARN double-brin (dsRBM) de la protéine Xlrbpa2; les eeléments de structure qui lient l’ARN sont: l’hélice 1 (rouge), l’extrémité amino-terminale de l’hélice 2 ɑ ɑ et les feuillets β1 et β2. B. Domaine dsRBM de la protéine Rnt1p liée à un ARN en épingle à cheveux avec une tetraboucle terminale AGNN. L’hélice ɑ1 (rouge) et l’extrémité carboxy-terminale de l’hélice ɑ3 (noir) constituent les éleements de reconnaissance. Tirée de Stefl et al., 2005.

Résidus connectant différents domaines

Les résidus connectant différents domaines, ou plus simplement les résidus linkers, possèdent deux propriétés importantes qui jouent un rôle important dans la reconnaissance protéine-ARN: leur longueur et leur flexibilité qui vont déterminer la façon dont les RBDs vont être positionnés les uns par rapport aux autres et définir leur ou leurs interfaces potentielles avec l’ARN. Dans le cas très CPEB1, hnRNPA1, FIR ou PUF60, Prp24 et hnRNPL reconnaissent néanmoins des motifs de séquences différentes (Fig. 15). On peut attribuer ces différences à la variabilité/flexibilité des linkers: leur longueur et leur(s) conformation(s) (Afroz et al., 2015). Dans le cas d’une autre RBP à domaine RRM, TDP-43, l’agencement des deux domaines RRM1 et RRM2 a un impact direct sur le type de motif et séquence ARN reconnus par la protéine (Furukawa et al., 2016).
La flexibilité des linkers qui correspondent souvent à des régions partiellement ou peu structurées permet aussi aux RBPs d’adopter des conformations alternatives en particulier entre les formes libre et liée à l’ARN comme c’est le cas pour la protéine HuR à domaines RRM (H. Wang et al., 2013). Cette flexibilité du linker permet alors d’avoir une reconnaissance protéine-ARN de type “ajustement induit”. Beaucoup de RBPs et en particulier celles à domaines RRM, possèdent une spécificité de reconnaissance étendue avec différents motifs ARN pouvant être liés. Il faut distinguer la spécificité de reconnaissance par la protéine entière et par les domaines RRM pris isolément. Pour HuR, la spécificité de liaison du domaine RRM3 n’est pas très forte avec des motifs de séquences différentes se liant avec des affinités similaires. La dimérisation induisant un changement de conformation ou modifiant l’interface protéine-ARN du monomère peut conduire à une altération de la spécificité de reconnaissance (Ripin et al., 2019).

Méthodes d’étude des interactions protéine-ARN

Les interactions protéine-ARN jouent un rôle important dans la cellule; on estime que les RBPs représentent entre 3 et 11% des protéines cellulaires bactériennes, d’archaea ou d’eucaryotes (Beckmann et al., 2016). Chez l’homme, elles représenteraient 7,5% du protéome (Gerstberger, Hafner, & Tuschl, 2014) mais leur proportion est sans doute sous-estimée pour deux raisons:
1. un certain nombre de protéines connues sont en fait des RBPs non identifiées et non annotées comme telles (y compris des enzymes non associés à la biologie des ARN) car elles ne présentent pas de domaine RBD ni de mode d’interaction “classiques” (Helder, Blythe, Bond, & Mackay, 2016; Hentze, Castello, Schwarzl, & Preiss, 2018) tels que ceux décrits précédemment (RRM, KH, Zn-CCCH, etc)
2. de nouvelles RBPs restent encore à identifier (“enigmRBPs”) parmi les protéines inconnues ou non caractérisées (Zhao, Yang, Janga, Kao, & Zhou, 2014) mais souvent conservées de la levure à l’homme (Beckmann et al., 2015).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Importance fonctionnelle des protéines de liaison à l’ARN
1 Maturation de l’ARN pré-messager précurseur
1.1 La famille des protéines nucléaires hétérogènes
1.2 L’épissage
1.3 La polyadénylation
1.4 L’édition
2 Export de l’ARNm
3 Adressage subcellulaire
4 La traduction
5 Dégradation et stabilité des ARNm
II Structures des protéines de liaison à l’ARN
1 Les principaux domaines de liaison à l’ARN
1.1 Le motif de reconnaissance de l’ARN
1.2 Le domaine à doigts de zinc
1.3 Le domaine KH
1.4 Le domaine de liaison à l’ARN double-brin
2 Arrangement modulaire des protéines de liaison à l’ARN
2.1 Résidus connectant différents domaines
3 Méthodes d’étude des interactions protéine-ARN
3.1 Identification des RBPs
3.2 Caractérisation des acides aminés interagissant avec l’ARN
3.3 Caractérisation des séquences nucléotidiques reconnues par les RBPs
3.4 Caractérisation tridimensionnelle des complexes protéine-ARN
3.5 Code de reconnaissance protéine-ARN ?
III Les principes du Docking
1 L’étape d’échantillonnage
1.1 Traitement de la flexibilité du ligand
1.2 Traitement de la flexibilité de la protéine
2 Les fonctions de score
2.1 Principes physico-chimiques de la reconnaissance protéine-ligand
2.2 Fonctions de score basées sur champ de force
2.3 Fonctions de score empiriques
2.4 Fonctions de score à potentiels statistiques
2.5 Fonctions de score par méthodes d’apprentissage
2.6 Fonctions de score consensus
3 Approches par fragment
3.1 Principes des approches expérimentales et in silico
3.2 MCSS et méthodes complémentaires associées
IV Modélisation des interactions protéine-ARNsb : état de l’art
1 Du 2D à la 3D
2 Le docking protéine-ARN
3 Approches par fragment pour modéliser les interactions entre protéines et ARN liés sous forme simple-brin non structurée
3.1 RNA-LIM
3.2 Approche basée sur le programme de docking ATTRACT
3.3 RNP-denovo
Travaux de thèse
I Objectifs
II Méthodes générales
1 Simulations de docking avec MCSS
1.1 Procédure d’échantillonnage et paramètres utilisés
1.2 Préparation des protéines
1.3 Fragment nucléotidique utilisé comme ligand
1.4 Définition de l’espace d’échantillonnage
1.5 Evaluation de l’énergie d’interaction
2 Mesures de la déviation quadratique moyenne (RMSD)
3 Procédure de regroupement des poses (clustering)
III Développement de l’approche FBDRNA lorsque la séquence ARN est connue
1 Introduction
2 Matériels et méthodes
2.1 Sélection du jeu de données
2.2 Simulations de docking
2.3 Molpy
2.4 Analyse de la conformation des nucléotides
3 Résultats
3.1 Analyse des performances de l’étape de docking
3.2 Mise en place d’une stratégie de sélection
4 Discussion
IV Développement de l’approche FBDRNA sans a priori sur la séquence ARN
1 Introduction
2 Matériels et méthodes
2.1 Jeu de données
2.2 Simulations de docking
2.3 Recherche de chaînes
3 Résultats
3.1 Augmentation de la combinatoire
3.2 Comparaison de l’énergie d’interaction entre poses natives et native-like
3.3 Adaptation de la stratégie de sélection des poses « diviser pour mieux régner »
3.4 Recherche de chaînes à partir des poses retenues par la procédure de sélection adaptée « diviser pour mieux régner »
3.5 Analyse de la composition nucléotidique des chaînes natives et native-like
4 Discussion
V Etude de l’influence de la structure du nucléotide sur les performances de docking
1 Introduction
2 Matériels et méthodes
2.1 Sélection du jeu de données protéine-nucléotide
2.2 Simulations de docking
3 Résultats
3.1 Echantillonnage et scoring des cinq structures de ligand
4 Discussion
VI Comparaison de cinq fonctions de score dans leur capacité à discriminer les poses natives
1 Introduction
2 Matériels et méthodes
2.1 Données
2.2 Fonctions de scores comparées
2.3 Adaptation du format des fichiers de coordonnées
3 Résultats
4 Discussion
VII Conclusions générales et perspectives
VIII Annexes
1 Définition d’un seuil de clustering adapté pour la stratégie de sélection « diviser pour mieux régner »
2 Contacts cristallins du nucléotide U1 de 5ELH
3 Comparaison de l’énergie d’interaction des poses puriques et pyrimidiques
4 Sélection des deux nucléotides de plus basse énergie dans les clusters à 2 Å
5 Description du jeu de données protéine-nucléotide non-redondant
5.1 Analyse des contacts et liaisons hydrogènes protéine-ligand
5.2 Evaluation de l’énergie d’interaction entre protéine et ligand cristallisé
5.3 Fraction de la surface enfouie du ligand
6 Ajustement du jeu de données protéine-nucléotide pour les calculs de docking
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *