Les motifs tertiaires de l’ARN

Télécharger le fichier pdf d’un mémoire de fin d’études

Nomenclature Leontis-Westhof

Deux nucléotides d’ARN peuvent s’apparier de différentes manières selon l’entit´ chimique (base, sucre ou phosphate) intervenant de chaque cˆoté. Le type d’interaction le mieux connu implique les bases : base-base, base-sucre et base-phosphate. Les interactions base-base comportent l’appariement cˆoté-cˆoté et l’empilement face-face. D’autres interactions, plus rares, sont du type perpendiculaire cˆoté-face [56]. En raison de la prédominance de leurs rˆole et nombre dans l’architecture des ARN, seuls l’appariement de bases cˆoté-cˆoté et l’empilement seront présentés dans la suite.

Appariement de bases cˆoté-cˆoté (en anglais “edge-to-edge base pairing”)

Les bases d’ARN purines (A, G) et pyrimidines (C, U) présentent trois cˆotés pour former des liaisons hydrogène avec d’autres bases. Ces cˆotés portent les noms de Watson-Crick (WC), Hoogsteen (H) et Sucre (S) comme detaill´ dans la figure 1.3 (panneau de gauche, haut) pour une purine : l’Adéno-sine [42]. Chaque base peut donc ˆetre schématiquement représentée par un triangle dont les cˆotés sont etiquetés par les noms qu’ils portent (figure 1.3, panneau de gauche, bas). Une croix ou un cercle dessinés dans le coin o`u le cˆoté Hoogsteen croise le cˆoté Sucre indique l’orientation du squelette sucre-phosphate par rapport au plan de la page (5’ vers 3’ pour la croix et 3’ vers 5’ pour le cercle).
Les bases peuvent s’apparier suivant les six combinaisons des trois cˆotés, par exemple le cˆoté Hoogsteen d’une base avec le cˆoté Watson-Crick, Hoogsteen ou Sucre de l’autre base. De plus, pour chaque combinaison de cˆotés, les bases peuvent se positionner l’une par rapport `a l’autre selon deux orienta-tions appelées cis et trans. Dans une orientation cis, les liens glyscosidiques qui relient les bases `a leur sucre (ribose) correspondant se trouvent du mˆeme cˆoté de l’axe horizontal parallèle aux ponts hydrogène reliant les deux bases. Dans une orientation trans, les liens glyscosidiques sont situés sur des cˆotés opposés de cet axe (Figure 1.3, panneau de droite).
Ainsi, les six combinaisons de cˆotés et les deux orientations cis et trans donnent 12 familles géométriques de paires de bases (Figure 1.4).
Les paires de bases Watson-Crick canoniques appartiennent `a la famille cis WC/WC. Les cˆotés Watson-Crick des bases formant des appariements non- stabiliseront le repliement de la structure. De plus, les bases non-appariées peuvent sortir du motif (en anglais “extrude”) et s’intercaler entre d’autres bases pour former des liaisons non-canoniques ou d’empilement (voir sous-section suivante) qui ont pour rˆole de stabiliser des interactions tertiaires avec d’autres régions distantes dans la structure secondaire [61].

Empilement face-face (en anglais “face-to-face stacking”)

L’empilement des nucléotides dans les hélices joue un rˆole clé dans la stabi-lisation des ARN repliés. Il peut ˆetre de type mˆeme-brin (en anglais “intras-trand”) ou de type brins-croisés (en anglais “cross-strand” ou “interstrand”). Lorsque l’empilement fait intervenir des nucléotides non-appariés dans des boucles internes ou plus fréquemment des jonctions, il provoque une cour-bure entre les hélices [66]. Quand l’angle de cette courbure est de 15 ± 15˚, l’empilement est dit co-axial ou presque-co-axial [30].
L’empilement dans les hélices qui implique des paires de bases Watson-Crick canoniques est une caractéristique commune de la structure secondaire et peut ˆetre prédit, de manière approximative jugée satisfaisante, par minimi-sation d’énergie libre [66]. En revanche, l’empilement dans les régions non-appariées est fortement influenc´ par la séquence [71, 53] et est notamment observ´ dans des motifs structuraux connus tels que le motif Sarcin-ricin (Fi-gure 1.6).
Comme il a et´ procéd´ pour l’appariement des bases, l’empilement des bases a fait l’objet d’une classification géométrique par Sarver et collaborateurs
[61]. Les faces de chaque base sont nommées selon leur orientation dans l’hé-lice : la face qui voit l’extrémit´ 3’ est appelée Face 3’ tandis que l’autre face est appelée Face 5’. Deux nucléotides sont considérés comme empilés s’ils sont positionnés dans des plans `a peu près parallèles avec, entre autres critères, leurs centres géométriques distants de 3 `a 4.5 A [61].
Les interactions d’empilement sont nommées selon les faces qui interagissent. Par exemple, dans une hélice régulière, chaque brin a un empilement mˆeme-brin 35, tandis qu’un empilement brins-croisés est un empilement 55 typique [61].

Diagrammes 2D et réseaux d’interactions

Pour faciliter l’annotation des différents types d’interactions sur des dia-grammes bidimensionnels, Leontis et Westhof ont proposé d’associer `a chaque type d’interaction un symbole spécifique [42]. Les nucléotides sont indiqués par leur première lettre (A, C, G et U). Aux paires Watson-Crick canoniques sont associés trois symboles différents :— pour les paires AU, = pour les paires GC, • pour les paires wobble GU. Quant aux douze familles géométriques de paires non-Watson-Crick, un ensemble de symboles noirs et blancs sont asso-ciés `a chaque cˆoté des bases appariées : un cercle pour le cˆoté Watson-Crick, un carré pour le cˆoté Hoogsteen et un triangle pour le cˆoté Sucre. Quand l’orientation est cis, le symbole est noir, sinon, il est blanc (Figure 1.5).
La figure 1.6 montre le diagramme 2D d’un motif structural connu, la boucle Sarcin-ricin, utilisant les symboles de la nomenclature LW (o`u LW veut dire Leontis-Westhof).
Lescoute et Westhof [46] proposent d’exploiter la nomenclature LW pour représenter sur un dessin bidimensionnel l’information tridimensionnelle re-lative aux structures d’ARN. Cette nouvelle représentation est appelée dia-gramme des réseaux d’interactions (Figure 1.7). Tous les appariements Watson-Crick et non-Watson-Crick sont représentés `a l’aide des symboles de la no-menclature LW [49].
Les diagrammes des réseaux d’interactions permettent de faciliter la “lecture” visuelle d’une structure cristallographique et notamment d’y repérer les motifs tertiaires en tant que petits modules similaires et récurrents (Figure 1.7).

Concept d’isostérie et séquence signature

Les structures 3D des hélices d’ARN sont régulières indépendamment de leur séquence grˆace `a l’isostérie des paires de bases Watson-Crick canoniques. “Isostériques” veut dire “occupant le mˆeme espace”.
Deux paires de bases sont dites isostériques si trois conditions sont véri-fiées :(i) les distances C1’-C1’ sont presque identiques, (ii) les bases corres-pondantes forment des ponts hydrogène entre atomes équivalents et (iii) les bases dans chaque paire sont reliées par des matrices de rotation presque identiques [64]. Pour quantifier ces trois critères, une mesure appelée IsoDis-crepancy Index (IDI) a et´ proposée par Stombaugh et al.[64]. Grˆace `a cette mesure, deux paires de bases sont considérées isostériques si elles possèdent ≤ ˚ un faible IDI (typiquement 3.3 A).
Au sein d’une famille géométrique, une ou plusieurs sous-familles d’isosté-rie peuvent ˆetre distinguées ; chacune caractérisée par un IDI spécifique. Les paires appartenant `a une sous-famille d’isostérie notée Ii,j (o`u i et j représentent respectivement les index de la famille et la sous-famille d’isostérie) peuvent se substituer les unes aux autres sans perturber la structure tridi-mensionnelle de la paire de base.
A chacune des 12 familles géométriques, correspond une matrice d’isostérie (Figure 1.8). Chaque entrée de la matrice (ligne ou colonne) correspond `a une base (A, C, G, U). Chaque intersection d’une ligne et d’une colonne corres-pond `a une combinaison de bases. Si la paire de bases correspondant `a cette combinaison a et´ observée dans les structures résolues, l’identifiant Ii,j de la sous-famille d’isostérie `a laquelle la paire considérée appartient est indiqué dans l’intersection de la ligne et la colonne correspondantes.
FIG. 1.8 – Matrice d’isostérie de la famille géométrique trans Watson-Crick/Hoogsteen. Les paires de bases AA, AG et GU appartiennent `a la mˆeme sous-famille d’isostérie I4,3. La paire AG appartient `a deux sous-familles I4,2 et I4,3. Les cellules de la matrices colorées en gris correspondent `a des combinaisons de bases non observées dans cette famillle. Figure extraite de [64].
L’isostérie des sous-familles géométriques fait que plusieurs combinaisons de séquences conduisent `a un mˆeme repliement 3D du motif d’ARN. L’ensemble de ces séquences de bases qui se replient en une structure 3D similaire porte le nom de séquence signature du motif [44, 45, 56]. Théoriquement, la séquence signature d’un motif peut ˆetre générée de manière combinatoire `a partir de toutes les paires de bases isostériques `a chaque paire de base non-Watson-Crick formant le motif, mais il semblerait que d’autres contraintes structu-rales limitent ce nombre `a quelques combinaisons uniquement [45].
La séquence signature d’un motif permet d’identifier les substitutions de bases qui conservent la structure 3D des motifs dans un alignement structural.
Cette information est d’une importance cruciale puisqu’elle facilite la prédic-tion de la structure tertiaire de molécules homologues sur la base de leurs séquences génomiques uniquement [45].

Le problème de recherche des motifs

Obtenir la séquence signature d’un motif récurrent nécessite d’identifier toutes ses occurrences dans les structures connues. Les biologistes le font en scrutant `a l’oeil nu les structures cristallographiques. Une étude menée par Lescoute et al. [45] a montré que les occurrences des motifs récurrents sont similaires en termes de structure globale 3D mais pas nécessairement identiques `a l’échelle des bases et paires de bases qui les composent. En effet, les occurrences de ces motifs ont en commun un noyau de paires de bases non-Watson-Crick isosté-riques empilées et ordonnées de manière `a induire une structure 3D similaire, mais ces occurrences diffèrent les unes des autres par l’identité des bases for-mant chaque paire de base ainsi que le nombre de bases libres ou de paires de bases dont l’insertion dans le motif n’altère pas sa forme globale [61]. Ce noyau de paires de bases non-Watson-Crick isostériques commun `a toutes les occurrences d’un motif récurrent et pouvant ˆetre étendu `a des paires de bases Watson-Crick flanquant le motif est appel´ structure consensus du motif.
La figure 1.9 montre quelques instances du motif Kink-turn identifiées par Lescoute et al. et représentées avec les symboles de la nomenclature LW [45].
FIG. 1.9 – Quatre occurrences du motif Kink-turn identifiées `a l’oeil nu dans l’ARNr 23S et 16S et similaires `a celui montré dans la figure 1.7. Le consensus du motif est formé des paires de bases encadrées en couleur. Figure extraite de [45]
Dans sa version biologique, le problème de recherche de motifs tertiaires peut donc se formuler ainsi :
Etant donné une ou plusieurs structures tertiaires d’ARN, identifier les sous-structures récurrentes similaires (motifs) ayant un noyau commun de paires de bases non-Watson-Crick isostériques.
Les experts identifient les motifs `a l’oeil nu. L’automatisation de cette étape non seulement trouvera les motifs de manière exhaustive, mais accordera plus de temps aux experts pour se consacrer `a des tˆaches exigeant une expertise exclusivement humaine.
Une méthode automatique destinée `a ˆetre exécutée par un calculateur tra-vaille sur un modèle de la structure 3D. Justement, il existe un modèle qui s’est avér´ idéal pour représenter la topologie d’une structure tertiaire décrite selon la nomenclature LW. Ce modèle est celui de graphe.
Dans le chapitre suivant, je présente le modèle de graphe choisi pour représen-ter une structure tertiaire et ses motifs puis j’expose le pendant informatique du problème de recherche des motifs tertiaires.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction 
Structure de l’ARN
Les motifs tertiaires de l’ARN
Int´erˆet d’analyser les motifs tertiaires
D´efinition de motif tertiaire
Probl`eme d’extraction des motifs
Motivation de la th`ese
Structure du document
1 Les motifs tertiaires 
1.1 Structure de l’ARN
1.2 Nomenclature Leontis-Westhof
1.2.1 Appariement de bases cˆot´e-cˆot´e (en anglais “edge-to-edge base pairing”)
1.2.2 Empilement face-face (en anglais “face-to-face stacking”)
1.2.3 Diagrammes 2D et r´eseaux d’interactions
1.3 Concept d’isost´erie et s´equence signature
1.4 Le probl`eme de recherche des motifs
2 Mod´elisation informatique 
2.1 Cadre th´eorique
2.1.1 Quelques ´el´ements de la th´eorie des graphes
2.1.2 Quelques ´el´ements de la th´eorie de la complexit´e
2.2 Domaine d’application
2.2.1 Les objets : des graphes d’ARN
2.2.2 Le probl`eme : calculer la similarit´e de deux graphes d’ARN
2.3 Calcul du sous-graphe commun maximum
2.3.1 Principe de fonctionnement des algorithmes exacts
2.3.2 Complexit´e th´eorique et performances pratiques
2.4 Conclusion
3 Extraction des motifs locaux 
3.1 Similarit´e de deux motifs locaux
3.1.1 D´efinitions
3.1.2 Mesure de similarit´e
3.1.3 Impl´ementation
3.2 M´ethode d’extraction des motifs
3.2.1 Module Planarisation
3.2.2 Module Catalogue
3.2.3 Module Similarit´e
3.2.4 Module Clustering
3.3 R´esultats
3.4 Rna3Dmotif
4 Les motifs d’interaction 
4.1 D´efinition de motif d’interaction
4.2 Similarit´e de deux motifs d’interaction
4.2.1 D´efinitions
4.2.2 Mesure de similarit´e
4.2.3 Impl´ementation
4.3 Extraction des motifs d’interaction
4.3.1 Donn´ees et catalogue
4.3.2 Module Listing
4.3.3 Similarit´e
4.3.4 Clustering
4.4 R´esultats
4.5 Comme des pi`eces d’un puzzle
Conclusion et Perspectives 
Annexes 
Annexe A
Annexe B
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *