La détermination de la structure des protéines

LA DÉTERMINATION DE LA STRUCTURE DES PROTÉINES

Le travail présenté dans cette thèse aborde différents aspects de la biologie structurale, domaine portant sur l’étude de la structure des protéines et des macromolécules biologiques. La problématique développée ici est la détermination de la structure de protéines ou d’assemblage de protéines par des techniques intermédiaires entre les méthodes expérimentales classiques utilisant des données spécifiques à la protéine étudiée et les méthodes de prédiction « ab initio » utilisant le plus possible de  données génériques communes { l’ensemble des protéines. Pourquoi s’intéresser { cette problématique ? La machinerie cellulaire repose en grande partie sur les protéines qui peuvent interagir avec d’autres protéines, une petite molécule ou encore un acide nucléique dans un processus biologique. Connaître le repliement d’une protéine, c’est { dire l’agencement dans l’espace tridimensionnel des acides aminés formant sa séquence, est essentiel pour mieux comprendre son rôle, ses possibles interactions et d’un niveau plus global le fonctionnement d’un mécanisme biologique au niveau moléculaire. La connaissance du repliement peut aussi être utile pour des applications à but thérapeutique direct comme la compréhension des effets d’une mutation de la séquence des acides aminés ou la recherche de nouvelles molécules thérapeutiques de synthèse, le «drug design ». Cette recherche porte sur la conception de petites molécules ciblant de manière très précise un mécanisme biochimique particulier et nécessite donc une bonne connaissance de la structure des molécules impliquées.

LES MÉTHODES DITES « EXPÉRIMENTALES »

Depuis la création des projets de génomique haut-débit, de plus en plus de séquences de protéines sont disponibles pour la communauté scientifique. Pour un grand nombre de ces séquences, on ne connaît ni le repliement associé ni nécessairement la fonction. Jusque dans les années 1990, il était indispensable de disposer d’un grand nombre de données spécifiques obtenues { l’aide de techniques expérimentales pour pouvoir déterminer des structures de protéines. Les deux techniques les plus répandues sont la radio-cristallographie aux rayons X et la résonnance magnétique nucléaire (RMN) dont voici une brève présentation.

La radio-cristallographie aux rayons X nécessite d’obtenir la protéine sous la forme d’un cristal ordonné. Le motif de diffraction des rayons X après passage dans le cristal est utilisé pour déterminer l’empreinte atomique de la structure en trois dimensions. À l’aide de cette empreinte et de données génériques communes { l’ensemble des protéines (structures des acides aminés, angles dihédriques, …), il est possible de déterminer un modèle de la protéine. Ce motif résulte de la diffusion de la radiation électromagnétique par les électrons et dépend de leur distribution et de leur densité. Le principal désavantage de cette technique (en dehors de la nécessité d’avoir accès à une source de rayons X) est la nécessité de former des cristaux ordonnés de protéine. En effet, les conditions de formation du cristal varient en fonction de chaque protéine et il est souvent nécessaire d’en tester un grand nombre avant d’obtenir les premiers cristaux. L’avantage de cette technique est sa très bonne résolution spatiale, proche du rayon de van der Waals d’un atome d’hydrogène dans le meilleur de cas.

En comparaison, la résonance magnétique nucléaire permet d’obtenir un ensemble de contraintes de distances et d’angles sur les acides aminés de la protéine. En combinant ces contraintes spécifiques à la protéine avec des données génériques, il est possible d’obtenir un ensemble de modèles satisfaisant ces contraintes. L’avantage de cette technique expérimentale est de pouvoir étudier la protéine en solution et donc de pouvoir étudier sa structure dans un milieu dynamique et non pas figée dans un cristal. Comme la protéine n’est pas immobile en solution, la fluctuation du repliement va engendrer un ensemble de contraintes reflétant cette mobilité. C’est pour cette raison que la RMN, contrairement à la radio cristallographie, qui propose un modèle unique, propose un ensemble de modèles.

Il est important de noter, par conséquent, que les techniques expérimentales «pures» n’existent pas car, dans tous les cas, il est nécessaire d’introduire de l’information a priori. Pour les méthodes qualifiées d’expérimentales, cette information ne concerne que la géométrie covalente et pas l’organisation spatiale. En général, il y a toujours la tentation d’introduire de l’information ne provenant pas directement des expériences réalisées. Par exemple, en RMN, Clore et Gronenborn (Kuszewski et al. 1996) ont proposé de contraindre le diagramme de Ramachandran.

LES MÉTHODES DITES « IN SILICO »

À l’opposition de ces techniques utilisant le plus possibles de données spécifiques à la protéine étudiée, des méthodes de prédiction de structures { l’aide de données génériques se sont développées. Ces méthodes de prédiction ne sont pas uniquement « in silico » puisque la plupart d’entre elles reposent sur la conversion de données statistiques, issues d’expériences, en potentiels de contrainte ou de tri. L’approche proposée pour résoudre le problème de la prédiction de structure des protéines est d’utiliser la structure d’une ou plusieurs protéines dont la séquence présente une grande similarité. Cette solution est appelée modélisation comparative, aussi dénommée modélisation par homologie. Il a été estimé que la résolution d’au moins 16000 nouvelles structures (soigneusement sélectionnées) permettrait de couvrir, grâce à cette approche, 90% des familles de domaines des protéines. Au rythme actuel, ce résultat devrait être atteint dans les dix prochaines années (Vitkup et al. 2001). Aidée par l’augmentation de la puissance des unités de calcul, ces nouvelles méthodes pour la détermination de modèles de protéines se sont rapidement développées. Néanmoins, les modèles obtenus ne sont pas toujours parfaitement résolus et leur champ d’application dépend de la résolution de la modélisation estimée (Figure 1). Le développement rapide de ces méthodes a été poussé à la fois par le besoin grandissant de l’automatisation et par la difficulté d’obtenir suffisamment de données expérimentales pour la détermination des structures.

LES DIFFÉRENTES CATÉGORIES DE MÉTHODES

Les méthodes qui n’utilisent pas de données spécifiques { la protéine étudiée ({ l’exception de la séquence en acides aminés) peuvent être classées en trois catégories, suivant les données qu’elles utilisent dans leur fonctionnement : la modélisation par homologie, la reconnaissance de repliement et la prédiction de structure ab initio. Cette catégorisation est issue du Critical Assessment of Protein Structure Prediction (CASP), un concours qui permet de comparer les résultats des méthodes de ces différentes catégories (Barton & Russell 1993; Benner et al. 1992) dont voici une brève présentation. La modélisation par homologie utilise les outils d’alignement de séquences pour trouver des protéines dont la séquence est proche de la protéine que l’on cherche { modéliser. La qualité des modèles produits est généralement bonne jusqu’{ 25% d’identité de séquence. C’est une méthode facile { utiliser avec des protocoles qui sont aujourd’hui parvenus { maturité. Les méthodes de reconnaissance de repliement cherchent à trouver quel type de repliement la nouvelle protéine peut adopter quand on ne dispose que de sa séquence. Comme le nombre de repliements est limité, il est possible de retrouver les mêmes repliements dans des protéines très éloignées. À ce jour, ce sont les deux méthodes présentant les meilleurs résultats (Moult 1999) mais elles reposent sur le fait que l’on dispose de séquences homologues dans les bases de données ce qui n’est fréquemment pas le cas. Dans le cas où l’on ne dispose pas de séquences homologues, des méthodes efficaces de prédiction de structure secondaire et de motif locaux ont vu le jour (Rost et al. 1994; King et al. 1997; Bystroff & Baker 1998; Jones 1999; Karplus et al. 1999). Cependant, ces méthodes ne permettent pas de modéliser une protéine dans son intégralité et c’est dans ce but qu’ont émergé les méthodes dites « ab initio ». L’objectif des méthodes ab initio (couramment appelées de novo) est de trouver la structure d’une protéine { partir de sa séquence en acide aminé, de potentiels statistiques et de bases de données. Si elles n’utilisent pas de séquences homologues de façon directe, il est important de noter qu’elles utilisent l’intégralité des bases de données { leur disposition. Ainsi, si l’on cherche { évaluer les résultats obtenus par une méthode de ce type il est important de retirer de la base de données utilisée les structures dont les séquences sont proche de celles du jeu de test. Le point commun des méthodes de ces trois catégories de modélisation (homologie, reconnaissance de repliement et ab initio) est de produire un grand nombre de modèles minimisant une fonction de score interne. On peut déjà noter une différence dans les objectifs des techniques utilisant des données expérimentales spécifiques { l’objet étudiée et les méthodes utilisant des données génériques. Dans le premier cas, l’objectif est de trouver « la » structure, ce qui est réalisable en jouant sur la quantité et la qualité des données spécifiques. Schématiquement, l’objectif (trouver la structure) nécessite d’acquérir assez de données spécifiques. Dans le deuxième, le problème est inverse car le fait de n’utiliser que des contraintes génériques pose une condition sur l’objectif : trouver toutes les structures possibles compatibles avec la connaissance du système. Cela pose alors le problème de pouvoir identifier parmi ces structures les structures les plus proches de la « vraie » structure. C’est un problème récurrent rencontré par tous les programmes de modélisation.

En résumé, quelle que soit la méthode utilisée lorsque l’on détermine un modèle de protéine, on mélange des données issues de l’expérience concernant l’objet particulier auquel on s’intéresse (la protéine) et de la classe d’objet auquel il appartient (les protéines). Par exemple, un cliché de diffraction ou une carte de RMN appartient manifestement au premier type de données. A l’inverse les contraintes sur les potentiels de la longueur des liaisons, de respect du diagramme de Ramachandran ou sur les résidus hydrophobes appartiennent manifestement au second type. On peut remarquer que les différentes techniques vont varier entre des situations avec le moins possible de données génériques (techniques expérimentales) et des situations avec le moins possible de données spécifiques (techniques « ab initio »).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION GÉNÉRALE
1 LA DÉTERMINATION DE LA STRUCTURE DES PROTÉINES
2 LES MÉTHODES DITES « EXPÉRIMENTALES »
3 LES MÉTHODES DITES « IN SILICO »
3.1 Problématique générale
3.2 Les différentes catégories de méthodes
4 LES MÉTHODES INTERMÉDIAIRES
PBP1B, UN CAS D’ÉTUDE POUR DADIMODO
1 INTRODUCTION
1.1 Le SAXS, un outil de choix pour la biologie structurale
1.2 La protéine Penicillin Binding Protein 1b (PBP1b)
2 PRÉSENTATION DU PROGRAMME DADIMODO
2.1 Origine du programme
2.2 Présentation générale des algorithmes génétiques
2.3 Mécanique de l’algorithme génétique dans Dadimodo
3 OPTIMISATION ET DÉVELOPPEMENTS SPÉCIFIQUES POUR PBP1B
3.1 Problème de la mutation
3.2 Problème de l’évaluation
3.3 Problème de sélection
4 APPLICATION À PBP1B
4.1 Structures de départ
4.2 Échantillonnage de la courbe de diffusion des rayons X
5 REGROUPEMENT DES STRUCTURES
5.1 Regroupement par RMSD
5.2 Regroupement par centre de gravité
5.3 Regroupement par volume commun
6 RÉSULTATS
6.1 Évaluation de la qualité de l’accord
6.2 Caractéristiques des structures
6.3 Position du domaine Glycosyltransférase
6.4 Comparaison avec les structures SASREF
7 CONCLUSION
7.1 Comparaison des programmes SASREF et Dadimodo
7.2 Information biologique
DÉTERMINATION DE LA STRUCTURE D’UN DOMAINE PAR UNE MÉTHODE DE NOVO, APPLICATION À UN DOMAINE DE LA PROTÉINE P DU VIRUS PPRV
1 INTRODUCTION
1.1 Modélisation de structure de protéine à partir de la séquence
1.2 Combinaison avec des données expérimentales
1.3 Cas d’étude avec des données RMN incomplètes
2 ÉTUDE PAR RMN D’UN FRAGMENT DE PROTÉINE VIRALE
2.1 Le Virus de la Peste des Petits Ruminants
2.2 Préparation de l’échantillon de P459N
2.3 Attribution des fréquences de résonance
3 PRÉSENTATION DE ROSETTA
3.1 Exploration de l’espace des conformations
3.2 Affinement des modèles
3.3 Prise en charge des contraintes expérimentales
3.4 Limitations du programme
3.5 Du point de vue de l’utilisateur
4 APPLICATION AU DOMAINE C-TERMINAL DE LA PROTÉINE P DE PPRV
4.1 Calibration des NOE
4.2 Configuration des calculs
4.3 Regroupement des structures
4.4 Comparaison des structures Modeller et Rosetta
5 CONCLUSION
ÉTUDE DE L’EFFET DES COURANTS DE CYCLE DANS LES COMPLEXES PROTÉINE-ADN
1 INTRODUCTION
1.1 Le problème de l’arrimage Protéine-ADN
1.2 Le déplacement chimique
1.3 Le courant de cycle
1.4 Méthodes de calcul de l’effet des courants de cycle
2 EFFET DES COURANTS DE CYCLES DANS LES COMPLEXES PROTÉINE-ADN
2.1 Étude de complexes avec des données expérimentales
2.2 Étude sur une banque de complexes
2.3 Taux de couverture des interfaces par les courants de cycle
3 ÉVALUATION DE LA CONTRIBUTION DU COURANT DE CYCLE DANS LE DÉPLACEMENT CHIMIQUE
3.1 Pour les protons HN et Hα
3.2 Pour les protons en bout de chaîne latérale
4 CONCLUSION
CONCLUSION GÉNÉRALE
RÉFÉRENCES

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *