Modèles de populations stochastiques multitypes en temps discret

Dessin de protéine seule

Dessin du cœur protéique La séquence en acides aminés d’une protéine définit son repliement en la conformation native (Anfinsen [1972]). Le repliement protéique est orchestré spontanément par l’effet hydrophobe (Pace et al. [1996]). Les molécules d’eau interagissent entre elles plus fortement d’avec les résidus hydrophobes. Ces interactions vont entraîner un regroupement des résidus hydrophobes (Fig. 1.1). Cette agrégation forme un repliement de la protéine qui est consolidé par la suite grâce à des interactions intra-protéiques comme des liaisons hydrogènes. Une protéine globulaire est donc majoritairement composée d’un cœur hydrophobe et de résidus polaires à sa surface, exposés au solvant. La stabilité des protéines a été fortement étudiée, notamment pour rendre les protéines thermorésistantes. Pour éviter leur dénaturation, il faut renforcer leur repliement en introduisant des résidus hydrophobes dans le cœur de la protéine. L’équipe de Malakauskas & Mayo [1998] a modifié le domaine β1 de la protéine G pour améliorer sa stabilité. L’incorporation de nombreuses isoleucines dans le cœur du domaine a permis d’augmenter la température de fusion de 8◦ à plus de 10◦C par rapport au sauvage selon le mutant. En appliquant le même protocole, l’équipe de Filikov et al. [2002] a mis au point des mutants d’une hormone de croissance humaine qui améliorent de 13 à 16◦C la température de fusion de la protéine sauvage. Dessin de protéine entière Le dessin de protéine entière permet essentiellement de valider les protocoles computationnels utilisés pour faire de nouvelles prédictions. Une première étude a été réalisée par Dahiyat & Mayo [1997] qui ont redessiné un motif doigt de zinc ββα, où la meilleure séquence présentait 21% d’identité avec la séquence native. Une seconde étude présente la reconstruction de 9 protéines globulaires de 23 à 107 résidus, par l’équipe de Dantas et al. [2003]. Ils ont déterminé qu’en moyenne, le pourcentage d’identité avec les séquences natives était de 30%, et augmentait jusqu’à 50% d’identité dans les cœurs hydrophobes. Le repliement et la stabilité des ces 9 protéines ont été validés expérimentalement.

Dessin d’interaction protéine-protéine

De nombreuses études ont modifié les interactions protéine-protéine (Zhang et al.[2016], Norn & André [2016]), mais nous pouvons citer l’étude de Fleishman et al. [2011]. L’équipe a travaillé sur les anticorps du virus de la grippe. Les virus étant de plus en plus résistants aux anticorps, ils ont modifié des anticorps existants pour leur redonner une activité thérapeutique. Ils ont donc modifié des anticorps permettant d’identifier et de se lier à une queue conservée dans toutes les souches du virus de la grippe. Pour cela, ils ont ciblé la surface hydrophobe de la queue impliquée dans l’interaction, qui est hautement conservée pour de nombreuses souches de ce virus. De manière itérative, ils réalisent un docking pour positionner correctement les anticorps sur la protéine. Ils incorporent ensuite des résidus hydrophobes (Leu, Val, Ile, Phe, Trp, Met, Tyr) à l’interface des deux protéines, puis optimisent la séquence des résidus de surface autour du site d’interaction. Des analyses expérimentales ont montré que les mutants HB36 et HB80 des 73 mutants testés inhibent le changement conformationnel qui conduit à la fusion de la membrane. Le virus est de cette façon inactivé.

Modélisation du squelette de la protéine

Simulation avec un squelette fixe Le squelette de la protéine est utilisé dans un grand nombre de programmes de manière rigide, en servant de support pour greffer les rotamères des chaînes latérales. Les atomes C, N, Cα, O, sont maintenus rigides, ainsi que l’atome Cβ qui permet de conserver l’orientation naturelle des chaînes latérales pour positionner les rotamères (Fig. 1.5). Ce traitement est réalisé pour toutes les positions de la protéine, sauf pour les prolines dû à leur géométrie cyclique particulière. Les simulations à squelette rigide ont permis de modéliser de nombreux mutants, dont une majorité des exemples présentés dans la partie 1.1. Simulation avec la flexibilité du squelette implicite Des méthodes simples ont permis de prendre en compte la flexibilité du squelette de manière implicite. Une méthode qui a été rapidement adoptée, est de réduire les rayons de van der Waals pour réduire les contraintes stériques (Dahiyat & Mayo [1997], Looger & Hellinga [2001]). De cette manière, il est possible de compenser l’effet restrictif du squelette fixe et de la discrétisation des chaînes latérales par les rotamères, permettant un échantillonnage plus large de séquences compatibles avec la structure désirée. Une seconde méthode basée sur l’apprentissage appelée “cluster expansion” optimise une fonction d’énergie sur un lot de séquences/squelettes (Apgar et al. [2009]). Ce lot est généré par CPD en utilisant les séquences prédites sur plusieurs squelettes indépendamment. Cette fonction d’énergie est ensuite utilisée pour faire des prédictions de mutations. Simulation avec la flexibilité du squelette explicite Plusieurs méthodes ont été développées sur les vingt dernières années pour représenter explicitement la flexibilité du squelette. Les premières méthodes permettent de considérer une flexibilité proche du squelette natif, puis elles ont évoluées vers des mouvements de boucles plus larges. Les premières simulations en squelette flexible ont été réalisées par les équipes de Harbury et al. [1995] et Offer & Sessions [1995]. Des perturbations sont appliquées au squelette protéique grâce à la paramétrisation des éléments de structures secondaires α/α, α/β et β/β. Ces éléments sont considérés comme des blocs qui peuvent adopter différentes positions les uns par rapport aux autres en faisant varier les distances ou les angles entre blocs. De cette manière, l’équipe de Harbury et al. [1995] a permis de mettre en place une nouvelle topologie d’un tétramère d’hélice α, validée expérimentalement. Seulement, ces simulations ont été réalisées sans aucune mutation de la séquence. C’est pourquoi l’équipe de Su & Mayo [1997] a réutilisé cette idée, en autorisant des mutations. Ils ont cependant obtenu des séquences de cœur hydrophobe similaires à celles obtenues sur le squelette original fixe. L’équipe de Desjarlais & Handel [1999] a ajouté de la flexibilité en modifiant aléatoirement les angles de torsions ψ et φ du squelette de la protéine 434 cro. Cependant, les séquences obtenues n’apportaient pas de nouvelles mutations par rapport à celles obtenues avec le squelette fixe. Enfin, l’équipe de Li & Scheraga [1987] et par la suite de Dantas et al. [2007], ont fait des simulations où une minimisation est réalisée après un mouvement de chaîne latérale. Seuls les angles de torsions du squelette sont autorisés à bouger, pour adapter le squelette à la séquence protéique et la structure rotamérique choisie. Les mutations n’étaient pas autorisées pour la première équipe alors qu’elles l’étaient pour la seconde équipe. L’équipe de Simons et al. [1997] a mis en place une méthode d’insertion de fragments de peptide. L’idée repose sur l’homologie structurale pour une séquence d’acide aminé donnée. La protéine est découpée en peptides, puis les conformations possibles correspondants à ces peptides sont testés. Malgré les succès lors l’événement biennal CASP (Simons et al. [1999]), et la création de trois boucles flexibles de 10 résidus validées expérimentalement (Hu et al. [2007]), cette méthode requiert des ajustements des résidus adjacents à l’insertion des différents fragments peptidiques. Un des succès les plus impressionnants a été réalisée par Kuhlman et al. [2003], qui ont créé une protéine, appelée Top7, possédant un nouveau repliement encore jamais observé dans la nature. Pour cela, 172 topologies de squelettes sont été générées à partir du serveur TOPS (Topology of Protein Structure – Michalopoulos et al. [2004]), sur lesquels des optimisations de séquences ont été réalisées. La différence structurale entre la protéine prédite et la protéine validée expérimentalement est de 1.17 Å. Pour parvenir à ce résultat, ils ont optimisé alternativement la séquence en acide aminés et la structure du squelette, en utilisant l’insertion de fragments avec une optimisation des angles de torsions des résidus voisins du site d’insertion. L’équipe de Georgiev & Donald [2007] a mis en place une méthode basée sur les distances Cα − Cα, où une boite est placée autour du squelette de la protéine pour limiter le déplacement du squelette. Le squelette est échantillonné par génération aléatoire des angles dièdres, et la conformation la plus favorable est sélectionnée pour la phase d’optimisation des chaînes latérales. Une étude de Davis et al. [2006] a découvert, en inspectant les structures cristallographiques, un mouvement naturel des squelettes protéiques appelé “backrub”. Ces mouvements décrivent des mouvements biologiques pertinents corrélant les mouvements de chaînes latérales et le squelette correspondant. Ils consistent à déplacer la position du vecteur de la liaison Cα-Cβ à une position donnée, en maintenant les longueurs et les angles des liaisons et la planéité de la liaison peptidique. Ce mouvement est purement local, c’est-à-dire pratiquement sans déplacement des Cα aux positions ±1 et sans déplacement aux positions ±2 et au-delà. Ils proposent donc un algorithme permettant de reproduire ce mouvement, consistant à utiliser l’axe formé par les Cαi−1,i+1 comme pivot pour déplacer légèrement le Cα central i et sa chaîne latérale (Fig. 6.1). Cαi−1 et Cαi+1 sont maintenus fixes et forment un axe autour duquel le carbone Cαi effectue une rotation. Tous les atomes entre ces deux Cα sont rigides et se déplacent en un seul bloc. Cet algorithme a rapidement été utilisé dans deux équipes : Georgiev et al. [2008] et Smith & Kortemme [2008]. Ils ont montré que l’utilisation du mouvement backrub améliore l’exactitude de la prédiction des mutants par rapport aux simulations avec un squelette rigide, et qu’il est possible de capturer des oscillations entre des conformations ouvertes et fermées observées en solution. Cependant, les simulations ont été réalisées en mutant une seule position. Il est possible d’étendre les mouvements de backrub à plus de 3 résidus (Betancourt [2005]). En effet, en sélectionnant cinq résidus, les points de l’axe servant de pivot seront les positions i ± 2. Les mouvements de squelette deviendront alors plus grands, mais la rigidité du segment peut rendre ce mouvement difficile. Ce mouvement backrub a prouvé son efficacité mais certaines régions de la protéine peuvent posséder une plus grande flexibilité, associée à des variations importantes dans les angles de torsion du squelette. L’échantillonnage conformationnel basé sur ces angles de torsions peut être amélioré par des techniques locales opérant sur ces angles, tout en gardant les longueurs et les angles de liaisons idéaux. Une méthode appelée “fermeture de cycle” consiste à échantillonner indépendamment un peptide provenant de la boucle flexible, puis à ressouder ce peptide à la protéine. L’idée a été proposée par Go & Scheraga [1970], puis utilisée sur les problèmes de dessin de protéine par plusieurs équipes (Coutsias et al. [2004], Cortes et al. [2004], Lee et al. [2004], Noonan et al. [2005], Milgram et al. [2008]). L’implémentation de cette méthode repose sur un processus de cinétique inverse utilisé en robotique. Les mouvements proposés satisfont les contraintes géométriques et de liaisons, dont les multiples axes de rotations libres peuvent mener à des conformations radicalement différentes. Cette méthode a fait ses preuves en reconstruisant 25 boucles flexibles avec une différence structurale moyen de 0.9 Å par rapport aux structures natives (Mandell et al. [2009]). Pour prendre en compte des mouvements de plus grandes amplitudes que le backrub, il est aussi possible de réaliser des simulations en multi-états. Dans ce cas, il faut générer à l’avance plusieurs conformations de squelettes par dynamique moléculaire, modes normaux, ou par des fermeture de cycles. Ces squelettes sont ensuite utilisés au cours des simulations de CPD. L’équipe de Friedland et al. [2008] a généré, en utilisant la méthode de backrub, plusieurs conformations de squelette et a réalisé les simulations d’optimisation de séquence pour chaque squelette indépendamment. Cette étude a montré que selon les conformations de squelette, les prédictions de séquences variaient.

Modèle de Poisson-Boltzmann Le modèle de solvant Poisson

Boltzmann (PB) est un autre modèle de solvant implicite. Il est l’un des modèles le plus précis. Il comprend notamment (1) les fortes interactions électrostatiques entre les groupes chargés et le solvant polarisé, et (2) le phénomène d’écrantage des interactions intra-protéique. Seulement, la résolution de l’équation PB est assez coûteuse et n’est pas décomposable par paires de résidus. Il existe cependant une version du PB décomposable par paire (Marshall et al. [2005], Vizcarra et al. [2008]). L’environnement diélectrique est approximé en modélisant l’environnement des chaînes latérales par un petit nombre des sphères. L’énergie électrostatique pour chaque chaîne latérale ou paire de chaînes latérales peut alors être déterminée. Cette méthode a montré son efficacité, mais reste toutefois coûteuse en temps de calcul.

ORBIT

Le programme ORBIT (Optimisation of Rotamers By Iterative Techniques) a été développé par Dahiyat & Mayo [1996]. L’originalité de ce programme est de combiner deux algorithmes. Tout d’abord, le programme réalise une simulation DEE sur la protéine d’étude. Une fois que le GMEC est défini, une simulation Monte Carlo est réalisée sur la conformation d’énergie minimale. Les simulations sont réalisées à partir d’une structure squelettique fixe et d’une bibliothèque de rotamères, en utilisant le champ de force DREIDING

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Liste des figures
Liste des tableaux
Abréviations
Introduction
1 Dessin Computationnel de Protéine
1.1 Les succès du dessin de protéine
1.1.1 Dessin de protéine seule
1.1.2 Dessin d’interaction protéine-ligand
1.1.3 Dessin d’interaction protéine-peptide
1.1.4 Dessin d’interaction protéine-protéine
1.1.5 Dessin d’interaction protéine-ADN/ARN
1.2 Modélisation d’une protéine et de son espace conformationnel
1.2.1 Modélisation de l’état déplié
1.2.2 Modélisation des chaînes latérales
1.2.3 Modélisation du squelette de la protéine
1.3 Fonction d’énergie pour évaluer une conformation
1.3.1 Fonction d’énergie classique de mécanique moléculaire
1.3.1.1 Énergie d’interaction liée
1.3.1.2 Énergie d’interaction non liées
1.3.1.3 Modélisation implicite du solvant pour le CPD
1.3.2 Fonction d’énergie décomposable par paires pour le CPD
1.4 Méthodes d’échantillonnage
1.4.1 Algorithmes stochastiques ou heuristiques
1.4.2 Algorithmes déterministes ou exactes
1.5 Principaux programmes de CPD
1.5.1 ORBIT
1.5.2 Toulbar2
1.5.3 PocketOptimizer
1.5.4 Proteus
1.5.5 FASTER
1.5.6 OSPREY
1.5.7 Rosetta
2 De la mécanique statistique à l’échantillonnage des protéines : implémentation dans Proteus
2.1 Les postulats issus de la mécanique statistique
2.2 Échantillonnage Monte Carlo selon la distribution de Boltzmann
2.3 Concepts liés au CPD
2.3.1 Énergie de l’état déplié et mutation
2.3.2 Fonction d’énergie décomposable par paires
2.3.3 Notion de matrice d’énergie
2.3.4 Le logiciel Proteus
3 Mise en oeuvre du multi-squelettes avec un mouvement hybride
3.1 Problème et enjeux des mouvements de squelette
3.2 Présentation du mouvement hybride
3.2.1 Théorie du mouvement hybride
3.2.2 Approximation “mono-chemin” ou SPA
3.2.3 Approximation des “chemins permutés” ou PPA
3.2.4 Optimisation des temps de simulation avec PPA
3.2.5 Discussion et conclusion
3.3 Mise en œuvre des simulations multi-squelettes
3.3.1 Concepts liés aux simulations multi-squelettes
3.3.1.1 Parties fixes et mobiles
3.3.1.2 Restructuration de la matrice d’énergie
3.3.1.3 Échange de squelettes au cours de la simulation
3.3.1.4 Évolution rotamérique simultanée sur tous les squelettes
3.3.1.5 Énergie intrinsèque des squelettes
3.3.2 Exemple détaillé de simulation multi-squelettes
3.4 Conclusion
4 Validation de l’approximation PPA et comparaison avec SPA
4.1 Systèmes protéiques d’étude : les domaines SH2 et SH3
4.2 Matériels et méthodes
4.2.1 Génération des bibliothèques de squelettes
4.2.2 Génération des matrices d’énergie
4.2.3 Estimation des différences d’énergies libres entre les squelettes
4.2.3.1 Estimation à partir des populations des différents squelettes
4.2.3.2 Estimation à partir de la titration des squelettes
4.2.3.3 Estimation à partir de la méthode de métadynamique
4.2.4 Utilisation de cycles thermodynamiques
4.3 Validation de l’approximation PPA
4.3.1 Étude de la relaxation rotamérique
4.3.2 Choix des paramètres optimaux
4.3.2.1 Influence de la longueur de relaxation et du nombre de chemins permutés sur les populations de squelette
4.3.2.2 Influence de la longueur de relaxation sur le temps de convergence des simulations
4.3.2.3 Impact du nombre de chemins permutés sur la probabilité d’acceptation des mouvements hybrides
4.3.2.4 Discussion et conclusion
4.4 Comparaison des approximations SPA et PPA
4.4.1 Influence de la longueur de la relaxation sur les populations de squelette
4.4.2 Estimation des énergie libres des squelettes
4.4.3 Simulations avec variation du squelette et de la séquence
4.4.4 Discussion et conclusions
4.5 Analyse des disparités entre les approximations SPA et PPA
4.5.1 Corrélation des ratios des probabilités de réaliser les mouvements hybrides entre SPA et PPA
4.5.2 Notion de chemin monotone
4.5.3 Discussion et conclusion
4.6 Discussion et Conclusions
5 Mutagenèse sur la tyrosyl-ARNt synthétase
5.1 Présentation et analyse structurale de la tyrosyl-ARNt synthétase
5.1.1 Les aminoacyl-ARNt synthétases
5.1.2 La tyrosyl-ARNt synthétase
5.2 Échantillonnage de la boucle activatrice KMSKS
5.2.1 Préparation du système et modélisation de la boucle KMSKS
5.2.2 Mutagenèse par CPD en squelette multiple
5.3 Échantillonnage de ligands en simulation multi-états
5.4 Conclusion
6 Vers un squelette complètement flexible : le mouvement backrub
6.1 Considérations préliminaires
6.2 Version pilote couplement proteus/XPLOR
6.3 Modifications de l’algorithme de proteus pour les mouvements backrub
6.4 Conclusion
Conclusion
Bibliographie