Les interactions protéine-protéine (IPP)

Les interactions protéine-protéine (IPP) 

Le séquençage de génomes complets chez les eucaryotes a permis d’accéder à une quantité importante d’informations jusqu’alors très incomplètes. La bioinformatique a joué un rôle prépondérant dans cette avancée puisque ses développements ont largement contribué à l’analyse à grande échelle des données du séquençage pour identifier les gènes codés et leurs variants d’épissage. Ainsi, il a pu être mis en évidence que le génome de Saccharomyces cerevisiae code pour environ 6300 protéines alors que le génome humain en compterait 30000 (Goffeau et al., 1996; Lander et al., 2001). En plus d’un nombre plus important de gènes codés, le génome humain se caractérise également par une utilisation plus fréquente de variants d’épissage.

La question de la fonction cellulaire de ces protéines est étroitement liée à leur composition en domaines structuraux (unités autonomes de repliement), à leurs structures et à l’organisation des interactions intra- et inter-moléculaires entre leurs différents domaines.

De nombreux outils bioinformatiques ont été introduits pour faciliter l’étude du rôle de ces protéines. Tous sont basés sur le principe suivant : les séquences présentant des similitudes importantes correspondent à des protéines qui adoptent un repliement tridimensionnel proche avec des fonctions voisines. Néanmoins, des séquences très différentes peuvent aussi conduire à des repliements proches : la détection de ces similitudes structurales au travers des séquences s’avère alors bien plus délicate. Différentes techniques ont été développées pour repérer les séquences susceptibles d’adopter un même repliement ainsi que pour modéliser le repliement d’une protéine de structure inconnue. Nous étudierons plus en détails ces méthodes bioinformatiques dans la suite de l’introduction.

Pour aboutir à une vision plus intégrée du fonctionnement des cellules, les liens entre ces protéines restent à mettre en évidence. Les nouveaux défis de l’ère post-génomique se concentrent donc sur (i) la mise en évidence des interactions entre protéines et l’identification du rôle précis de chacune d’entre elles et (ii) la compréhension des mécanismes contrôlant la transcription des différents gènes.

Mise en évidence des interactions protéine-protéine (IPP)

Un certain nombre d’interactions protéine-protéine sont connues et référencées dans la littérature. A ces interactions connues peuvent être ajoutées des interactions observées lors de cribles à grande échelle basés sur :
– la technique du double hybride (Y2H) ;
– ou celle de la purification par affinité (AP) couplée à la spectrométrie de masse (MS).

En raison de méthodologies différentes, ces deux techniques de criblage à grande échelle identifient souvent des interactions non redondantes et s’avèrent donc complémentaires.

La technique du double hybride (Fields and Song, 1989) a été introduite afin de mettre en évidence une interactions entre deux partenaires X et Y chez la levure Saccharomyces cerevisiae . La méthode consiste à utiliser le facteur de transcription Gal4, dont les domaines d’association à l’ADN et d’activation de la transcription peuvent être dissociés afin de construire deux protéines hybrides qui sont introduites dans des souches de levure : la protéine X est fusionnée au domaine Gal4 1-147 de liaison à l’ADN, tandis que la protéine Y est fusionnée au domaine Gal4 768-881 activateur de la transcription. Dans les souches où l’interaction entre X et Y est présente, la proximité des domaines de liaison à l’ADN et d’activation de la transcription de Gal4 permet de déclencher l’expression des gènes sous contrôle du promoteur Gal4. L’expression de ces « gènes rapporteurs» sert de marqueur pour identifier une interaction entre X et Y.

La technique du double hydride a l’avantage de mettre en évidence les interactions protéine protéine dans un contexte cellulaire. Ainsi, si l’interaction étudiée met en jeu deux protéines de levure et nécessite une modification post-traductionnelle, celle-ci pourra être détectée par double-hybride. Néanmoins, parmi les inconvénients de la technique figurent son manque de sensibilité et de spécificité, puisqu’elle génère de nombreux faux positifs et faux négatifs. Des cribles à grande échelle utilisant cette technique ont été effectués chez la levure Saccharomyces cerevisiae (Ito et al., 2001; Uetz et al., 2000), le ver Caenorhabditis elegans (Li et al., 2004), chez Helicobacter pylori (Rain et al., 2001), la mouche Drosophila melanogaster (Formstecher et al., 2005; Giot et al., 2003) et plus récemment chez l’homme (Lim et al., 2006; Rual et al., 2005).

Une autre méthode basée sur l’identification des composants de complexes protéiques par spectrométrie de masse a également été mise au point. Pour chaque protéine d’intérêt X, une extension N- ou C-terminale contenant les domaines de liaisons nécessaires à deux purifications par affinité successives est ajoutée et la construction est introduite dans la cellule ou l’organisme hôte. Des extraits cellulaires sont ensuite préparés, au sein desquels la protéine d’intérêt X est complexée à un certain nombre de partenaires non identifiés. Le complexe est purifié pour que les protéines composant ce complexe puissent être caractérisées par spectrométrie de masse (Puig et al., 2001) ou par la détection d’anticorps. Trois cribles utilisant cette approche à grande échelle ont été réalisés chez Saccharomyces cerevisiae (Gavin et al., 2002; Ho et al., 2002; Krogan et al., 2006).

Les informations mises en évidence par les approches Y2H et AP-MS ne sont pas équivalentes. Les interactions détectées par Y2H sont binaires , alors que les complexes identifiés par AP-MS sont caractérisés de façon globale sans connaître précisément l’identité des partenaires en contact . Ces deux visions sont complémentaires et leur association est utile pour inférer la structure locale exacte de la carte des interactions protéine-protéine (Scholtens and Gentleman, 2004; Scholtens et al., 2005).

Le cas de Saccharomyces cerevisiae est intéressant car plusieurs cribles à grande échelle ont été effectués, à la fois par Y2H (Ito et al., 2001; Uetz et al., 2000) et par AP-MS (Gavin et al., 2002; Ho et al., 2002; Krogan et al., 2006). La comparaison des résultats obtenus est surprenante puisqu’on constate un taux recouvrement extrêmement faible entre les interactions identifiées. Par exemple, Nervan Krogan et ses collègues (University of Toronto, Canada) ont comparé les résultats de leur crible AP-MS à ceux des deux cribles Y2H : sur les 547 complexes détectés par leur crible, seuls 47 sont complètement identifiés par le crible AP-MS de Yuen Ho et coll. et 52 par le crible AP-MS d’Anne-Claude Gavin et coll. (Krogan et al., 2006). Ce manque de recouvrement peut s’expliquer en partie par des différences méthodologiques expérimentales car les protéines utilisées comme proies sont différentes dans les trois cribles.

Pour représenter toutes les IPP identifiées à l’échelle d’un organisme, la structure de données la plus communément utilisée est celle des cartes d’IPP, ou interactomes : il s’agit d’un graphe au sein duquel chaque protéine correspond à un sommet et chaque interaction identifiée à une arête. Les interactomes forment des réseaux de très grandes taille et complexité qui fournissent une nouvelle vision intégrée du fonctionnement de la cellule et de l’organisme. Leur utilisation a par exemple conduit à des progrès importants concernant la classification et l’annotation fonctionnelles des protéines (Brun et al., 2003). L’étude des propriétés statistiques de ces réseaux a suscité beaucoup d’intérêt ces dernières années. De nombreuses questions restent ouvertes concernant par exemple les modèles représentant le mieux la topologie observée (Barabasi and Albert, 1999; Przulj et al., 2004; Ravasz et al., 2002; Watts and Strogatz, 1998). En effet, au sein des interactomes, il a été constaté que si la majorité des protéines ont peu de partenaires d’interactions, d’autres au contraire sont impliquées dans un grand nombre d’interactions (ces dernières étant surnommées « hubs »).

Les bases de données d’interactions protéine-protéine

Il existe différentes bases de données d’interactions protéiques, construites à partir de données expérimentales. En particulier, les bases de données BIND (Biomolecular Interaction Database) et DIP (Database of Interacting Proteins) collectent les interactions protéine-protéine provenant de différentes sources : soumissions directes, données collectées provenant des différentes expériences menées à grande échelle, ou encore analyses manuelles ou automatiques de données issues de la littérature. A l’heure actuelle, la base de données BIND contient 67739 interactions et la base de données DIP 56080 interactions mettant en jeu 19378 protéines.

Les différentes expériences menées à grande échelle, en particulier chez Saccharomyces cerevisiae, Caenorhabditis elegans, Helicobacter pylori, Drosophila et chez l’homme ont largement contribué au développement de ces bases de données d’interactions protéiques. En 2003, la proportion de ce type de données dans BIND a été estimée à environ 80% (Salwinski and Eisenberg, 2003). Ces données d’interactions proviennent en partie d’expériences de double hybride qui génèrent une part non négligeable de faux positifs. Compte tenu du nombre de données à analyser, certaines méthodes automatiques ont été développées afin d’évaluer la validité biologique de ces interactions, comme les méthodes Expression Profile Reliability et Paralogous Verification Method (Deane et al., 2002). À partir de ces méthodes d’évaluation, il a été estimé qu’environ 50% des 8000 interactions mises en évidence par un crible double hybride chez Saccharomyces cerevisiae étaient valides (Deane et al., 2002). Les interactions prédites comme valides ont été regroupées en un sous-ensemble représentant environ 30% des interactions de la base de données DIP, appelé CORE (Salwinski and Eisenberg, 2003).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 : Introduction Générale
1.1 Les interactions protéine-protéine (IPP)
1.1.1 Introduction
1.1.2 Mise en évidence des interactions protéine-protéine (IPP)
1.1.3 Les bases de données d’interactions protéine-protéine
1.1.4 Les différents types d’interactions protéine-protéine
1.2 Les domaines médiateurs d’interactions protéine-protéine
1.2.1 Définition des Peptide Recognition Modules (PRMs)
1.2.2 Exemple d’utilisation des PRMs pour l’intégration de signaux intra-cellulaires : le code des histones
1.2.3 Affinité et Spécificité des PRMs
1.2.4 Divergence au sein des familles de PRMs
1.2.5 Régulation des protéines des voies de signalisation via leurs PRMs
1.3 Développements bioinformatiques pour prédire les propriétés des PRMs : Objectif de la thèse.
1.4 Méthodes visant à prédire le repliement associé à une séquence
1.4.1 Introduction
1.4.2 La modélisation comparative
1.4.3 Alignement de séquences et modélisation comparative
1.4.4 Les alignements de séquence à séquence, ou alignements par paires
1.4.5 Les alignements de séquences à séquences alternatifs et sous-optimaux
1.4.6 Les alignements d’une séquence sur un alignement multiple de séquences : séquenceprofil, séquence-HMM
1.4.7 Les alignements profil-profil et HMM-HMM
1.4.8 Autres techniques de prédiction de structure intégrant de façon explicite l’information structurale
1.5 Optimisation du placement des chaînes latérales sur un squelette fixe
1.5.1 Description du problème SCP
1.5.2 Définition des angles dièdres caractérisant le squelette peptidique et les chaînes latérales
1.5.3 Approches heuristiques existantes
1.6 Fonctions de score développées pour le design automatique et semi-automatique de structures
1.6.1 Introduction au problème du design
1.6.2 Trois catégories de fonctions d’énergie
1.6.3 Fonctions d’énergie empiriques pour le design : Foldx et RosettaDesign
Chapitre 2 : Détection et Modélisation des PRMs
2.1 Détection et Modélisation d’un tandem BRCT dans les protéines Nbs1 et Xrs2
2.1.1 La protéine humaine Nbs1 et son orthologue Xrs2 chez la levure
2.1.2 Détection d’un domaine BRCT caché
2.1.3 Modélisation de la structure du tandem de domaines BRCT de Nbs1
2.2 Implications fonctionnelles
2.2.1 Indices suggérant que le tandem BRCT de Nbs1 reconnaît des phospho-sérines
2.2.2 Importance fonctionnelle du second BRCT : interaction Nbs1 – Mdm2
2.2.3 Structure de l’assemblage FHA, tandem BRCT
2.3 Perspectives
Chapitre 3 : Le problème de l’alignement des séquences en vue de la modélisation structurale
3.1 Introduction
3.2 Exploration ciblée de l’espace des alignements séquence-HMM au voisinage de l’alignement optimal
3.2.1 Implémentation de la fonction HMMKALIGN au sein de HMMER
3.2.2 Influence des méthodes de construction du HMM
3.2.3 Base d’alignements tests de familles de séquences divergentes
3.2.4 Mesures utilisées pour évaluer la qualité des alignements
3.2.5 Mesure utilisée pour évaluer la diversité des alignements
3.2.6 Procédure de test
3.3 Résultats obtenus par HmmKalign sur 115 alignements test (κ=20)
3.3.1 Diversité au sein des 20 alignements sous-optimaux générés
3.3.2 Amplitude des améliorations obtenues pour les Qmod, Qdev, et Qlocal
3.3.3 Comparaison des moyennes et écart-type du Qmod, Qdev et Qlocal
3.3.4 Etude d’un exemple au sein de la famille des thioredoxines
3.4 Comparaison des améliorations obtenues avec HMMKALIGN et des améliorations obtenues en utilisant des méthodes d’alignements profil-profil
3.5 Discussion et perspectives de ce travail sur les alignements
3.5.1 HmmKalign : une méthode de génération d’alignements alternatifs novatrice
3.5.2 Comparaison avec les autres méthodes de génération d’alignements alternatifs dans le cadre des alignements séquence-profil
3.5.3 Le problème de la discrimination entre alignements corrects et incorrects
3.5.4 Adaptation de HmmKalign aux alignements HMM-HMM ?
Chapitre 4 : Conclusion Générale

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *