Une brève histoire des protéines

Jeannine Yon-Kahn a consacré un livre [121] aux protéines et à leur histoire dans lequel elle retrace tous les travaux et découvertes qui ont mené à l’état de l’art actuel. Cette section en extrait quelques grandes dates et découvertes pour situer le contexte et l’histoire chargée des protéines en espérant montrer que, malgré le nombre de découvertes et d’avancées, l’étude (particulièrement structurale et fonctionnelle) des protéines est loin d’être un sujet clos.

Les premières ébauches d’études des protéines débutent par une macro-observation de leurs effets avec notamment les travaux de Spallanzani qui, en 1783, s’intéressait aux sucs gastriques. Sucs qui font effet grâce à des protéines nommées enzymes. Indirectement, et sans le savoir, Spallanzani étudiait des actions enzymatiques [121]. L’une des premières enzymes (nommées ferments à l’époque) découvertes fut l’amylase, une enzyme salivaire, qui a pour rôle d’hydrolyser l’amidon de malt d’orge. Autrement dit, cette enzyme lyse l’amidon, un grand polysaccharide, en unités plus petites. Ce processus central dans la fabrication de la bière fut découvert par A. Payen et J.F. Persoz en 1833. Le terme enzyme (définition A.20) fut introduit par Kühne en 1878 alors qu’il étudiait le levain. Le XIXe siècle fut ponctué de découvertes tant sur le principe des enzymes (observation des phénomènes) que sur l’identification des molécules responsables de ces effets et des unités les composant. L’asparagine, l’un des acides aminés (unités des protéines) les plus courants, fut découverte en 1806, et d’autres le furent également tout au long du siècle. En 1931, Vickery et Schmidt publiaient un long article décrivant les acides aminés et synthétisaient tout le travail fait jusqu’alors. Ils ont ainsi posé les bases de domaine de l’étude des acides aminés. Les protéines, sujet centralde ce mémoire, furent nommées en 1838 par Berzelius. Leurs compositions et structures sont difficiles à déterminer, car requièrent des étapes d’identification et de purification extrêmement délicates. L’une des premières protéines cristallisées fut l’hémoglobine du ver de terre en 1840 par Hünefeld et la première enzyme, l’uréase par Sumner en 1926.

Si le XIXe siècle a été le siècle des découvertes des grands principes observés à l’échelle macroscopique, une grande partie du début du XXe siècle a été celle de grandes avancées scientifiques en chimie avec notamment les travaux de Pauling sur l’électronégativité (définition A.2) en 1932 ou encore les liaisons chimiques. Travaux qui ont entre autres permis de définir les règles principales relatives à la structure des protéines comme la longueur et les angles des liaisons atomiques. La seconde moitié du XXe siècle a connu des avancées techniques majeures exprimées au travers de la détermination de la structure tridimensionnelle de l’hémoglobine. Les protéines sont des macromolécules difficiles à cristalliser et dont il est encore complexe d’obtenir la structure en trois dimensions, que cela soit avec des techniques de diffraction des rayons X ou par spectroscopie de résonance magnétique nucléaire (RMN). La biologie structurale, l’étude de la structure des protéines est née en 1971 lors d’un symposium intitulé Structure and function of proteins at the three-dimensional level. Par la suite, de plus en plus de structures ont été déterminées via les techniques de diffraction des rayons (cf figure 1.2) tandis qu’en parallèle le nombre de séquences protéiques connues explosait grâce à l’avancée des techniques de séquençage de l’ADN .

Avec l’arrivée de ces données et la popularisation des ressources informatiques sont apparus de nombreux outils d’analyse et de mutualisation de ces données séquentielles, structurales et fonctionnelles. La bio-informatique est le domaine qui centralise traite et aide à l’analyse de ces données ainsi que des résultats et découvertes issus des travaux des biologistes. Les progrès de chacun de ces domaines entraînent des améliorations dans les autres à l’image de l’augmentation de la résolution des structures en cristallographie qui permet d’affiner les seuils des outils de comparaison. En conclusion, l’histoire des protéines est riche et continue à s’enrichir, certains aspects de ce mémoire s’appuient sur des découvertes faites il y a deux cents ans pour tendre à accroître la compréhension de « l’univers des protéines ».

Les acides aminés, briques du vivant

Un acide aminé (AA) est un acide carboxylique (molécule contenant un groupement carboxyle) possédant entre autres un groupement amine, d’où son nom. On recense plus de cinq cents acides aminés, cent quarante d’entre eux sont présents chez les protéines, on parle d’acides aminés protéinogènes .

Acides aminés protéinogènes chez l’Homme

Chez l’Homme il existe vingt et un acides aminés protéinogènes que nous présentons en détail ici. Huit d’entre eux sont dits essentiels, c’est-à-dire que le corps humain ne peut les fabriquer.

– Alanine (ALA, A)
– Arginine (ARG, R)
– Asparagine (ASN, N)
– Acide aspartique (ASP, D)
– Cystéine (CYS, C)
– Glutamine (GLN, Q)
– Acide glutamique (GLU, E)
– Glycine (GLY, G)
– Histidine (HIS, H)
– Isoleucine (ILE, I) – essentiel
– Leucine (LEU, L) – essentiel
– Lysine (LYS, K) – essentiel
– Methionine (MET, M) – essentiel
– Phénylalanine (PHE, F) – essentiel
– Proline (PRO, P)
– Sérine (SER, S)
– Thréonine (THR, T)
– Tryptophane (TRP, W) – essentiel
– Tyrosine (TYR, Y) – essentiel
– Valine (VAL, V) – essentiel
– Sélénocystéine (SEC, U)

Certains contiennent plus d’atomes que d’autres (10 pour la glycine, 27 pour le tryptophane), certains sont très compacts (la leucine par exemple), d’autres plus étendus comme l’arginine ou encore la lysine. Les études de la composition et de la structure des acides aminés (notamment l’observation des différents groupes fonctionnels chimiques -voir annexe A) ont permis de repérer les acides aminés partageant des propriétés/similarités. Par conséquent, on regroupe souvent les acides aminés en fonction de la nature de leurs chaînes latérales et de ces différentes propriétés physico-chimiques qui en découlent.

Les imbrications des différents groupes montrent un aperçu de l’une des difficultés majeures en biologie moléculaire : expliquer pourquoi une mutation d’un acide aminé par un autre a été maintenue au cours de l’évolution, quels sont les changements induits ou encore peut-on prédire ces changements ? Des études à grande échelle ont montré que les acides aminés apolaires (ou aliphatiques, hydrophobes) sont souvent concentrés à l’intérieur de la protéine ou, lorsqu’ils sont en surface, créent des zones d’accroches/de liaison avec d’autres molécules. À l’inverse, les acides aminés polaires (hydrophiles) se retrouvent en surface, interagissant avec l’eau environnante. D’autres études ont mené à la création de matrices de substitution qui évaluent la probabilité de mutation d’un acide aminé par un autre au sein des protéines.

À titre d’exemple, voici la répartition des différents acides aminés chez l’Homme (figure 1.5), nous calculé à partir du protéome disponible (UP000005640) au sein de la base UniprotKB (soit 69 693 séquences protéiques). Sélénocystéine exceptée, nous remarquons que l’acide aminé le plus fréquent (pratiquement 10% pour le leucine) et le moins fréquent (tryptophane, moins de 2%) est tous deux des acides aminés essentiels. Le niveau d’observation est trop élevé pour établir un quelconque résultat marquant, mais cela permet tout de même de montrer que, de par cette non uniformité des valeurs, la présence d’un acide aminé plutôt qu’un autre n’est pas anodine. Nous allons donc centrer notre étude sur ces vingt acides aminés et leurs propriétés.

Imbriquer des acides aminés et créer des protéines

Les acides aminés s’assemblent en formant des liaisons peptidiques entre les groupes acides carboxyliques COOH et les groupes amines NH+3 . La chaîne polypeptidique assemblée se compose de résidus d’acides aminés (définition A.19) et constitue la protéine (ou une partie de la protéine). L’assemblage des acides aminés pour former la chaîne polypeptidique se fait au sein du ribosome. L’ARN messager issu de la transcription du gène codant pour la chaîne est traduit en chaîne polypeptidique selon le code génétique (figure 1.6).

Groupes fonctionnels de Schmitt et al. (FGS)

En 2002, Schmitt et al. [105] se sont intéressés aux propriétés des acides aminés et plus exactement aux atomes/groupes d’atomes qui portent ces propriétés. Ces groupes fonctionnels (nommés groupes fonctionnels de Schmitt, ou FGS, pour les différencier des groupes fonctionnels chimiques) permettent d’associer une propriété globale de l’acide aminé (sa polarité par exemple) à une portion spécifique de l’AA. S’intéresser aux groupes fonctionnels plutôt qu’à l’acide aminé dans sa globalité va permettre d’être plus précis lorsque l’on va comparer deux structures protéiques. De plus, n’observer une protéine qu’au travers de ses FGS va permettre de s’affranchir des acides aminés. En effet, si un acide aminé porte plusieurs groupes fonctionnels, un groupe fonctionnel est de même présent chez plusieurs acides aminés. Enfin, les FGS permettent d’expliquer les propriétés des acides aminés. Par exemple pourquoi la lysine est-elle à la fois polaire (hydrophile) et hydrophobe ? L’hydrophilie est due au groupement amine (NζH2) de la chaîne latérale qui va avoir tendance à partager son hydrogène tandis que l’hydrophobie se situe au niveau du groupe aliphatique créé par les quatre carbones (Cβ, Cγ , Cδ et Cε) de la chaîne latérale.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
I Notions fondamentales
1 The Protein Universe
1.1 Introduction
1.2 Une brève histoire des protéines
1.3 Les acides aminés, briques du vivant
1.3.1 Acides aminés protéinogènes chez l’Homme
1.3.2 Imbriquer des acides aminés et créer des protéines
1.4 Groupes fonctionnels de Schmitt et al. (FGS)
1.4.1 Répartition des groupes fonctionnels au sein des acides aminés et explications des propriétés physico-chimiques
1.4.2 Résumé du point de vue des groupes fonctionnels (FGS)
1.5 Protéines
1.5.1 Structure primaire (I) : Séquence
1.5.2 Structure secondaire (II)
1.5.3 Structure tertiaire (III)
1.5.4 Structure quaternaire (IV)
1.6 Domaine protéique
1.6.1 Brève analyse de la répartition des domaines structuraux discontinus au sein d’une base de données hiérarchique
1.6.2 Site catalytique d’un domaine protéique
1.6.3 Sites de liaisons
1.7 Modularité et plasticité des protéines
1.7.1 Modularité des protéines multidomaines
1.7.2 Plasticité des protéines
1.7.3 Permutations circulaires
1.7.4 Charnières
1.7.5 Répétitions structurales internes
1.8 Une famille d’enzymes : les glycosides hydrolases, famille 5 (GH5)
1.8.1 Données test
1.9 Discussion, relation séquence, structure, fonction
1.10 Conclusion
II Classification structurale de protéines, comparaison globale de structures
2 État de l’art
2.1 Introduction
2.2 Classification hiérarchique des domaines structuraux
2.2.1 SCOP, Structural Classification Of Proteins
2.2.2 CATH
2.2.3 Enrichir les bases de données hiérarchiques, problème d’identification des familles protéiques
2.3 Estimer la similarité structurale entre deux protéines
2.3.1 Difficulté de la comparaison de deux structures
2.3.2 Scores basés sur les mesures de distances inter-résidus
2.3.3 Scores de similarités basés sur les structures superposées
2.3.4 Scores de similarités basés sur la longueur d’un alignement de séquences
2.3.5 Recouvrement de cartes de contacts et mesures de similarité
2.3.6 Discussion des scores
2.4 Samourai, un outil de mesure de scores à partir d’un alignement
2.5 Résumé du chapitre
3 Résolution du problème d’identification de la super-famille structurale d’un domaine protéique
3.1 Méthode exhaustive ou one to all
3.1.1 Exemple d’application
3.1.2 Analyse critique de la méthode et perspectives
3.2 Identification de superfamilles protéiques par dominance directe
3.2.1 Dominance exacte et dominance directe entre instances
3.2.2 Insertion de la dominance dans le protocole d’identification des superfamilles
3.2.3 Résultats de la méthode sur le jeu de données SHREC’10
3.2.4 Discussion, critique et pistes envisagées
3.3 Identification de superfamilles protéiques par dominance directe et indirecte
3.3.1 Inégalité triangulaire entre domaines structuraux
3.3.2 Caractérisation de la classification, domaines représentants des superfamilles
3.3.3 Dominance indirecte entre instances
3.3.4 Protocole d’identification basé sur les bornes et la recherche des knn voisins
3.3.5 Expérimentations
3.3.6 Résultats
3.4 Discussion, perspectives, travaux en cours
3.4.1 Dominance entre superfamilles
3.4.2 Combinaison des différentes dominances dans un seul protocole
3.4.3 Perspectives : analyse des bêtes noires
3.5 Conclusion
3.6 Résumé du chapitre
III Comparaison fine de structures protéiques et alignements structuraux
Introduction
4 Outils pour l’alignement 3D de deux structures
4.1 Introduction
4.2 Alignements séquentiels basés sur la minimisation des différences de distances intra-atomiques
4.3 Alignements séquentiels basés sur la minimisation des distances inter-atomiques après superposition
4.3.1 TMalign, fonctionnement
4.3.2 Discussion
4.4 Alignements non-séquentiels
4.4.1 MICAN
4.5 Alignements flexibles, séquentiels et non-séquentiels
4.5.1 FlexSnap
4.6 Alignement de surfaces protéiques .
4.7 Détection de répétitions structurales internes aux protéines
4.8 Discussion
4.9 Résumé du chapitre
5 Recherche d’éléments similaires par comparaison d’objets 3D modélisés dans un graphe
5.1 Relation pseudoclique/alignement de points issus d’objets 3D
5.1.1 Alignement par appariements multiples ou alignement k à k
5.1.2 Alignement bijectif ou alignement par paire
5.1.3 Création de l’alignement bijectif à partir de l’alignement par appariements multiples
5.2 Définition principale de Ninjas
5.3 Graphe d’alignement de deux objets 3D
5.3.1 Sommets du graphe d’alignement
5.3.2 Arêtes du graphe d’alignement
5.3.3 Définition du graphe d’alignement
5.4 Graphe implicite du graphe d’alignement ou graphe de graines
5.5 Parcours du graphe d’alignement, recherche de pseudo-cliques avec Ninjas
5.6 Complexité des étapes de Ninjas
5.7 Propriétés géométriques des pseudocliques
5.7.1 Graphe enrichi associé à la pseudoclique
5.8 Discussion
5.9 Résumé du chapitre
Conclusion Générale