The Protein Universe
Une protéine est, selon sa définition la plus basique, une macromolécule, un ensemble d’atomes interagissant, dans un volume limité. Cette définition est bien en deçà de l’étendue des propriétés des protéines, vague et incomplète, mais, en réduisant à l’extrême, une protéine c’est un mélange de C, N, O, H et S (pour ne citer que les atomes les plus courants). Toutes les propriétés des protéines découlent des proportions et de la disposition de ces atomes les uns par rapport aux autres. De petites unités structurales, les acides aminés (sous forme de résidus d’acides aminés), se distinguent au sein des protéines et la vision la plus globalement utilisée de la protéine n’est pas l’ensemble d’atomes, mais l’ensemble ordonné de résidus.
Une brève histoire des protéines
Jeannine Yon-Kahn a consacré un livre [121] aux protéines et à leur histoire dans lequel elle retrace tous les travaux et découvertes qui ont mené à l’état de l’art actuel. Cette section en extrait quelques grandes dates et découvertes pour situer le contexte et l’histoire chargée des protéines en espérant montrer que, malgré le nombre de découvertes et d’avancées, l’étude (particulièrement structurale et fonctionnelle) des protéines est loin d’être un sujet clos.
Les premières ébauches d’études des protéines débutent par une macro-observation de leurs effets avec notamment les travaux de Spallanzani qui, en 1783, s’intéressait aux sucs gastriques. Sucs qui font effet grâce à des protéines nommées enzymes. Indirectement, et sans le savoir, Spallanzani étudiait des actions enzymatiques [121]. L’une des premières enzymes (nommées ferments à l’époque) découvertes fut l’amylase, une enzyme salivaire, qui a pour rôle d’hydrolyser l’amidon de malt d’orge. Autrement dit, cette enzyme lyse l’amidon, un grand polysaccharide, en unités plus petites. Ce processus central dans la fabrication de la bière fut découvert par A. Payen et J.F. Persoz en 1833. Le terme enzyme (définition A.20) fut introduit par Kühne en 1878 alors qu’il étudiait le levain. Le XIXe siècle fut ponctué de découvertes tant sur le principe des enzymes (observation des phénomènes) que sur l’identification des molécules responsables de ces effets et des unités les composant. L’asparagine, l’un des acides aminés (unités des protéines) les plus courants, fut découverte en 1806, et d’autres le furent également tout au long du siècle. En 1931, Vickery et Schmidt publiaient un long article décrivant les acides aminés et synthétisaient tout le travail fait jusqu’alors. Ils ont ainsi posé les bases de domaine de l’étude des acides aminés. Les protéines, sujet central de ce mémoire, furent nommées en 1838 par Berzelius. Leurs compositions et structures sont difficiles à déterminer, car requièrent des étapes d’identification et de purification extrêmement délicates. L’une des premières protéines cristallisées fut l’hémoglobine du ver de terre en 1840 par Hünefeld et la première enzyme, l’uréase par Sumner en 1926.
Si le XIXe siècle a été le siècle des découvertes des grands principes observés à l’échelle macroscopique, une grande partie du début du XXe siècle a été celle de grandes avancées scientifiques en chimie avec notamment les travaux de Pauling sur l’électronégativité (définition A.2) en 1932 ou encore les liaisons chimiques. Travaux qui ont entre autres permis de définir les règles principales relatives à la structure des protéines comme la longueur et les angles des liaisons atomiques. La seconde moitié du XXe siècle a connu des avancées techniques majeures exprimées au travers de la détermination de la structure tridimensionnelle de l’hémoglobine. Les protéines sont des macromolécules difficiles à cristalliser et dont il est encore complexe d’obtenir la structure en trois dimensions, que cela soit avec des techniques de diffraction des rayons X ou par spectroscopie de résonance magnétique nucléaire (RMN). La biologie structurale, l’étude de la structure des protéines est née en 1971 lors d’un symposium intitulé Structure and function of proteins at the three-dimensional level. Par la suite, de plus en plus de structures ont été déterminées via les techniques de diffraction des rayons tandis qu’en parallèle le nombre de séquences protéiques connues explosait grâce à l’avancée des techniques de séquençage de l’ADN .
Avec l’arrivée de ces données et la popularisation des ressources informatiques sont apparus de nombreux outils d’analyse et de mutualisation de ces données séquentielles, structurales et fonctionnelles. La bio-informatique est le domaine qui centralise traite et aide à l’analyse de ces données ainsi que des résultats et découvertes issus des travaux des biologistes. Les progrès de chacun de ces domaines entraînent des améliorations dans les autres à l’image de l’augmentation de la résolution des structures en cristallographie qui permet d’affiner les seuils des outils de comparaison. En conclusion, l’histoire des protéines est riche et continue à s’enrichir, certains aspects de ce mémoire s’appuient sur des découvertes faites il y a deux cents ans pour tendre à accroître la compréhension de « l’univers des protéines ».
Les acides aminés, briques du vivant
Un acide aminé (AA) est un acide carboxylique (molécule contenant un groupement carboxyle) possédant entre autres un groupement amine, d’où son nom. On recense plus de cinq cents acides aminés, cent quarante d’entre eux sont présents chez les protéines, on parle d’acides aminés protéinogènes.
Acides aminés protéinogènes chez l’Homme
Chez l’Homme il existe vingt et un acides aminés protéinogènes que nous présentons en détail ici. Huit d’entre eux sont dits essentiels, c’est-à-dire que le corps humain ne peut les fabriquer.
– Alanine (ALA, A)
– Arginine (ARG, R)
– Asparagine (ASN, N)
– Acide aspartique (ASP, D)
– Cystéine (CYS, C)
– Glutamine (GLN, Q)
– Acide glutamique (GLU, E)
– Glycine (GLY, G)
– Histidine (HIS, H)
– Isoleucine (ILE, I) – essentiel
– Leucine (LEU, L) – essentiel
– Lysine (LYS, K) – essentiel
– Methionine (MET, M) – essentiel
– Phénylalanine (PHE, F) – essentiel
– Proline (PRO, P)
– Sérine (SER, S)
– Thréonine (THR, T)
– Tryptophane (TRP, W) – essentiel
– Tyrosine (TYR, Y) – essentiel
– Valine (VAL, V) – essentiel
– Sélénocystéine (SEC, U) .
Certains contiennent plus d’atomes que d’autres (10 pour la glycine, 27 pour le tryptophane), certains sont très compacts (la leucine par exemple), d’autres plus étendus comme l’arginine ou encore la lysine. Les études de la composition et de la structure des acides aminés (notamment l’observation des différents groupes fonctionnels chimiques -voir annexe A) ont permis de repérer les acides aminés partageant des propriétés/similarités. Par conséquent, on regroupe souvent les acides aminés en fonction de la nature de leurs chaînes latérales et de ces différentes propriétés physico-chimiques qui en découlent.
Les imbrications des différents groupes montrent un aperçu de l’une des difficultés majeures en biologie moléculaire : expliquer pourquoi une mutation d’un acide aminé par un autre a été maintenue au cours de l’évolution, quels sont les changements induits ou encore peut-on prédire ces changements ? Des études à grande échelle ont montré que les acides aminés apolaires (ou aliphatiques, hydrophobes) sont souvent concentrés à l’intérieur de la protéine ou, lorsqu’ils sont en surface, créent des zones d’accroches/de liaison avec d’autres molécules. À l’inverse, les acides aminés polaires (hydrophiles) se retrouvent en surface, interagissant avec l’eau environnante. D’autres études ont mené à la création de matrices de substitution qui évaluent la probabilité de mutation d’un acide aminé par un autre au sein des protéines.
À titre d’exemple, voici la répartition des différents acides aminés chez l’Homme , nous calculé à partir du protéome disponible (UP000005640) au sein de la base UniprotKB (soit 69 693 séquences protéiques). Sélénocystéine exceptée, nous remarquons que l’acide aminé le plus fréquent (pratiquement 10% pour le leucine) et le moins fréquent (tryptophane, moins de 2%) est tous deux des acides aminés essentiels. Le niveau d’observation est trop élevé pour établir un quelconque résultat marquant, mais cela permet tout de même de montrer que, de par cette non-uniformité des valeurs, la présence d’un acide aminé plutôt qu’un autre n’est pas anodine. Nous allons donc centrer notre étude sur ces vingt acides aminés et leurs propriétés.
Imbriquer des acides aminés et créer des protéines
Les acides aminés s’assemblent en formant des liaisons peptidiques entre les groupes acides carboxyliques COOH et les groupes amines NH⁺₃ . La chaîne polypeptidique assemblée se compose de résidus d’acides aminés (définition A.19) et constitue la protéine (ou une partie de la protéine). L’assemblage des acides aminés pour former la chaîne polypeptidique se fait au sein du ribosome. L’ARN messager issu de la transcription du gène codant pour la chaîne est traduit en chaîne polypeptidique selon le code génétique .
|
Table des matières
Introduction Générale
I Notions fondamentales
1 The Protein Universe
1.1 Introduction
1.2 Une brève histoire des protéines
1.3 Les acides aminés, briques du vivant
1.3.1 Acides aminés protéinogènes chez l’Homme
1.3.2 Imbriquer des acides aminés et créer des protéines
1.4 Groupes fonctionnels de Schmitt et al. (FGS)
1.4.1 Répartition des groupes fonctionnels au sein des acides aminés et explications des propriétés physico-chimiques
1.4.2 Résumé du point de vue des groupes fonctionnels (FGS)
1.5 Protéines
1.5.1 Structure primaire (I) : Séquence
1.5.2 Structure secondaire (II)
1.5.3 Structure tertiaire (III)
1.5.4 Structure quaternaire (IV)
1.6 Domaine protéique
1.6.1 Brève analyse de la répartition des domaines structuraux discontinus au sein d’une base de données hiérarchique
1.6.2 Site catalytique d’un domaine protéique
1.6.3 Sites de liaisons
1.7 Modularité et plasticité des protéines
1.7.1 Modularité des protéines multidomaines
1.7.2 Plasticité des protéines
1.7.3 Permutations circulaires
1.7.4 Charnières
1.7.5 Répétitions structurales internes
1.8 Une famille d’enzymes : les glycosides hydrolases, famille 5 (GH5)
1.8.1 Données test
1.9 Discussion, relation séquence, structure, fonction
1.10 Conclusion
II Classification structurale de protéines, comparaison globale de structures
2 État de l’art
2.1 Introduction
2.2 Classification hiérarchique des domaines structuraux
2.2.1 SCOP, Structural Classification Of Proteins
2.2.2 CATH
2.2.3 Enrichir les bases de données hiérarchiques, problème d’identification des familles protéiques
2.3 Estimer la similarité structurale entre deux protéines
2.3.1 Difficulté de la comparaison de deux structures
2.3.2 Scores basés sur les mesures de distances inter-résidus
2.3.3 Scores de similarités basés sur les structures superposées
2.3.4 Scores de similarités basés sur la longueur d’un alignement de séquences
2.3.5 Recouvrement de cartes de contacts et mesures de similarité
2.3.6 Discussion des scores
2.4 Samourai, un outil de mesure de scores à partir d’un alignement
2.5 Résumé du chapitre
3 Résolution du problème d’identification de la super-famille structurale d’un domaine protéique
3.1 Méthode exhaustive ou one to all
3.1.1 Exemple d’application
3.1.2 Analyse critique de la méthode et perspectives
3.2 Identification de superfamilles protéiques par dominance directe
3.2.1 Dominance exacte et dominance directe entre instances
3.2.2 Insertion de la dominance dans le protocole d’identification des superfamilles
3.2.3 Résultats de la méthode sur le jeu de données SHREC’10
3.2.4 Discussion, critique et pistes envisagées
3.3 Identification de superfamilles protéiques par dominance directe et indirecte
3.3.1 Inégalité triangulaire entre domaines structuraux
3.3.2 Caractérisation de la classification, domaines représentants des superfamilles
3.3.3 Dominance indirecte entre instances
3.3.4 Protocole d’identification basé sur les bornes et la recherche des knn voisins
3.3.5 Expérimentations
3.3.6 Résultats
3.4 Discussion, perspectives, travaux en cours
3.4.1 Dominance entre superfamilles
3.4.2 Combinaison des différentes dominances dans un seul protocole
3.4.3 Perspectives : analyse des bêtes noires
3.5 Conclusion
3.6 Résumé du chapitre
III Comparaison fine de structures protéiques et alignements structuraux
Introduction
4 Outils pour l’alignement 3D de deux structures
4.1 Introduction
4.2 Alignements séquentiels basés sur la minimisation des différences de distances intra-atomiques
4.3 Alignements séquentiels basés sur la minimisation des distances inter-atomiques après superposition
4.3.1 TMalign, fonctionnement
4.3.2 Discussion
4.4 Alignements non-séquentiels
4.4.1 MICAN
4.5 Alignements flexibles, séquentiels et non-séquentiels
4.5.1 FlexSnap
4.6 Alignement de surfaces protéiques
4.7 Détection de répétitions structurales internes aux protéines
4.8 Discussion
4.9 Résumé du chapitre
5 Recherche d’éléments similaires par comparaison d’objets 3D modélisés dans un graphe
5.1 Relation pseudoclique/alignement de points issus d’objets 3D
5.1.1 Alignement par appariements multiples ou alignement k à k
5.1.2 Alignement bijectif ou alignement par paire
5.1.3 Création de l’alignement bijectif à partir de l’alignement par appariements multiples
5.2 Définition principale de Ninjas
5.3 Graphe d’alignement de deux objets 3D
5.3.1 Sommets du graphe d’alignement
5.3.2 Arêtes du graphe d’alignement
5.3.3 Définition du graphe d’alignement
5.4 Graphe implicite du graphe d’alignement ou graphe de graines
5.5 Parcours du graphe d’alignement, recherche de pseudo-cliques avec Ninjas
5.6 Complexité des étapes de Ninjas
5.7 Propriétés géométriques des pseudocliques
5.7.1 Graphe enrichi associé à la pseudoclique
5.8 Discussion
5.9 Résumé du chapitre
Conclusion Générale