Les protéines dans le vivant
Les êtres vivants sont composés d’une grande variété de molécules, et les familles de molécules ont des fonctions spécifiques au sein d’un organisme. L’ADN (acide désoxyribonucléique) et l’ARN (acide ribonucléique) sont les supports de l’information génétique. Les protéines sont des enchaînements d’acides aminés (nommés résidus lorsqu’ils sont impliqués dans une séquence de protéine) produits selon l’information génétique, et sont les acteurs directs de fonctions très variées au sein du vivant. Le protéome, qui se définit par les protéines présentes dans un échantillon biologique à un instant donné, est donc représentatif des évènements qui s’y déroulent [Omenn 2012]. Un gène donné peut être à l’origine de la production de plusieurs protéines ; le protéome a donc une complexité plus importante que l’information génétique contenue dans l’ADN, appelée le génome ; il est donc difficile de savoir quelles protéines sont présentes dans un échantillon grâce à la seule information génétique. Ainsi, pour obtenir des informations précises sur le fonctionnement d’un échantillon biologique, le protéome doit être étudié directement.
L’un des éléments majeurs qui complexifient le protéome par rapport au génome est que les protéines peuvent porter des modifications chimiques. En effet, les protéines peuvent subir, lors de leur maturation, l’ajout d’une PTM (Post-Translational Modification), c’està-dire que des groupements chimiques peuvent être ajoutés ou supprimés de leurs résidus ; cette modification a un impact sur la fonction de la protéine, qui dépend de la modification et de son emplacement sur la protéine. Parmi de nombreux exemples, nous pouvons citer la phosphorylation, qui joue un rôle primordial dans la signalisation cellulaire, ou encore l’ubiquitination, qui est un signal indiquant que la protéine doit être dégradée (voir [Walsh, Garneau Tsodikova et Gatto 2005] ou encore [Kamath, Vasavada et Srivastava 2011] pour plusieurs exemples de modifications chimiques subies par les protéines).
Les protéines et la protéomique
La synthèse des protéines
Les protéines, molécules indispensables du vivant
Le vivant est composé de molécules qui peuvent être classées en quatre catégories, avec des caractéristiques chimiques qui les différencient et qui expliquent les fonctions qu’elles ont dans un organisme. Les oses (appelés aussi glucides, ou simplement sucres) sont présents dans les parois cellulaires des végétaux, ou encore dans la matrice extracellulaire des animaux. Ils jouent donc un rôle de structure chez les êtres vivants, mais occupent également une place importante dans leur métabolisme énergétique. Les lipides, ou graisses, sont présents dans les membranes cellulaires et servent à stocker l’énergie dans le tissu adipeux. Les acides nucléiques, ADN (acide désoxyribonucléique) et ARN (acide ribonucléique), sont des molécules constituées d’une séquence en nucléotides qui constitue l’information génétique portée par un organisme, et qui détermine en partie la manière dont un être vivant se développe et fonctionne. Les protéines sont des molécules de tailles et formes variées avec des fonctions qui le sont tout autant dans la cellule. Les protéines sont définies par un enchaînement de petites molécules appelées acides aminés.
Les acides aminés
Un acide aminé possède un groupe carboxylique (COOH), un groupe amine (NH2) ainsi qu’un radical, ou chaîne latérale, qui est spécifique à chacun. L’extrémité du groupe carboxylique est appelée extrémité C-terminale, ou C-ter, et l’extrémité du groupe amine est appelée extrémité N-terminale, ou N-ter. Il existe 20 acides aminés dits protéinogènes, c’est-à-dire qui rentrent dans la composition des protéines. Ils sont représentés, en plus de leur nom, par un code à trois lettres et un code à une lettre , dans laquelle la formule chimique et la masse de chacun (sous forme de résidu, voir page 11) sont également indiquées. Les masses des acides aminés, et donc des protéines, sont exprimées en Dalton (Da). Cette unité, largement utilisée en physique et en chimie, correspond au douzième de la masse d’un atome de carbone 12 (¹²C).
Les protéines sont les produits de l’information génétique
Les protéines sont synthétisées selon l’information génétique de la cellule, donc selon son ADN. L’information portée par une portion d’ADN qui code pour une protéine (que l’on appelle un gène) détermine la taille d’une protéine et l’ordre des acides aminés dans celle-ci. La synthèse des protéines à partir d’un gène se fait en plusieurs étapes . D’abord, à partir d’un gène, un brin d’ARN est produit dans un processus appelé transcription. Lors de cette étape, l’ADN double brin, constitué des nucléotides A (adénine), T (thymine), C (cytosine), G (guanine), est transformé en ARN simple brin constitué des nucléotides A, U (uracile), C, G. Ce brin d’ARN est nommé ARN messager (ARNm), car il porte le message de l’ADN qui permet l’expression d’une protéine. En effet, des complexes moléculaires nommés ribosomes lisent le brin d’ARNm et synthétisent une protéine au cours d’un processus appelé traduction. Lors de la synthèse d’une protéine par la cellule, les acides aminés sont ajoutés les uns à la suite des autres selon l’information portée par un brin d’ARN ; trois nucléotides forment un codon, et chaque codon correspond à un acide aminé spécifique selon le code génétique, Il existe également un codon « start » auquel la traduction commence, et des codons « stop » où elle s’arrête. Pour chaque codon du brin d’ARNm, l’acide aminé correspondant – présent dans la cellule – est capturé par le ribosome qui avance sur le brin. Au fur et à mesure de son avancée, chaque acide aminé est ajouté à la protéine en formation.
La liaison chimique entre deux acides aminés, formée par le ribosome, est appelée liaison peptidique . Elle se forme entre l’extrémité C-ter d’un acide aminé et l’extrémité N-ter d’un autre, et implique la perte d’une molécule d’eau dans la réaction. Un acide aminé est donc sous la forme d’un résidu lorsqu’il est impliqué dans une chaîne protéique. Une protéine peut faire une longueur de quelques dizaines à plusieurs dizaines de milliers de résidus. On parle généralement de protéine au-delà d’une cinquantaine de résidus, alors qu’un enchaînement plus court (naturel ou issu du clivage d’une protéine) est qualifié de peptide. Les résidus et leur ordre dans une protéine ont une influence sur sa structure tridimensionnelle, et sa structure a un impact sur sa fonction au sein de la cellule. Les protéines ont ainsi des fonctions très variées au sein d’un organisme vivant.
La diversité des protéines
Les protéines ont des tailles et des compositions en résidus extrêmement variées, et donc des tailles, formes et fonctions qui le sont tout autant. protéine bien connue pour son rôle important dans le métabolisme du sucre, ne fait que 51 résidus pour 5 808 Da (5,8 kDa). Au contraire, la titine, impliquée dans le fonctionnement des muscles, est une protéine de grande taille avec environ 30 000 résidus et 3 000 kDa. La structure tridimensionnelle d’une protéine, en lien avec sa séquence, est reliée directement à sa fonction. Une enzyme prend la forme d’une grande molécule avec une poche qui peut catalyser certaines réactions chimiques indispensables au bon fonctionnement du métabolisme. Un récepteur cellulaire, par ses propriétés chimiques proches de celles de la membrane d’une cellule, peut s’y ancrer et permettre à la cellule de réagir à un événement extérieur capté par le récepteur en entraînant une cascade de réactions chimiques à l’intérieur de celle-ci; c’est le cas du récepteur bêta-adrénergique . La protéine peut prendre la forme en Y d’un anticorps, molécule clé du système immunitaire qui se lie à une molécule de façon spécifique, comme une IgG . Les protéines font partie intégrante des êtres vivants et de leur structure. Chez les mammifères, les muscles sont composés essentiellement de protéines. Chez les bactéries, les peptides sont essentiels au maintien de la paroi cellulaire (voir par exemple [Pazos et Peters 2019]).
|
Table des matières
Introduction
I État de l’art
1 Les protéines
1.1 Les protéines et la protéomique
1.1.1 La synthèse des protéines
1.1.2 Définition de la protéomique et de ses difficultés d’analyse
1.2 Les outils de protéomique
1.2.1 Les méthodes de séparation et d’analyse de protéines
1.2.2 Les bases de données de protéomique
1.3 Conclusion
2 La spectrométrie de masse en protéomique
2.1 Principe et historique de la spectrométrie de masse (MS)
2.1.1 Naissance et principe de la MS
2.1.2 Développement de la MS au cours du XXème siècle
2.1.3 La MS pour l’analyse des protéines
2.2 Protocole général de l’analyse des protéines par MS
2.3 Les ions et les spectres
2.4 Les premières méthodes d’identification des peptides à partir des spectres MS2
2.5 Identification des spectres MS2 par comparaison à une base de données de spectres
2.5.1 Utilisation de spectres théoriques
2.5.2 Utilisation de données MS réelles : les bibliothèques spectrales
2.5.3 La validation des identifications
2.5.4 Les pipelines d’identification des peptides
2.6 La problématique des modifications et les méthodes OMS
2.6.1 Le défi des peptides modifiés
2.6.2 Ajout de modifications dans la base de protéines
2.6.3 Les méthodes OMS
2.7 Conclusion
II Contributions au sujet de thèse
3 Évaluation de méthodes OMS basée sur des spectres théoriques
3.1 Évaluer la qualité des identifications de spectres par une méthode OMS
3.1.1 Utilisation de spectres simulés et théoriques
3.1.2 Configuration du logiciel SpecOMS
3.2 Un réseau de peptides connectés par la MS
3.2.1 Présentation de l’étude
3.2.2 Étude de la similarité des spectres à l’aide d’un réseau des peptides
3.3 Comparaison de deux stratégies de recherche OMS
3.3.1 Présentation de l’étude
3.3.2 Vue d’ensemble des PSM
3.3.3 Nouveaux critères pour évaluer les stratégies OMS
3.3.4 Application des nouveaux critères et de la complexité des peptides
3.4 Conclusion
4 L’identification de modifications multiples
4.1 Motivations et objectifs
4.2 Description de SpecGlob
4.2.1 Principe de l’algorithme
4.2.2 Exemple détaillé d’un alignement réalisé par SpecGlob
4.2.3 Formalisation de SpecGlob et pseudocode
4.2.4 Autres exemples de résultats
4.3 Comparaison de SpecGlob et MODPlus
4.4 Interprétation des résultats de SpecOMS par SpecGlob
4.4.1 Observations générales
4.4.2 Évaluation et reconstruction automatique d’un baitModel
4.4.3 Discussion et améliorations possibles
4.5 Amélioration des interprétations de SpecGlob
4.5.1 Principe
4.5.2 Test à grande échelle
4.6 Conclusion
Conclusions