Les protéines sont un des composés organiques essentiels à la vie. En effet, elles jouent un rôle central dans de nombreux processus biologiques, en accomplissant de très nombreuses fonctions, qui peuvent être aussi variées que la communication inter-cellulaire (e.g. les récepteurs d’hormones), la défense immunitaire (e.g. les immunoglobulines ou “anticorps”), le transport de certains éléments (e.g. l’hémoglobine qui transporte le dioxygène), le contrôle de la mobilité (e.g. l’actine et la myosine), mais aussi la construction et la maintenance des cellules (e.g. le collagène).
Dans beaucoup de projets de recherche, les protéines sont le centre d’intérêt des études effectuées ; cette branche de la recherche est appelée protéomique, par analogie avec le terme génomique.
En protéomique, la spectrométrie de masse est une méthode communément employée dans le but d’identifier des protéines. Dans ce processus, les protéines sont habituellement découpées en fragments, appelés peptides, qui seront ionisés et analysés par l’appareil. Le spectromètre de masse va pouvoir isoler ces peptides et mesurer un ensemble de masses les caractérisant. Ce processus va permettre d’obtenir, pour chaque peptide, un spectre qui se présente sous la forme d’une série de pics. Une fois les spectres obtenus, l’objectif est de les utiliser pour retrouver la composition de chaque peptide sous la forme d’une séquence de petites molécules appelées acides aminés. Ensuite, en recombinant ces peptides, il est généralement possible de retrouver, dans une banque de référence, la protéine analysée, qui est elle-même une longue séquence d’acides aminés.
Notions de biologie et de protéomique
Des gènes aux protéines
La cellule et ses protéines
La cellule est l’unité de base de tout organisme vivant. Elle coordonne une myriade de réactions biochimiques pour produire de l’énergie, synthétiser de nouveaux composants à partir de molécules organiques, répondre aux stimuli de l’environnement, maintenir et réparer les dommages causés à ses structures, grossir et se reproduire. Le matériel génétique, constitué d’un ensemble de gènes appelé génome, commande et programme la structure et le fonctionnement de toute cellule. Les gènes sont localisés dans les chromosomes et liés les uns aux autres de manière linéaire. Pour être utilisée dans la cellule, une partie de l’information génétique doit être décodée et transformée en protéines. En effet, ce sont ces macromolécules qui exécutent les principales fonctions cellulaires et qui assurent la construction et la maintenance de l’architecture de la cellule. Les protéines sont elle-mêmes composées par l’enchaînement de molécules plus simples : les acides aminés. Ceux-ci sont placés suivant un ordre précis qui caractérise la protéine, et que l’on appelle la structure primaire de la protéine.
Au sein de la cellule, les protéines ne se présentent pas sous une forme linéaire : elles se replient pour former une structure tridimensionnelle qui leur permet d’assurer correctement leurs fonctions biochimiques.
Synthèse d’une protéine
La synthèse d’une protéine se fait en deux étapes. Dans un premier temps, la séquence d’Acide DésoxyriboNucléique (ADN) codant le gène associé à la protéine est transcrite en Acide RiboNucléique messager (ARNm). Dans un second temps, l’ARNm est traduit en protéine.
Transcription d’un gène. Les gènes sont des fractions de chromosome qui codent des protéines et ont une nature chimique précise : ils sont composés d’acide désoxyribonucléique, ou ADN. Sur chaque désoxyribose est attachée une base azotée, formant ainsi ce que l’on nomme un nucléotide. Toute molécule d’ADN est constituée d’un enchaînement réalisé à partir de 4 nucléotides différents : A, G, C et T.
Ces gènes, ou séquences d’ADN, vont être transcrits en molécules d’ARNm dans le noyau de la cellule pour les organismes eucaryotes (organisme mono ou multicellulaire dont les cellules comportent un noyau) ou dans le cytoplasme pour les organismes procaryotes (organisme monocellulaire dans lequel la cellule ne comporte pas de noyau). Cette transcription est une sorte de “copie” de l’ADN sous une forme légèrement différente, l’ARNm, qui va servir d’intermédiaire avant l’étape de traduction. Le but de cette copie est de préserver l’ADN (en le conservant dans le noyau pour les organismes eucaryotes), et d’augmenter la vitesse de production des protéines. Dans le cas des eucaryotes, la transcription est complétée immédiatement par l’épissage. Durant cette étape, l’ARNm va être découpé et ligaturé dans le but d’en supprimer certaines régions. Les régions conservées sont appelées exons, tandis que les régions éliminées sont appelées introns. L’ARNm après l’épissage est qualifié d’ARNm mature.
Traduction de l’ARN messager en protéines. L’ARNm est ensuite traduit dans le cytoplasme, dans le but de produire la protéine. Les nucléotides de l’ARNm sont lus par triplets, un triplet étant appelé codon. Un codon va être traduit en un acide aminé ou en une instruction. Parmi les instructions importantes, nous pouvons mentionner le codon dit initiateur, qui va indiquer le début de la traduction, ou les codons dits codon-stop, qui indiquent que la fin de la séquence codant la protéine est atteinte. Un même brin d’ARNm peut servir à coder plusieurs exemplaires d’une même protéine.
Acides aminés et structure des protéines
La protéine est une macromolécule elle-même composée par l’enchaînement de molécules plus simples : les acides aminés. C’est l’enchaînement des quatre nucléotides A, G, C et T dans la séquence d’un gène qui va déterminer l’enchaînement des acides aminés au niveau de la protéine.
Un acide aminé est une molécule organique comprenant un squelette carboné, un groupement amine (-NH2), un groupement carboxylique (-COOH) et une chaîne latérale. Il existe naturellement 20 acides aminés communs à l’ensemble des espèces, tous différentiables par leur chaîne latérale, présentés Table 2.1 (en vert apparaît la chaîne latérale, en bleu le groupement amine et en rouge le groupement carboxylique). Les acides aminés sont désignés par un code international, composé d’une lettre ou de trois lettres, défini par l’IUPAC (International Union of Pure and Applied Chemistry) et l’IUBMB (International Union of Biochemistry and Molecular Biology). L’IUPAC définit aussi le dalton (noté Da) comme l’unité de masse utilisée pour évaluer la masse des protéines et de leurs constituants. Le dalton est équivalent à u, l’unité de masse des atomes unifiée, ce qui correspond à 1/12 de la masse d’un atome ¹²C de carbone, on a donc 1 Da = 1 u ≈ 1.660537781(82) x 10⁻²⁷ kg.
La chaîne latérale d’un acide aminé lui confère des propriétés physico-chimiques particulières. Ces propriétés peuvent être déclinées en 5 catégories :
– acide
– basique
– neutre
– polaire (ou hydrophile)
– apolaire (ou hydrophobe).
Les acides aminés se lient entre eux avec des liaisons covalentes (appelées liens peptidiques) entre un groupement amine et un groupement carboxylique. Une chaîne d’acides aminés peut porter différents noms. Il est généralement admis qu’une chaîne de très petite taille (jusqu’à 5 acides aminés) sera nommée tag, qu’une chaîne comportant moins de 50 acides aminés sera nommée peptide et qu’une chaîne plus grande sera nommée polypeptide. Une protéine est quant à elle composée d’un ou plusieurs polypeptides. Le nombre d’acides aminés d’une protéine est très variable et peut aller de moins de cent jusqu’à plusieurs milliers.
|
Table des matières
1 Introduction
2 Notions de biologie et de protéomique
2.1 Introduction
2.2 Des gènes aux protéines
2.3 Protéomique et spectrométrie de masse
3 L’identification de protéines en MS/MS – État de l’art et problématique
3.1 Introduction
3.2 L’interprétation de novo d’un spectre MS/MS
3.3 L’identification par comparaison avec des protéines connues
3.4 Comparaison des approches de novo et de PFF
3.5 La problématique des modifications sans a priori
4 Packet Spectral Alignment, une nouvelle méthode de comparaison de spectres
4.1 Introduction
4.2 Notations
4.3 Deux notions importantes : Symétrie et Paquets
4.4 Modification des spectres
4.5 Algorithme d’alignement de deux spectres
5 Jeux de données et critères d’évaluation
5.1 Introduction
5.2 Jeux de données
5.3 Critères d’évaluation
6 SIFpackets : mettre PacketSpectralAlignment en situation réelle
6.1 Introduction
6.2 Amélioration de l’identification des peptides : paramétrage et prétraitements
6.3 SIFpackets : une plate-forme complète associant spectres et peptides
6.4 Remontée à la protéine
7 Conclusions et perspectives
7.1 Conclusions
7.2 Perspectives
Bibliographie