Télécharger le fichier pdf d’un mémoire de fin d’études
Histoire de la protéomique
Le terme « protéomique » est relativement récent puisqu’il est apparu pour la première fois vers 1997 dans le contexte de l’électrophorèse bi-dimensionnelle sur gel [6]. Évidem-ment, ce terme est directement issu du mot protéome, lui-même apparu pour la première fois en 1995 [13]. L’étude du protéome a connu un intérêt croissant avec l’amélioration des technologies usuellement utilisées, telles que l’électrophorèse bi-dimensionnelle [14] et la spectrométrie de masse (« Mass Spectrometry » ou MS) [15]. En effet, bien qu’exis-tantes depuis plusieurs dizaines d’années, ces technologies nécessitaient des améliorations afin de permettre l’analyse non seulement de protéines individuelles, mais aussi de plu-sieurs milliers de protéines simultanément, afin de caractériser un échantillon biologique complexe. Plus précisément, la MS fut développée au début du XXème siècle et est depuis une technologie extrêmement utilisée en chimie analytique. Cependant, son application en biologie pour l’identification des peptides constitutifs des protéines n’a réellement pris son essor que dans les années 1980 [16] avec l’avènement de techniques d’ionisation capables de générer des ions stables en phase gazeuse à partir de molécules thermiquement in-stables, à savoir désorption/ionisation laser assistée par matrice (« Matrix-Assisted Laser Desorption/Ionization » ou MALDI) et l’ionisation par électrospray (« ElectroSpray Ion-ization » ou ESI) [17]. Ce sont concrètement ces améliorations technologiques qui ont permis d’initier le fulgurant développement de la pratique de l’analyse protéomique pour les recherches en biologie [15, 18].
Depuis les protéines jusqu’à la protéomique
Par ailleurs, l’usage de la protéomique en biologie a aussi évolué. Elle a d’abord constitué une approche qualitative d’analyse des échantillons biologiques. Puis, notamment avec l’avènement de la MS, elle est devenue peu à peu quantitative [15, 19]. Il existe désor-mais une multitude de technologies en protéomique, depuis les différentes méthodes de séparation des protéines sur gel jusqu’aux nombreuses approches d’identification et quan-tification des peptides constituant les protéines. Une méthode d’analyse très utilisée et performante est la combinaison de la chromatographie en phase liquide (« Liquid Chro-matography » ou LC) couplée à la spectrométrie de masse (MS), abrégée en LC-MS. Elle permet l’identification et la quantification très précise des analytes et c’est désormais la technologie la plus employée en protéomique. D’autre part la protéomique par LC-MS s’est divisée en deux grandes catégories : la protéomique « top-down » et la protéomique « bottom-up » [20]. La première consiste à analyser directement les protéines intactes. La seconde consiste à d’abord découper les protéines en peptides, puis à séparer ces peptides grâce à la LC, puis d’identifier ces peptides comme substituts des protéines grâce à la MS. Dans la suite de ce document, nous nous focaliserons exclusivement sur la protéomique « bottom-up » utilisant un mode particulier de la spectrométrie de masse, dit « en tan-dem ». La raison est double : non seulement, elle est celle qui est majoritairement utilisée au sein de notre laboratoire, mais il s’agit également de celle dont le traitement de données nécessite le plus de compétences en science des données. L’approche est décrite plus en détails dans le Chapitre 2.
Intérêts et applications de la protéomique
Comme dit précédemment, l’objectif principal de la protéomique est « simplement » d’ana-lyser la composition protéique d’un échantillon biologique, ce qui revient à déterminer quelles protéines sont présentes et en quelles quantités. Ces deux étapes sont classique-ment suivies par une comparaison, qui permet de déterminer les possibles similarités et différences existantes entre les différents échantillons analysés. Compte-tenu de ces ob-jectifs, la lourdeur expérimentale et instrumentale peut sembler excessive, de sorte qu’il est légitime de questionner son efficacité. On pourrait par exemple se contenter d’exploi-ter au maximum les autres « omiques » (génomique et transcriptomique 2 notamment) moins onéreuses, moins complexes, ou plus exhaustives. L’intérêt de la protéomique est cependant réel et il peut être résumé en trois principaux points :
Tout d’abord, la diversité des protéines et de leurs rôles est telle, et si dépendante des conditions physiques et environnementales, qu’il n’existe ainsi pas un protéome, mais plutôt des protéomes. Un protéome d’un même individu ou d’une même cellule peut être différent d’un instant à un autre. Par exemple, chez l’homme l’abondance d’insuline circulante dans le sang évolue durant la journée. Le protéome est donc un phénomène dynamique et changeant, contrairement au génome. Un autre exemple intéressant pour comprendre l’importance d’étudier directement les protéines est celui de la chenille et du papillon. Les deux forment un même individu (à différents instants de vie) avec le même génome, mais le protéome (ainsi que le phénotype) de chacun est complètement différent.
Ensuite, un même gène peut encoder plusieurs protéines aux structures et fonctions bien distinctes. Le niveau d’expression des protéines n’est donc pas un simple reflet de l’expres-sion des gènes [21]. Ainsi, pour un même ensemble de gènes dont l’expression des ARN messagers est plus ou moins homogène au sein d’un tissu biologique, le niveau d’expression des protéines effectivement observées peut être variable.
Enfin, les protéines peuvent subir des modifications chimiques (réalisées le plus souvent par une enzyme), leur permettant de modifier leur structure et leur fonction [22]. Il s’agit de modifications post-traductionnelles (PTMs). Cela peut consister en un clivage, une gly-cosylation, une phosphorylation, une méthylation, une acétylation, etc. (pour plus d’infor-mations sur les PTMs voir [23]). Ces phénomènes physico-chimiques sont des mécanismes essentiels pour la régulation et la grande diversité du protéome. Or les PTMs ne sont généralement pas identifiables directement sur la séquence génique codant pour ces pro-téines, par conséquent étudier directement le protéome permet de mieux comprendre la physiologie cellulaire.
Ainsi, pour comprendre au mieux un organisme, l’étude du protéome semble essentielle car elle permet de mieux appréhender le phénotype, c’est-à-dire l’ensemble des traits bio-logiques observables. Au-delà de l’aspect dynamique, dans un contexte clinique, la carac-térisation des protéines est plus spécifique que les études génomique ou transcriptomique. En effet, le protéome d’un patient est aussi dépendant de son état physiologique et de son contexte environnemental (pollution, alimentation, traitement médicamenteux, etc.), de sorte que l’analyse protéomique permet d’obtenir un aperçu global de la complexité du système biologique étudié, tant au niveau traductionnel que post-traductionnel.
La recherche des biomarqueurs plasmatiques, ses enjeux et ses défis
La recherche des biomarqueurs plasmatiques, ses enjeux et ses défis
Définition et classification des biomarqueurs
Un biomarqueur est une entité biologique que l’on peut mesurer et quantifier de manière à la fois précise et reproductible, et qui reflète les signes cliniques indicateurs de santé ou de maladie [24]. Cette entité peut être une protéine, un métabolite, un gène ou encore un ensemble de mesures physiques. Dans notre contexte de protéomique clinique, un biomar-queur est une protéine, une PTM d’une protéine ou encore un ensemble de protéines (aussi appelée signature biologique ou signature protéique) qui va permettre de décrire préci-sément l’état des patients, et d’accélérer le développement de traitements adaptés. Plus précisément, il est possible de classer les biomarqueurs en fonction de leur rôle [25, 26, 27], tel que résumé dans la Table 1.1. Un exemple de biomarqueur de suivi est l’hémoglobine glyquée dont on mesure la concentration pour surveiller la glycémie chez les personnes atteintes de diabète de type 2.
Les atouts et les contraintes de la stratégie adoptée
La stratégie adoptée pour le projet LIFE se confronte à des contraintes inhérentes à la recherche de biomarqueurs et à la discipline de la protéomique. Mais elle dispose aussi de leurs atouts. Même si les choix stratégiques ne font pas partie de mon travail de thèse, il me semble important de mentionner les avantages et inconvénients, car ils impactent indirectement l’interprétation des résultats statistiques et les conclusions biologiques.
La recherche de biomarqueurs plasmatiques présente plusieurs avantages : Tout d’abord, le plasma possède un rôle central dans le sang et plus globalement dans la physiologie humaine. Les protéines du plasma peuvent être réparties en plusieurs catégories [5] : i) Les protéines ayant un rôle fonctionnel du sang ; ii) celles résultant de fuites tissulaires et iii) celles jouant un rôle de signalisation. Elles peuvent donc constituer un reflet relative-ment complet de l’état physiologique d’un patient (ou plus largement de son phénotype). Ensuite, les protéines plasmatiques étant sécrétées par le foie, elles constituent un reflet relativement complet de l’état physiologique pour les pathologies hépatiques. Elles consti-tuent donc des cibles particulièrement intéressantes pour comprendre la NAFLD. Enfin, la prise de sang constitue à l’heure actuelle le moyen le plus facile (rapide et à moindre coût) et le plus utilisé en médecine pour accéder à des protéines de l’organisme. Par conséquent, rechercher des biomarqueurs parmi les protéines circulant dans le plasma est une stratégie particulièrement répandue, aussi bien pour le diagnostic que le pronostic de nombreuses pathologies [29]. Néanmoins, il est possible que les protéines les plus intéressantes soient les plus faiblement exprimées et donc les plus difficilement détectables. De plus, il est tout à fait envisageable que pour une pathologie donnée, les protéines caractéristiques ne soient jamais sécrétées dans le sang et que donc les protéines plasmatiques ne soient pas les plus pertinentes pour comprendre la maladie.
L’utilisation de la protéomique pour la recherche de biomarqueurs présente elle aussi plu-sieurs avantages : Tout d’abord, la MS permet de mesurer très précisément la masse des peptides issus des protéines de l’échantillon étudié. C’est donc une méthode très spéci-fique et qui permet d’être extrêmement précis dans l’identification des protéines présentes dans un échantillon. Ensuite, la MS est une technologie à « haut-débit » car elle permet d’analyser une grande quantité d’échantillons en relativement peu de temps par rapport à d’autres techniques, et cela nous permet d’espérer une recherche préliminaire à « large spectre ». Cependant, le choix d’utiliser la protéomique présente plusieurs contraintes. La MS possède une certaine capacité à détecter des protéines plus ou moins abondantes. On parle de profondeur et de couverture du protéome. Or le plasma est extrêmement complexe, et son analyse précise et complète reste un défi [30]. En effet il possède une plage extrêmement large de concentrations des protéines [5, 31, 32], certaines protéines sont très abondantes, comme l’albumine et les immunoglobulines, et d’autres protéines sont présentes en très faibles quantités ou bien exprimées uniquement en cas de besoin, telles que les cytokines et les hormones. Un des moyens de réduire cette complexité est de réaliser une déplétion des protéines les plus abondantes, c’est-à-dire que l’on va les retirer de l’échantillon à analyser. La concentration de quelques protéines connues du plasma humain est représentée dans la Figure 1.3 avec les protéines ordonnées de la plus abon-dante (à gauche) à la moins abondante (à droite) et est inspirée du travail de Geyer et al. [5]. Plus un appareil est capable de détecter des protéines à très faible concentration, plus l’analyse est profonde et la couverture, complètes. A l’heure actuelle, la couverture et la profondeur d’analyse peuvent être limitantes et les améliorer reste un objectif des développeurs d’instruments. De plus, les protéines très abondantes ont tendance à « mas-quer » les protéines faiblement abondantes (qui pourraient être intéressantes, mais qui ne seront alors malheureusement pas détectées). Enfin, la capacité à trouver des protéines qui seront effectivement cliniquement valides en aval de toute la recherche exploratoire constitue une limite à part entière de l’approche protéomique.
Finalement, ce projet (consistant à rechercher grâce à la protéomique des biomarqueurs de la NAFLD dans le plasma sanguin) porte une part de risque, comme de réelles op-portunités, dont la gestion ne relève pas de mon rôle de doctorante. Néanmoins, il m’a semblé important de les identifier car ce projet de recherche bénéficie directement de tout ce que j’ai développé durant ma thèse. Notamment, même si j’ai conscience que l’approche méthodologique que j’ai développée ne pourra pas entièrement compenser les risques liés aux choix stratégiques ou aux limites instrumentales, ils ont vocation à les limiter et ainsi avoir au final une influence sur le projet global (concrètement, la qualité des biomarqueurs qui seront finalement proposés, une fois le projet complètement terminé).
Production des données de protéomique quantitative
L’objectif premier de ce chapitre est de présenter l’approche protéomique qui est utilisée au sein de notre équipe, pour permettre l’identification et la quantification des protéines présentes dans un échantillon biologique. Il s’agit d’une approche ba-sée sur l’utilisation couplée d’une chromatographie liquide (LC), d’un spectromètre de masse en mode tandem (MS/MS) et d’un ensemble d’outils bio-informatiques. Le second objectif est d’apporter une meilleure compréhension des contraintes tech-niques de la protéomique présentés dans le chapitre précédent. Cela permettra no-tamment au lecteur de mieux appréhender le type de données pour lequel nous avons réalisé les développements méthodologiques décrits dans la suite du manus-crit.
Présentation de l’approche bottom-up
Principe général
La protéomique basée sur l’utilisation de la MS peut être subdivisée en deux stratégies bien distinctes : la stratégie top-down et la stratégie bottom-up [20]. La stratégie top-down consiste à analyser les protéines entières, sans digestion préalable, directement dans le spectromètre de masse. Cette méthode est intéressante lorsque l’on souhaite par exemple étudier les modifications post-traductionnelles de certaines protéines, car les traitements préalables sont minimisés, contrairement à la seconde stratégie. Cependant, elle devient extrêmement difficile à mettre en œuvre lorsqu’il s’agit d’explorer le protéome d’échan-tillons biologiques complexes [33]. La stratégie bottom-up consiste à identifier et quantifier les protéines à partir des peptides qui les constituent. Pour ce faire, les protéines sont digérées in vitro. Les peptides ainsi obtenus sont ensuite séparés par chromatographie liquide (LC), puis analysés par spectrométrie de masse en tandem (MS/MS), comme cela est illustré sur la Figure 2.1, puis détaillé dans la Section 2.2. Enfin, les peptides sont identifiés et quantifiés par des outils bio-informatiques (cf. Section 2.3), puis les protéines sont inférées à partir de ces peptides caractérisés. L’approche bottom-up fournit donc une caractérisation indirecte des protéines. Elle est particulièrement adaptée lorsque l’on sou-haite explorer le plus largement possible les protéines présentes dans l’échantillon étudié (protéomique de découverte), car elle ne nécessite pas de connaître la composition en protéines de l’échantillon. Il s’agit également d’une approche plus économique, avec des protocoles de préparation plus simples à mettre en place que la stratégie top-down [20]. L’approche bottom-up est principalement utilisée au laboratoire, et c’est celle mise en uvre pour l’analyse de la cohorte NAFLD, de sorte que seule celle-ci est détaillée dans les sections suivantes.
Préparation des échantillons
La première étape d’une analyse protéomique bottom-up est la préparation des échan-tillons, afin qu’ils soient analysables par spectrométrie de masse (Figure 2.1). Cela consiste d’abord en une extraction des protéines contenues dans l’échantillon biologique étudié, puis en une séparation des protéines et enfin en la digestion de celles-ci afin d’obtenir des peptides. La digestion peut être subdivisée en plusieurs sous-étapes : i) la dénaturation, qui consiste à éliminer les repliements des protéines afin de faciliter l’accès à la séquence en acides aminés ; ii) la réduction qui permet la rupture des ponts disulfures ; iii) l’étape d’alkylation empêche la reformation des ponts disulfures grâce à des agents alkylants qui se fixent sur les résidus souffrés ; et enfin iv) la digestion qui est généralement réalisée avec de la trypsine, en raison de son fonctionnement bien particulier : elle coupe les séquences d’AA pratiquement uniquement après deux AA particuliers (la lysine, symbolisée K, ou l’arginine, symbolisée R). L’avantage de ce découpage spécifique est lié à la fréquence d’apparition et la distribution de ces deux AA. D’une part, la trypsine sectionne la sé-quence d’une protéine relativement souvent et de manière assez régulière. D’autre part, elle génère des peptides ayant une longueur idéale pour être « observables » avec la MS, car ni trop courts ni trop longs. Le second avantage de la digestion par la trypsine est que K et R sont les seuls AA chargés positivement, ce qui facilite l’étape d’ionisation (voir la section 2.2.2) car il suffit d’avoir une solution à pH acide.
L’étape de chimie analytique
La Chromatographie en phase Liquide
La LC permet de séparer les peptides en fonction de leurs propriétés physico-chimiques, notamment leur hydrophobicité. Il existe de nombreuses façons de réaliser une chroma-tographie en phase liquide, mais nous nous concentrons uniquement sur la méthodologie employée dans notre équipe.
Le principe général de la LC consiste à faire passer une phase mobile à l’état liquide au travers d’une colonne chromatographique contenant une phase stationnaire, solide et po-reuse. La phase mobile est constituée de deux solutions : une première solution A (mélange d’eau et d’acide formique) et une seconde nommée B (mélange d’acétonitrile (CH3CN) et d’acide formique). La phase stationnaire correspond à la colonne et est généralement constituée de chaînes carbonées qui vont influer sur l’interaction hydrophobe avec les peptides. Plus les chaînes carbonées sont longues, plus l’interaction sera forte [34]. On injecte d’abord de la solution A avec l’échantillon contenant les peptides grâce à l’injecteur afin que les peptides interagissent avec la colonne et se fixent dessus. Puis une fois les peptides fixés dans la colonne, la solution B est progressivement mélangée à la solution A, aug-mentant ainsi la proportion de solvant organique dans la phase mobile (Figure 2.2). Ce changement progressif de solvant est appelé gradient. Ainsi au cours du temps d’élution, plus la solution B est présente, et plus les peptides hydrophobes vont pouvoir se détacher de la colonne et en sortir pour être analysés par la MS en aval. Ce sont donc les peptides les plus hydrophiles qui sont élués en premier, jusqu’aux plus hydrophobes qui seront élués en dernier.
Originellement, la phase mobile passait au travers de la phase solide par gravité, mais un système à haute pression, nommé « High Performance Liquid Chromatography » (HPLC) fut développé afin de gagner en débit et en précision de séparation. La technologie Nano-LC-MS utilise un capillaire d’environ 50-100 micromètres pour l’injection dans le spectro-mètre de masse, ce qui permet d’utiliser une quantité moindre d’échantillon pour obtenir la même précision de mesure.
La spectrométrie de masse
Principe
La spectrométrie de masse consiste à identifier des molécules en mesurant précisément leur masse et en décrivant leur structure chimique. Plus formellement, le principe consiste en une séparation en phase gazeuse de molécules chargées (les ions) en fonction du rapport masse/charge (m=z). On obtient alors des spectres présentant des pics d’intensité des différents fragments détectés en fonction de leur rapport m=z, qui sont ensuite analysés pour identifier les peptides qui ont été mesurés.
Structure d’un spectromètre de masse
Un spectromètre de masse peut être schématiquement décomposé en trois parties : une source d’ionisation, un analyseur, et un détecteur (Figure 2.3). L’étape d’ionisation des peptides est nécessaire car les spectromètres utilisent des champs électromagnétiques pour séparer les fragments et mesurer précisément leur masse. Il existe une multitude de tech-nologies pour chaque partie du spectromètre [35], dont les plus utilisées aujourd’hui sont résumées dans la Figure 2.3. Mais nous ne détaillons que celles employées par notre équipe.
L’étape d’ionisation consiste en l’ajout de protons (H+) aux peptides à mesurer. Il existe plusieurs technologies permettant de réaliser cette étape, notamment l’ESI [17] et le MALDI [36]. Celle qui est utilisée dans notre laboratoire est l’ESI. Avec cette méthode, les peptides (ou plus généralement les analytes) sont amenés dans la source d’ionisation par l’intermédiaire d’un fluide à pression atmosphérique. Ce liquide est ensuite pulvérisé à partir d’un capillaire métallique dans un champ électromagnétique puissant, créant ainsi un nuage de gouttelettes chargées qui se retrouve orienté vers l’entrée de l’analyseur du spectromètre (Figure 2.4).
Une fois les fragments ionisés (chargés), ils sont transférés dans l’analyseur. Celui-ci va alors séparer les composés en fonction de leur rapport m=z. Notre laboratoire utilise un Orbitrap [37]. L’analyseur est l’élément clé d’un spectromètre de masse, puisqu’il mesure le rapport m=z. Il détermine les performances en termes de précision, de résolution et de sensibilité de l’instrument. L’Orbitrap s’avère être un analyseur particulièrement perfor-mant [38]. Il est composé d’une électrode externe et d’une électrode centrale. Lorsque les ions entrent dans l’Orbitrap, ils sont capturés par le champ électrostatique et vont osciller le long de l’axe de l’électrode centrale (ils sont alors en orbite autour de l’électrode, d’où le nom d’Orbitrap) avec une fréquence qui leur est propre car elle dépend du m=z de chaque ion. Le détecteur va enregistrer ces oscillations et les transmettre à un calculateur qui va générer un spectre de masse m=z grâce à une transformation de Fourier. Pour plus d’in-formations sur cette technologie, se référer aux travaux de Hu et al. (2005) [37]. Le spectre de masse obtenu est un diagramme composé du rapport m=z sur l’axe des abscisses, et l’intensité du signal sur l’axe des ordonnées (voir l’exemple sur la Figure 2.5).
La LC combinée à la spectrométrie de masse en tandem
Principe général
L’approche dans son ensemble consiste à combiner HPLC et spectrométrie de masse. Le couplage consiste donc à séparer dans un premier temps les peptides obtenus par digestion enzymatique des protéines puis à les ioniser et les injecter progressivement dans le spectromètre. Cependant, le spectromètre est utilisé en mode tandem. Cela signifie que les peptides de l’échantillon sont analysés une première fois pour générer ce que l’on appelle un spectre MS1. Ensuite, les peptides détectés à l’issue de l’étape de MS1 sont fragmentés en sous-unités ionisées. Enfin, ces ions sont eux aussi analysés pour produire ce que l’on appelle des spectres MS2 (ou des spectres de fragmentation, ou des spectres MS/MS) qui permettent l’identification des peptides. La fragmentation du peptide ionisé consiste à briser les liaisons amides entre les acides aminés ionisés. Les ions produits ne peuvent être détectés que s’ils possèdent au moins une charge. Si la charge est portée au niveau de la partie N-terminale de l’AA, l’ion est classé en catégorie a, b ou c. Si la charge est portée sur la partie C-terminale de l’AA, l’ion est classé en x, y ou z. Chaque fragmentation donne naissance à deux espèces, une neutre et une autre chargée dans le cas d’un précurseur mono-chargé, et seule la forme chargée est détectée par le spectromètre de masse. La plupart des modes de fragmentation utilisés en protéomique produisent essentiellement des ions b et y, telles que les méthodes de dissociation induite par collision (« Collision Induced Dissociation » ou CID) et de dissociation par collision à haute énergie (« High Collision Dissociation » ou HCD). D’autres méthodes comme la dissociation par transfert d’électrons (« Electron Transfert Dissociation » ou ETD), produisent des ions c et z. La Figure 2.6 présente un peptide constitué de 4 AA (adapté des travaux de Zhang et al. (2010) [38]) où le peptide est fragmenté en deux ions produits b2 et y2.
Zhang et al. (2010) [38].
Pour donner un ordre de grandeur de production de données, un spectromètre de masse moderne peut facilement produire 35 000 spectres par heure de fonctionnement et est souvent utilisé 24 heures sur 24. Le couplage LC-MS/MS permet d’analyser plusieurs milliers de peptides et de protéines avec des gradients de seulement quelques heures [39].
Production de spectres : les différents modes d’acquisition
Il existe différents modes d’acquisition des données pour produire des spectres MS2 à partir des peptides détectés lors de l’analyse MS1. Nous décrivons ici les deux approches utilisées couramment au laboratoire et qui ont été employées pour produire les données de la cohorte NAFLD. La principale différence entre les deux est la manière dont sont sélectionnés les peptides qui seront fragmentés pour obtenir l’analyse MS2.
La première approche est l’acquisition dépendante des données (« Data Dependent Acqui-sition » ou DDA). La première étape permet de générer les spectres de masse (appelés MS1) des peptides dans une gamme de masses définie par l’analyticien (généralement, entre 400 et 1600 m=z). Sur ces spectres, il est possible d’identifier automatiquement les valeurs de m=z pour lesquelles les intensités (la hauteur des pics) sont les plus élevées, et d’isoler les peptides ionisés correspondant. Par exemple, ne seront sélectionnés que les 10 à 20 peptides les plus intenses d’un spectre MS1. Ces peptides sélectionnés sont appelés ions précurseurs (voir Figure 2.7). Ensuite, ces ions sont fragmentés (en ions produits) pour générer des spectres MS2. Ce spectre MS2 permet de reconstituer l’ordre de la séquence du peptide analysé (Figure 2.8).
Un exemple très simplifié du principe DDA est présenté dans la Figure 2.9 : Une analyse MS détecte la présence de 6 peptides (A, B, C, D, E et F). L’appareil sélectionne les pics les plus intenses pour la poursuite de l’analyse. Admettons que seulement les trois peptides les plus intenses sont sélectionnés (A, B et C). Il y aura une analyse MS/MS exclusivement pour les ions issus de la fragmentation du peptide A, puis une autre analyse MS/MS pour B et une analyse MS/MS pour C. Une fois ces trois analyses réalisées, une nouvelle analyse MS1 est faite. L’intervalle de temps nécessaire pour chaque analyse se situe généralement entre 0,1 et 8 secondes. A titre d’exemple, les appareils utilisés par notre équipe ont une vitesse d’acquisition de 18 Hz, c’est-à-dire que 18 spectres MS2 sont générés par seconde, d’où le fait que seulement les 10 à 20 pics les plus intenses sont sélectionnés.
|
Table des matières
Remerciements
Résumé
Abstract
Avant-propos
Liste des abréviations
Table des figures
Liste des tableaux
1 Introduction
1.1 Contexte
1.1.1 Résumé des objectifs de thèse
1.1.2 Objectif du projet support : étude de la cohorte NAFLD
1.2 Depuis les protéines jusqu’à la protéomique
1.2.1 Les protéines comme briques du vivant
1.2.2 Histoire de la protéomique
1.2.3 Intérêts et applications de la protéomique
1.3 La recherche des biomarqueurs plasmatiques, ses enjeux et ses défis
1.3.1 Définition et classification des biomarqueurs
1.3.2 Les atouts et les contraintes de la stratégie adoptée
2 Production des données de protéomique quantitative
2.1 Présentation de l’approche bottom-up
2.1.1 Principe général
2.1.2 Préparation des échantillons
2.2 L’étape de chimie analytique
2.2.1 La Chromatographie en phase Liquide
2.2.2 La spectrométrie de masse
2.2.2.1 Principe
2.2.2.2 Structure d’un spectromètre de masse
2.2.3 La LC combinée à la spectrométrie de masse en tandem
2.2.3.1 Principe général
2.2.3.2 Production de spectres : les différents modes d’acquisition
2.3 L’analyse bioinformatique
2.3.1 L’identification des peptides
2.3.2 La quantification label-free des peptides
2.3.3 Passage des peptides aux protéines
3 L’analyse statistique en protéomique quantitative
3.1 Analyse de données de protéomique
3.1.1 L’absence de consensus en méthodologie statistique
3.1.2 Transposition de méthodes développées pour d’autres technologies à haut-débit
3.1.3 Les défis du traitement des données avant l’analyse statistique
3.1.4 La stratégie d’analyse adoptée à EDyP
3.2 Hypothèses et test statistique
3.2.1 Définitions et notation des hypothèses
3.2.2 Les risques et probabilités d’erreur de décision
3.2.3 La puissance statistique
3.2.4 La p-valeur
3.3 Deux principaux tests statistiques utilisés en protéomique
3.3.1 Le t-test : étude d’un seul facteur à 2 conditions
3.3.2 L’Analyse de la Variance : étude d’un seul facteur à k ≥ 2 conditions
3.4 Les tests multiples en analyse à haut débit
3.4.1 Définitions
3.4.2 Les tests post hoc
3.4.3 Le contrôle du taux de fausses découvertes
4 Problématiques et positionnement de mon travail
4.1 Intégration des spécificités du projet support
4.2 Résumé des contributions
4.2.1 Réduire l’influence de la variabilité biologique en pré-analytique et en post-analytique
4.2.2 Améliorer l’analyse différentielle
4.2.3 Application de l’approche à la cohorte NAFLD et identifier des biomarqueurs potentiels
5 Première contribution : Solutions pour la gestion des effets de lot dans les grandes cohortes
5.1 Introduction aux effets de lots
5.1.1 Origine et description du problème
5.1.2 État de l’art
5.1.3 Motivations pour le projet NAFLD et solutions adoptées
5.2 Solution en amont de l’analyse à haut-débit : création de Well Plate Maker
5.2.1 Une solution algorithmique : le retour sur trace
5.2.2 Description du programme développé
5.2.3 Comparaison avec des logiciels similaires
5.3 Solution en aval de l’analyse protéomique
5.3.1 Le choix LOESS
5.3.2 Le choix vsn
5.3.3 Discussion
6 Deuxième contribution : Contrôle du FDR en cas de comparaisons multiples
6.1 Problématique
6.2 Analyse des différents rôles des MTC
6.2.1 Les rôles du contrôle du FDR
6.2.2 Le rôle des tests post hoc
6.3 Les différents scénarios possibles
6.3.1 Scénarios impliquant des ANOVA
6.3.1.1 ANOVA, contrôle du FDR et tests post hoc
6.3.1.2 ANOVA, tests post hoc et multiples contrôles du FDR
6.3.1.3 ANOVA, contrôle du FDR et clustering de profils d’abondance
6.3.2 Scénarios reposant sur des contrastes
6.3.2.1 Méthode Globale
6.3.2.2 Méthode hiérarchique
6.3.2.3 Méthode imbriquée
6.4 Implémentation
6.5 Conclusion
7 Troisième contribution : Application à la cohorte NAFLD
7.1 État de l’art de la pathologie
7.1.1 Une maladie évolutive, complexe et mondiale
7.1.2 Les différentes méthodes de diagnostic
7.2 Plan d’expérience et analyse protéomique
7.2.1 Description de la cohorte étudiée
7.2.2 Étude statistique descriptive et exploratoire
7.2.3 Stratégie de préparation des échantillons pour l’analyse MS
7.3 Analyse statistique des données DDA
7.3.1 Pré-traitement des données de quantification
7.3.2 Analyse statistique du facteur de fibrose des données DDA
7.3.3 Limites de l’étude
7.4 Analyses complémentaires
8 Conclusion et perspectives
Bibliographie
Télécharger le rapport complet