A travers le projet européen LOCCANDIA et le projet transverse du CEA CAPSI, le département des micro-technologies pour la biologie et la santé (DTBS) développe une chaîne d’analyse pour la détection précoce du cancer. Cette dernière repose sur la quantification de protéines caractéristiques de cette maladie dans le sang. Dans cette optique, le DTBS élabore un laboratoire sur puce dédié à cette analyse. Parallèlement au développement de ces composants miniaturisés, le laboratoire développe des méthodes de traitement numérique adaptées afin d’améliorer la mesure.
De l’ADN à la protéine
La découverte de la structure en double hélice de l’ADN en 1953 par Watson, Crick, Wilkins et Franklin est l’événement fondateur de la biologie moléculaire. Il a sonné le début de la compréhension des causes moléculaires des mécanismes biologiques. Le décryptage du génome a permis de grandes avancées en médecine. Il a notamment permis de détecter les prédispositions des individus aux maladies. Cependant, le génome contient bien moins de gènes que prévu, 25 000 selon les estimations actuelles, bien peu comparé au nombre de fonctions codées. Une explication de ce décalage est que l’ADN n’est que le début d’une chaîne. Chaque gène peut produire plusieurs brins d’ARN messagers différents et chaque ARN messager peut produire plusieurs sortes de protéines. Ces mécanismes permettent au final de produire un grand éventail de protéines différentes (peut-être un million) pour réaliser les différentes fonctions de l’organisme. Par exemple, elles catalysent les réactions chimiques, servent de messager chimique à travers l’organisme ou forment des moteurs moléculaires complexes (pour faire bouger les muscles par exemple). Elles servent même parfois de matériaux de base.
Les protéines remplissent de nombreux rôles dans l’organisme, mais les mécanismes qui permettent d’en générer un grand nombre contrôlent également leur quantité au cours du temps. ADN, ARN messagers et protéines interagissent et répondent aux stimuli de l’environnement. La quantité de chaque protéine est régulée pour s’adapter suivant les situations. Ainsi, on obtient des organismes aussi différents qu’un têtard et une grenouille à partir d’un unique patrimoine génétique. L’étude du génome seul ne suffit donc pas pour comprendre les mécanismes régissant la vie cellulaire. Afin de compléter les informations de la génomique, la protéomique se donne pour but d’étudier la nature et la quantité des protéines d’une cible biologique à un moment donné. Elle s’intéresse de plus à la fonction de chaque protéine et à ses interactions avec les autres molécules et en particulier les relations inter-protéines.
Dans le but de comprendre les causes moléculaires des maladies, les protéines sont donc d’excellents sujets d’étude. Par la suite nous allons nous intéresser essentiellement aux techniques d’analyse quantitative des protéines. Pour des informations générales sur l’ADN, l’ARN, les protéines ou le fonctionnement d’une cellule, le lecteur pourra consulter les ouvrages de biochimie et de biologie cellulaire [1, 2].
Protéomique clinique et profils moléculaires
Dans une perspective médicale, la connaissance des mécanismes moléculaires promet le développement de nouveaux médicaments. Les protéines sont également étudiées afin de servir de biomarqueurs, notamment dans le but d’un diagnostic précoce de maladies comme le cancer. Le cancer est causé par la combinaison de plusieurs altérations de l’ADN d’une cellule entraînant un comportement anormal. Ces dysfonctions produisent une division incontrôlée de la cellule initiatrice et l’altération des fonctions vitales de l’organisme [3]. De façon générale, le pronostic est d’autant meilleur que le cancer est détecté précocement.
Même si elles sont encore en développement, les méthodes de dépistage basées sur la protéomique visent à identifier les protéines produites par ces modifications génétiques dans les fluides biologiques : sang, urine, salive, etc. Des variations dans les niveaux de protéines normales seraient également révélatrices d’un dysfonctionnement. Le but est de déceler les premiers signes des modifications de la cellule avant les premiers symptômes morphologiques. Le biomarqueur idéal est présent en quantité relativement importante, il est très spécifique et n’entraîne ni faux positif, ni faux négatif. Cependant un tel cas se présente rarement et les protéines potentiellement intéressantes sont présentes en concentration extrêmement faible [4-6]. Quelques protéines sont actuellement utilisées en routine clinique en tant que biomarqueur du cancer : AFP, CEA, PSA, CA125, etc., mais aucune n’a les caractéristiques désirées pour constituer un diagnostic suffisamment spécifique à elle seule [7]. C’est pourquoi les recherches s’orientent vers l’étude simultanée d’un panel de protéines (appelé profil moléculaire) associé à la maladie. D’un point de vue analytique, le défi est de taille : un échantillon sanguin standard contient environ 100 mg/ml de protéines, alors que la concentration des protéines d’intérêt est de l’ordre de quelques ng/ml [7], soit 8 ordres de grandeur. De plus, la composition de l’échantillon est également complexe, on dénombre actuellement plusieurs milliers de protéines dans le plasma [8]. Des problèmes similaires apparaissent dans les autres types d’échantillons biologiques.
Instrumentation
Dans cette thèse, nous nous sommes concentrés sur les traitements numériques des données issues d’une chaîne d’analyse basée sur la chromatographie et la spectrométrie de masse. Pour cela, nous avons utilisé les données issues d’expériences antérieures réalisées par les expérimentateurs du CEA. Nous n’avons pas contribué à la définition des protocoles, ni cherché à améliorer la chaîne de mesure utilisée. Si les instruments employés ont été choisis précédemment, nous donnons dans cette section quelques éléments d’information concernant les choix technologiques effectués.
L’analyse des protéines, surtout dans des fluides biologiques, n’a jamais été une chose aisée. Les avancées dans ce domaine sont intimement reliées aux progrès des méthodes séparatives. Les protéines sont d’ailleurs souvent les premières molécules analysées [8].
Parmi les méthodes les plus utilisées en protéomique nous pouvons citer les suivantes.
• Les puces à anticorps et méthodes ELISA. Elles sont basées d’une part sur l’association spécifique de la protéine cible et d’un anticorps spécialement choisi, d’autre part sur une méthode de détection généralement optique reconnaissant cette association. En ce qui concerne la quantification des marqueurs cancéreux, elles sont considérées comme le standard de référence, notamment en raison de leur sensibilité [9]. Cependant, la réussite de cette méthode dépend de l’anticorps utilisé, il faut que la complémentarité protéine-anticorps soit la plus spécifique possible.
• Les méthodes par électrophorèse (SDS-PAGE, gels à deux dimension 2-DE). Pendant plusieurs dizaines d’années, cette méthode a été la technique de séparation analytique la plus utilisée en protéomique. Les gels obtenus étant numérisés, leurs images sont ensuite comparées à une référence. Le principal défaut de cette méthode est son manque de sensibilité.
• Les méthodes par spectrométrie de masse. Elles suscitent un intérêt croissant [10]. Leur principal atout est qu’elles permettent une identification précise des protéines impliquées dans le mélange. Cette faculté d’identification en fait le principal outil de la recherche de biomarqueurs. La spectrométrie de masse a souvent été critiquée pour ne pas être suffisamment quantitative et sensible pour les applications cliniques [7], mais ses performances sont en progression constante.
La principale limite des puces à anticorps concerne la spécificité de la liaison protéine-anticorps dans les milieux complexes comme le sang. Dans ces situations, elles auront tendance à être sujettes aux faux positifs et négatifs. A l’opposée, les méthodes issues de la chimie analytique comme la spectrométrie de masse, viseront à séparer chacun des constituants du mélange. Pour dépasser les problèmes quantitatifs, de nombreuses techniques d’étalonnage utilisant des isotopes lourds ont été développées. Leur sensibilité dépend beaucoup des étapes de préparation de l’échantillon et du type de spectromètre utilisé. La technologie évolue rapidement, les spectromètres de masse MRM par exemple, affichent déjà des performances équivalentes aux méthodes ELISA .
Suivant les travaux précurseurs de Petricoin et al. [11], les méthodes par spectrométrie de masse dépassent le cadre de la recherche de biomarqueurs pour se rapprocher de la protéomique clinique. C’est également le mode de mesure choisi dans notre approche. Bien sûr, nous n’avons fait qu’effleurer la description de la chaîne de mesure et la présentation des approches concurrentes. Tout d’abord, un spectromètre de masse n’accepte en entrée qu’un gaz d’ions. En protéomique, le spectromètre de masse est donc indissociable d’une technologie permettant d’ioniser le mélange à analyser. Ensuite, on lui adjoint généralement une ou plusieurs méthodes de séparation permettant de simplifier le mélange. Le monde de la protéomique par spectrométrie de masse est donc riche en technologies différentes. Le lecteur pourra se référer à [10, 12] pour comparer les avantages et les défauts de chaque technique. Nous nous concentrerons dans nos travaux sur la chaîne de mesure qui associe une colonne de chromatographie liquide, un electrospray et une trappe ionique linéaire. Toutefois, si les technologies concurrentes n’utilisent pas les mêmes principes physiques, elles produisent des données assez similaires. La méthode présentée dans ce document pourra en grande partie se généraliser à d’autres chaînes.
|
Table des matières
1. INTRODUCTION
1.1. DE L’ADN A LA PROTEINE
1.2. PROTEOMIQUE CLINIQUE ET PROFILS MOLECULAIRES
1.3. INSTRUMENTATION
1.4. APPROCHE DE LA THESE
2. PRINCIPES ET MODELISATION
2.1. ETAPES DE PREPARATION
2.2. CHROMATOGRAPHIE LIQUIDE
2.3. ELECTROSPRAY
2.3.1. Historique
2.3.2. Le principe
2.3.3. Modélisation
2.4. SPECTROMETRIE DE MASSE
2.4.1. Analyseurs existants
2.4.2. Les pièges ioniques
2.4.3. Modélisation du LTQ de Thermo Scientific
2.5. DETECTEUR
2.5.1. Multiplicateur d’électrons
2.5.2. Echantillonneur et présentation sous forme d’image
2.6. MODELE RETENU
2.7. MODELISATION DU BRUIT
2.8. CONCLUSION
3. ETAT DE L’ART
3.1. TRAITEMENT DE DONNEES CLASSIQUE EN PROTEOMIQUE
3.1.1. Marquage isotopique
3.1.2. Quantification et intensité des pics
3.1.3. Prétraitements
3.1.4. Conclusion
3.2. ANALYSE FACTORIELLE
3.2.1. Méthodes de prédiction par analyse factorielle
3.2.2. Conclusion
3.3. INFERENCE STATISTIQUE ET APPROCHE BAYESIENNE
3.3.1. Estimation linéaire des concentrations, la matrice instrument étant connue
3.3.2. Estimation conjointe des concentrations et de la matrice instrument
3.3.3. Variation des paramètres instrument et marginalisation
3.3.4. Approche paramétrique
3.3.5. Conclusion
3.4. BILAN
4. INVERSION
4.1. MODELE
4.2. ESTIMATION DES PARAMETRES SECONDAIRES
4.3. ESTIMATION PARAMETRIQUE BAYESIENNE
4.3.1. Loi jointe et calcul des autres lois
4.3.2. Vraisemblance
4.3.3. Loi a priori
4.3.4. Loi a posteriori
4.3.5. Lois conditionnelles a posteriori
4.4. ESTIMATEUR DE LA MOYENNE
4.5. ECHANTILLONNEUR DE GIBBS
4.5.1. Echantillonnage des concentrations et des gains
4.5.2. Echantillonnage de l’inverse puissance du bruit
4.5.3. Echantillonnage des positions chromatographiques
4.6. CONCLUSION
5. EVALUATION DE LA METHODE
5.1. ANALYSE DU CYTOCHROME C DANS DE L’EAU
5.1.1. Protocole des expériences
5.1.2. Traitement de données simulées
5.1.3. Traitement de données réelles
5.1.4. Conclusion
5.2. ANALYSE DES TOXINES DU STAPHYLOCOQUE DORE DANS L’URINE
5.2.1. Protocole des expériences
5.2.2. Prétraitements
5.2.3. Evaluation comparative des performances
5.2.4. Conclusion
6. CONCLUSIONS ET PERSPECTIVES
6.1. CONCLUSIONS
6.2. PERSPECTIVES
7. ANNEXE : CALCULS
8. BIBLIOGRAPHIE PERSONNELLE
8.1. TRAITEMENT DE DONNEES PROTEOMIQUE
8.2. ETALONNAGE GEOMETRIQUE DE SCANNER X
9. BIBLIOGRAPHIE
10. LISTE DES FIGURES