Inversion Hiérarchique Bayésienne : le projet « BHI-PRO »
Cette thèse a été partiellement financée par le projet ANR (contrat ANR2010-BLAN-0313). Comme le démontre le résumé du projet ci-dessous, la thèse est en parfaite synergie avec les objectifs du consortium. « Des efforts de recherche importants sont consacrés au niveau mondial pour développer des chaînes d’analyse reposant sur la spectrométrie de masse pour la découverte, la validation et la quantification de biomarqueurs protéiques dans des matrices complexes comme l’urine ou le sang. Cependant, maîtriser la variabilité technologique sur ces chaînes d’analyse est un point critique. Ceci nécessite de développer des techniques de traitement de l’information adaptées pour prendre en compte la complexité du mélange analysé, pour améliorer la fiabilité des mesures et pour faciliter l’usage de ces technologies. Une chaîne d’analyse protéomique est un enchaînement de traitements moléculaires qui peuvent être décrits par une structure de graphe, chaque nœud représentant un niveau d’analyse dans la chaîne. Chaque branche correspond à une décomposition moléculaire définissant un modèle de mélange hiérarchique. Dans ce projet BHIPRO, nous proposons d’introduire des modèles hiérarchiques dédiés pour décrire les chaînes d’analyse MALDI et SRM/MRM3. Les nouveaux algorithmes d’inversion hiérarchique bayésiens reposeront sur deux innovations : l’association protéomique – problèmes inverses d’une part et problèmes inverses – échantillonnage stochastique d’autre part. La stratégie proposée repose sur des approches statistiques bayésiennes et des algorithmes d’échantillonnage stochastique. D’un point de vue biostatistique, la possibilité de tester plusieurs biomarqueurs simultanément fait partie des avantages de la protéomique. Cependant, quand le nombre de variables augmente, la probabilité de trouver des résultats par chance devient statistiquement significative. Nous proposons d’évaluer la puissance statistique des tests de discrimination dans le contexte bayésien étudié. Les principaux livrables seront deux logiciels d’inversion hiérarchique bayésien dédiés respectivement aux acquisitions MALDI et MRM, et un rapport de recommandations biostatistiques. » [9]
A priori non informative
Dans certaines situations, on souhaite ne pas inclure d’information extérieure dans la modélisation probabiliste d’un problème donné. Sir Harold Jeffreys[iii] l’exprime de la manière suivante : « But there is one [problem] at the beginning: how can we assign the prior probability when we know nothing about the value of the parameter [. . . ]? The answer is really clear enough when it is recognized that a probability is merely a number associated with a degree of reasonable confidence and has no purpose except to give it a formular expression. If we have no information relevant to the actual value of a parameter, the probability must be chosen so as to express the fact that we have none. » [19, page 118] On choisit alors une loi de probabilité qui représente l’ignorance et qui ajoute le moins d’information a priori possible, voire même aucune, dans la construction de la loi a posteriori. Ceci peut être traduit par la devise « laissons parler les données » afin que l’inférence ne soit pas perturbée par une information extérieure aux données. Définition h2.2i Soit p(θ) la loi de probabilité a priori du paramètre θ de telle sorte qu’elle formalise une ignorance quant à sa valeur. Une telle distribution a priori est appelée non informative. Où rencontre-t-on des lois a priori non informatives ? Ce type de distributions est souvent utilisé pour modéliser des hyperparamètres. Ces derniers pilotent d’autres lois (ainsi devenues informatives) qui sont importantes dans la modélisation du problème donné (voir 2.2(c) sur la page 28 pour avoir un exemple graphique : la loi de µ est pilotée par les hyperparamètres µ0 et σ0↓5). Malheureusement, on n’a souvent « aucune » ↓6 information sur ces hyperparamètres. C’est la raison pour laquelle les lois non informatives semblent s’imposer. Une question importante est celle de la construction d’une loi non informative [31]. Laplace et Bayes répondraient en disant que la meilleure façon de décrire un manque d’information est d’utiliser une loi uniforme [32]. Ainsi, toute valeur possible pour ce paramètre a la même probabilité et s’oppose à ce que Laplace appela principe de cause suffisante [33]. Cependant, si on n’a pas d’information sur θ, on n’en a pas non plus sur ses transformations. Ainsi, la loi uniforme pour θ ne traduit pas une information équivalente par rapport à la loi uniforme pour 1/θ, exp(θ), log θ, etc. Pour tenir compte de la transformation, soient Ω et Θ deux espaces de probabilité, ω et θ des variables aléatoires et g : Ω → Θ une fonction inversible. Choisissons ensuite une loi a priori µ(ω) sur Ω. Avec la transformation θ = g(ω), on définit également l’a priori π = µ ◦ g sur Θ car pour un A ⊆ Θ, on a π(A) = µ(g−1(A)). La loi uniforme par exemple est invariante par rapport aux permutations à l’intérieur d’un ensemble fini et aux translations affines dans le cas continu. L’étude de l’invariance par rapport aux transformations, dont les premiers travaux ont été entrepris par [19, 34, 35], nous renseigne sur le choix de l’a priori.
Markov-Chain Monte-Carlo
L’ouvrage complet [21] livre beaucoup de détails sur le fonctionnement des méthodes MCMC et des échantillonneurs. Le contenu des sections suivantes y est excellemment bien expliqué. Les méthodes MCMC ([2, Sect. 6.3], [3, Sect. 11.2]) sont un couplage des méthodes Monte Carlo, i.e. résolution d’un problème d’intégration par échantillonnage stochastique, et les Chaînes de Markov d’ordre 1, i.e. des chaînes qui déterminent aléatoirement une valeur en fonction de la précédente uniquement. La stratégie MCMC consiste à définir une chaîne de Markov irréductible et apériodique qui a la distribution cible, donc la loi a posteriori totale, comme distribution stationnaire. Une fois dans un état stationnaire, les échantillons tirés permettent
– d’approcher la loi (par considération de l’histogramme),
– de calculer les estimateurs (par moyennage des échantillons pour l’estimateur EAP, prise de l’échantillon le plus souvent échantillonné pour MAP, . . .),
– de calculer les moments de la loi et ainsi entre autre la variance (par moyennage des échantillons élevés à la puissance souhaitée),
– de marginaliser des paramètres (par projection sur les paramètres d’intérêt uniquement), et cetera.
Afin d’avoir des échantillons, nous avons besoin d’un échantillonneur qui en propose à chaque itération ce qui est le sujet des sous-sections suivantes.
Remarque h2.32i (Temps de chauffe) Les premiers échantillons d’un algorithme[xii] d’échantillonnage stochastique de type MCMC sont fortement influencés par l’initialisation. Il faut donc attendre K0 itérations pour que les échantillons soient distribués sous la loi cible. Ce temps d’attente est appelé temps de chauffe et peut varier d’une application à l’autre. [3, Sect. 11.6] propose par exemple d’omettre la première moitié des échantillons et de les considérer comme échantillons de chauffe. On peut aussi démarrer plusieurs chaînes, initialisées à des valeurs différentes, pour surveiller la convergence. Cette dernière est atteinte quand toutes les chaînes échantillonnent la même loi cible. Ceci peut être décidé par l’étude des variances intra- et inter-chaîne, comme propose [3, Sect. 11.6]. L’échantillonnage peut être long, la convergence lente, les calculs lourds malgré tous les efforts. Pour ne pas devoir lancer plusieurs chaînes à chaque fois que l’on s’apprête à faire une inversion en utilisant les méthodes MCMC, il suffit d’étudier un cas typique et d’en extraire le temps de chauffe. Ce résultat peut être utilisé dans les prochaines utilisations d’un MCMC pour trouver l’itération à laquelle le temps de chauffe se termine.
Réduction de la complexité de l’échantillon
D’après les dernières statistiques de l’HUPO (Human Proteime Organisation) [56], le plasma humain contient jusqu’au moins trois mille protéines. Parmi cette quantité, il n’y a qu’une infime partie que nous cherchons à étudier, cf. Fig. 1.3. Ces quelques protéines cibles ne sont généralement pas majoritaires : rappelons que 97% du contenu du plasma est constitué d’une vingtaine de protéines seulement, les quelques 2980 autres se partageant les trois pour-cent restants ! Mais certaines de ces protéines de basse concentration sont très importantes pour le diagnostic de maladies, comme par exemple l’Amyloid, ou plus précisément son peptide Amyloid bêta, pour la maladie d’Alzheimer [57].
Modèle d’une sortie LC-SRM avec marquage AQUA
Dans le cas des données SRM traitées dans cette thèse, le standard interne est le standard AQUA. Par ce moyen, tous les gains jusqu’à l’étage des peptides peuvent être surveillés facilement puisque les molécules natives et marquées ont les mêmes propriétés physico-chimiques. Cependant, lors de la présentation des données et des expérimentations, il nous est apparu que les traces pour les fragments d’un peptide n’ont pas toujours le même rapport entre amplitudes du natif et du marqué, même si ce phénomène est relativement rare. Le lecteur peut l’observer dans la Fig. 3.11 où le rapport entre les transitions 515.80/545.30 et 519.80/553.30 (bleu plein et vert pointillé respectivement) n’est pas le même que pour les autres couples « natif/marqué ». Pour modéliser cela, nous ajoutons un facteur multiplicatif d’ajustement φ∗l ∈ R+ dans l’expression de la trace marquée
Algorithme
Au niveau du développement algorithmique, nous travaillons actuellement avec MATLAB pour simuler une chaîne MCMC qui propose des échantillons de la loi cible. La tendance de la communauté bayésienne semble cependant aller vers l’utilisation des méthodes bayésiennes variationnelles qui sont réputées plus rapides que les méthodes d’échantillonnage stochastique. Elles fournissent une approximation séparable de la loi a posteriori donnant accès une expression analytique, les estimateurs étant pris ensuite sur cette approximation. Une étude sur son application à la protéomique pourrait être menée pour quantifier l’apport par rapport à l’existant et pour permettre de comparer les résultats, temps de calcul, investissements de développement, et cetera. La validation faite dans ce rapport repose sur des études de petite dimension (petit nombre de protéines, cohortes d’effectifs relativement faibles, cohortes bi- ou triclasses). Les contraintes de la puissance des tests poussent à travailler en grandes dimensions. L’augmentation du nombre de protéines, d’effectifs ou de classes demande des adaptations algorithmiques afin d’être moins gourmand en termes de temps de calcul et de mémoire.
|
Table des matières
1 Introduction
1.1 Protéomique
1.1.1 Protéines
1.1.2 Protéome
1.2 Domaine d’application de la protéomique
1.3 Reconstruction de profils moléculaires : l’équipe « PROTIS »
1.3.1 Sélection de biomarqueurs
1.3.2 Apprentissage des paramètres des classes
1.3.3 Aide au diagnostic par classification
1.4 Inversion Hiérarchique Bayésienne : le projet « BHI-PRO »
1.5 Problématique de la thèse
1.6 Structure du document
2 Raisonnement bayésien
2.1 L’inversion dans un cadre bayésien
2.2 Qu’est-ce que « le bayésien » ?
2.3 Distributions a priori, distributions a posteriori
2.3.1 Conjugaison
2.4 Le dilemme de l’a priori impropre
2.4.1 A priori non informative
2.4.2 A priori impropre
2.4.3 Mises en garde
2.4.4 Bilan
2.5 Estimateurs ponctuels
2.5.1 Maximum A Posteriori
2.5.2 Espérance A Posteriori
2.5.3 Intervalle de crédibilité
2.6 Test d’hypothèse, choix de modèle
2.6.1 Facteur de Bayes
2.6.2 Prise de décision via une fonction de coût
2.6.3 Cas spécial : le coût 0–1
2.7 Bayésien hiérarchique
2.7.1 Dépendances et indépendances conditionnelles
2.7.2 Lois a posteriori conditionnelles du modèle hiérarchique
2.8 Mesures d’erreur
2.8.1 Biais
2.8.2 Variance
2.8.3 Erreur quadratique
2.8.4 Biais, variance, erreur quadratique et l’estimateur parfait
2.8.5 Coefficient de variation
2.8.6 Droite de régression
2.8.7 Erreur de classification
2.8.8 Divergence de Kullback-Leibler
2.9 Outils fréquents pour le calcul bayésien
2.9.1 Markov-Chain Monte-Carlo
2.9.2 Bayésien Variationnel
3 Modélisation physique et probabiliste de la chaîne d’analyse
3.1 Préparation de l’échantillon biologique
3.1.1 Prélèvement des échantillons
3.1.2 Réduction de la complexité de l’échantillon
3.1.3 Capture par affinité
3.1.4 Marquage isotopique
3.1.5 Colonne de digestion
3.1.6 Fractionnement peptidique
3.2 Chromatographie liquide
3.3 Ionisation par électro-nébulisation
3.4 Spectrométrie de masse
3.4.1 « Full-Mass-Spectrometry »
3.4.2 « Selected Reaction Monitoring »
3.5 Modèle hiérarchique de sortie
3.6 Description des données disponibles
3.6.1 Full-MS : données simulées
3.6.2 SRM : données simulées
3.6.3 SRM : données synthétiques
3.6.4 SRM : données du cancer colorectal
3.7 Modélisation probabiliste
3.7.1 Paramètres communs
3.7.2 Paramètres instruments du couplage LC-Full-MS
3.7.3 Paramètres instruments du couplage LC-SRM
3.8 Bilan
4 Inversion-Quantification
4.1 État de l’art
4.1.1 Maximum du pic
4.1.2 Aire sous le pic
4.1.3 Quantification bayésienne par inversion
4.1.4 Conclusion
4.2 Modèle direct et loi jointe
4.2.1 Paramètres à estimer
4.2.2 Loi jointe
4.2.3 Expression de l’estimateur
4.3 Mise en œuvre de l’inversion
4.3.1 Lois a posteriori conditionnelles
4.3.2 Bilan
4.4 Étalonnage par Contrôlé de Qualité
4.5 Résultats
4.5.1 Données simulées
4.5.2 Données synthétiques
4.5.3 Données cliniques
4.6 Conclusion
5 Inversion-Classification
5.1 Classification : apprendre et classer
5.2 État de l’art
5.2.1 Naïve Bayes
5.2.2 Régression logistique
5.2.3 k-means
5.2.4 Fuzzy c-means
5.2.5 Bilan
5.3 Apprendre
5.3.1 Séparation naturelle des classes
5.3.2 Modèle direct et loi jointe
5.3.3 Expression de l’estimateur
5.3.4 Mise en œuvre de l’inversion
5.3.5 Résultats
5.4 Classer
5.4.1 Modèle direct et loi jointe
5.4.2 Expression de l’estimateur
5.4.3 Mise en œuvre de l’inversion
5.4.4 Calcul de l’estimation des paramètres de nuisance
5.4.5 Résultats
5.5 Conclusion
6 Conclusions et perspectives
6.1 Conclusions
6.2 Perspectives
Télécharger le rapport complet