Application d’algorithmes existants à la spectrométrie de masse
Spectrométrie de masse et métabolomique
La spectrométrie de masse est une méthode de mesure bien établie et connue en biologie. Le principe de base de cette technologie est qu’un échantillon est exposé à une source d’ionisation afin d’en analyser les molécules composantes. La première étape de l’acquisition du spectre de masse d’un échantillon donné est l’ionisation. Les sources varient selon l’application, mais le principe reste le même. Les molécules de l’échantillon sont exposées à cette source, qui va ioniser les molécules entières et parfois causer la fragmentation des molécules et permettre l’ionisation de ses fragments. Les ions ainsi formés sont ensuite transportés par un champ électrique. On pratique ensuite une sélection des ions. Ce procédé est généralement fait par des quadripôles électrostatiques qui vont éjecter tous les ions circulant à travers le champ magnétique qui ont un ratio de masse sur charge (m/z) inférieur ou supérieur à la fenêtre de masses désirée. Le quadripôle va aussi sélectionner si l’on mesure seulement les ions positivement chargés ou négativement chargés. Les ions restants sont ensuite acheminés vers le détecteur. Le détecteur enregistre ensuite les ions qui frappent sa surface. Cela permet de mesurer le ratio de masse sur charge ainsi que le nombre d’ions frappant le détecteur. Un schéma du fonctionnement interne de base d’un spectromètre de masse est présenté à la figure 0.1.
La spectrométrie de masse est utilisée dans une grande variété d’applications dans les domaines scien- tifiques. Entre autres, on retrouve des applications telles que la datation au carbone 14, le contrôle de qualité de l’eau en vérifiant la présence ou l’absence de molécules contaminantes et plusieurs applications en biologie. Ces applications biologiques peuvent être cliniques, telles que la détection de drogue dans un échantillon sanguin ou d’urine ou bien à détecter des biomarqueurs spécifiques. D’autres applications sont utilisées en recherche. Parmi ses applications, notons plusieurs utilisations en protéomique qui permettent de vérifier l’interaction entre une protéine et d’autres molécules, l’identification de protéines par la masse de leurs fragments ou bien le suivi de réactions enzymatiques. Dans le projet décrit ici, l’instrument utilisé pour faire l’acquisition des spectres de masse est le Synapt
G2 Si de Waters Corporation. Le mode d’acquisition pour les expériences décrites dans ce mémoire était en mode temps de vol (Time of Flight, TOF). Ce mode signifie que le ratio masse sur charge des ions est calculé à partir de leur temps de vol dans l’instrument. Ce calcul est fait selon le principe que le champ électrique dans l’instrument est constant et le même pour tous les ions. Ainsi, plus une molécule est légère, plus elle va voyager rapidement à travers le champ. Aussi, plus une molécule est chargée, plus elle va voyager rapidement. Ainsi, le ratio de masse sur charge est proportionnel au temps que l’ion prend pour parcourir la distance connue de l’instrument. En général, la spectrométrie de masse vise à identifier la présence, et si possible la quantité, d’un métabolite connu en analysant l’intensité d’un pic qui lui est associé dans le spectre. La technique du MS/MS consiste à sélectionner un delta masse, en uma ou en Dalton, autour d’un pic associé au métabolite d’intérêt, et ensuite de fragmenter une seconde fois cette molécule afin de pouvoir observer les différents fragments de la molécule d’intérêt. Ces fragments se nomment les ions filles. Cette technique aide grandement à identifier dont on connait le pic associé dans le spectre de masse.
Au contraire, l’approche utilisée dans ce projet est beaucoup plus large bande, c’est-à-dire que notre objectif ne sera pas d’identifier la présence ou l’absence d’une molécule particulière, mais de chercher des signatures dans le spectre associé à un échantillon prélevé chez un individu. Ces signatures permettraient d’identifier la présence ou non d’une pathologie ou de toute autre forme de condition. La notion de résolution d’un spectromètre de masse entre également en compte. L’instrument utilisé au cours des travaux présentés dans ce mémoire est un instrument à haute résolution, et a la possibilité d’être utilisé en mode sensitivity, resolution et high resolution. Une résolution signifie que le spectromètre peut détecter un pic relié à une molécule plus précisément sur l’axe m=z. Cela peut être évalué par la mesure de Full Width at Half Maximum (FWHM), qui consiste à évaluer la largeur d’un pic à la moitié de son intensité maximale. On recherche donc une valeur maximale de résolution (donc un FWHM élevé) afin de résoudre les pics le plus précisément possible. Par contre, en spectrométrie de masse, il faut considérer que plus la résolution d’un spectromètre est élevée, plus sa sensibilité, c’est-à-dire sa capacité à résoudre des pics de faible intensité, sera faible. Les travaux présentés ici traitent principalement d’échantillons de produits sanguins. Le sang est formé principalement de deux parties : soit la partie cellulaire, contenant les plaquettes, les globules rouges (érythrocytes) et les globules blancs ; et le plasma, qui est la partie liquide du sang. Le plasma forme environ 50% du sang par volume. La séparation du sang en plasma et en contenu cellulaire se fait avec une simple centrifugation. Le plasma est riche en plusieurs types de molécules. On y retrouve plusieurs types de protéines et de peptides, des nutriments et de nombreuses autres petites molécules en solution. Une étude sur le métabolome du sang place le nombre de métabolites différents à environ 4200 molécules différentes Psychogios et collab. (2011).
Apprentissage automatique
Dans le projet présent, la recherche de signatures dans les spectres se fera par apprentissage automatique. Le chercheur Arthur Samuel a défini ce domaine, en 1959, comme le champ d’études donnant aux ordinateurs la capacité d’apprendre sans être explicitement programmés. En termes simples, cela signifie que c’est un champ de recherche dont l’objectif est de rendre un ordinateur capable d’apprendre à effectuer une tâche en ne lui fournissant que des exemples pour qu’il puisse s’entraîner. En contraste, prenons l’exemple d’un programme qui accomplit une tâche en étant explicitement programmé. Pour faire un tel programme, il faudrait une connaissance avancée de la tâche à accomplir et généralement l’intervention d’un expert. Si l’on considère l’exemple d’un programme dont la tâche est de faire le diagnostic d’un patient dans un hôpital, il faudrait certainement l’intervention de médecins et experts de la santé. De plus, le programme aurait une structure rigide et inflexible. Au contraire, l’application de l’apprentissage automatique pour faire cette même tâche consisterait à montrer des centaines, voire milliers, de dossiers médicaux à un algorithme qui pourrait ensuite prédire le diagnostique. Cette approche a aussi l’avantage d’être plus flexible et facilement modifiable dans le temps, puisqu’on a qu’à montrer de nouveaux exemples au programme. Il existe plusieurs branches à l’apprentissage automatique.
Celle qui concerne le présent projet est la branche de l’apprentissage supervisé. Dans ce cas, les exemples disponibles sont séparés en au moins deux classes. Chacune de ces classes est représentée par une étiquette. Chaque exemple est décrit par une série d’informations, qui peuvent être quantitatives ou qualitatives, que l’on nomme les caractéristiques des exemples. On fournit ensuite à l’algorithme une liste de tels exemples ainsi que leurs étiquettes respectives afin qu’il puisse apprendre en considérant les caractéristiques d’exemples à prédire les étiquettes. L’objectif est que le prédicteur appris soit non seulement performant sur les exemples de la liste fournie, mais surtout sur tout exemple non étiqueté. Le type d’apprentissage utilisé au courant de ce projet est exclusivement de l’apprentissage inductif. Dans ce type d’apprentissage, on suppose l’existence d’une distribution de probabilité (inconnue) qui est la source des exemples utilisés pour l’entraînement et qui sera la source des exemples à étiqueter à l’avenir. L’existence de cette distribution garantie que tous les exemples sont pigés indépendamment et sont identiquement distribués (i.i.d.). On applique ensuite l’algorithme à l’ensemble d’apprentissage. De cette manière, on obtient un prédicteur, également appelé classificateur.
Ce classificateur peut alors être utilisé sur de nouveaux exemples inconnus pour déterminer leurs classes. Si ces exemples viennent de la distribution originale, la théorie de l’apprentissage automatique nous donne des garanties quant à la performance du classificateur appris sur ces nouveaux exemples non étiquetés. En effet, un élément important de l’apprentissage automatique est qu’il faut des garanties de généralisation. Ces garanties sont généralement des bornes statistiques qui encadrent le taux d’erreur sur les exemples à venir du classificateur. On appelle ce taux d’erreur le risque. Il faut calculer ce risque et les garanties qui y sont associés de la bonne manière afin d’avoir un classificateur performant qui soit bien capable de généraliser ce qui a été appris sur toutes autres données provenant de la distribution des exemples. Un effet qu’il est important de contrôler en apprentissage automatique est le surapprentissage (overfitting en anglais). Ce phénomène est lorsqu’un classificateur apprend trop des données sur lesquelles il est entraîné et qui a une moins bonne capacité à classifier sur de nouvelles données inconnues.
|
Table des matières
Résumé
Abstract
Table des matières
Liste des tableaux
Liste des figures
Remerciements
Introduction
0.1 Spectrométrie de masse et métabolomique
0.2 Apprentissage automatique
0.3 Contexte des travaux et hypothèses
1 Méthodes de traitement des données de spectrométrie de masse
1.1 Introduction
1.2 Alignement des pics
1.3 Correction des déviations par masse de verrouillage virtuelles
1.4 Amélioration des algorithmes
1.5 Conclusion
2 Application de l’apprentissage automatique
2.1 Introduction
2.2 Le noyau à boîtes chevauchantes pour l’algorithme du SVM
2.3 Application d’algorithmes existants à la spectrométrie de masse
2.4 Conclusion
Conclusion
A Annexe
A.1 Données supplémentaires au chapitre
Bibliographie
Télécharger le rapport complet