Les biotechnologies modernes sont capables, via les technologies dites « haut débit», de mesurer de très grandes quantités de variables à l’échelle de chaque individu : séquence ADN, expressions des gènes, profil lipidique… On assiste ainsi au développement de diverses sciences « omiques » (génomique, transcriptomique, lipidomique, protéomique…) exploitant ces techniques et les données qu’elles produisent. Parmi ces technologies, les biopuces (ou puces à ADN, en anglais microarrays), qui permettent de mesurer les niveaux d’expression de plusieurs dizaines de milliers de gènes (le transcriptome), sont une des méthodes les plus répandues, bien qu’en perte de vitesse face à l’émergence des technologies de Next Generation Sequencing (NGS).
L’extraction de connaissances à partir de ces données peut se faire par l’utilisation de techniques d’apprentissage automatique (Hastie et al., 2009). Cependant, ces données contiennent un très grand nombre de variables mais ne sont mesurées que sur quelques centaines de patients, dans les meilleurs des cas. Cette dimensionnalité élevée associée à une petite taille de l’échantillon, souvent appelé « fléau de la dimension » (curse of dimensionality) (Simon, 2003), représente un défi pour les techniques de classification, car toutes deux augmentent le risque de surapprentissage et diminuent la précision des classifieurs (Jain & Chandrasekaran, 1982). En outre, la dimensionnalité élevée peut augmenter le temps de calcul de façon excessive, car les classifieurs ne s’adaptent généralement pas très bien à un très grand nombre de variables. Enfin, un classifieur basé sur un très grand nombre de variables sera plus difficile à interpréter qu’un classifieur qui serait basé sur un nombre réduit de variables. Pour faire face à ces problèmes, une étape préalable de sélection de variables est utilisée pour réduire la dimensionnalité des données.
Données « omiques », puces à ADN
Données « omiques »
Le terme de sciences « omiques » recouvre l’ensemble des sciences faisant appel aux technologies de biologie haut-débit. On distingue ainsi, par exemple, selon le niveau auquel on se place :
• la génomique, qui s’intéresse à l’étude du génome (gènes) des individus ou des espèces, des interactions entre les gènes, et entre les gènes et l’environnement
• l’épigénomique, qui s’intéresse à l’ensemble des modifications épigénétiques (méthylation de l’ADN…)
• la transcriptomique, qui s’intéresse au transcriptome, c’est-à-dire les gènes transcrits (ARN). C’est dans ce contexte que sont utilisées les puces à ADN (présentées plus loin), et plus récemment les techniques de RNA-seq (RNA Sequencing ou Whole Transcriptome Shotgun Sequencing)
• la protéomique, qui étudie l’ensemble des protéines et polypeptides, leurs structures, leurs interactions
• la lipidomique, qui étudie l’ensemble des lipides, et de leurs réseaux et pathways
• la métagénomique, qui étudie le matériel génétique d’un échantillon issu d’un environnement complexe (par exemple l’intestin, le sol…) : par exemple, le projet MetaCardis , auquel participe notre laboratoire, vise à étudier les liens entre le microbiote intestinal et les maladies cardiométaboliques.
Ces champs d’études ont pour point commun de produire des données avec un grand nombre de variables (ensemble des gènes, ensemble des lipides…), le plus souvent sur un petit nombre de patients. D’un point de vue d’apprentissage automatique, ces données présentent donc des questions et problématiques relativement similaires : si l’on veut construire un classifieur pour expliquer ou prédire la réponse à un traitement ou la survenue d’une pathologie à partir de données d’expression génique (transcriptome) ou à partir du lipidome, on se trouvera dans les deux cas face à une variable à expliquer y et une matrice d’observations X avec un grand nombre (plusieurs milliers) de colonnes (variables/gènes/lipides) et un petit nombre (quelques dizaines à quelques centaines, dans le meilleur des cas) de lignes (observations/individus).
Dans cette thèse, nous avons choisi, pour traiter du problème de l’apprentissage automatique sur données biologiques haute dimension, de nous focaliser sur les données puces, qui sont un type de données haute dimension produit dans notre laboratoire. Elles ont l’avantage d’être utilisées depuis déjà de nombreuses années, avec donc de nombreux jeux de données publiques disponibles.
Puces à ADN
Les puces à ADN (Gomase et al., 2008), également appelées biopuces, ou encore puces à gènes, permettent de mesurer les niveaux d’expression simultanés de plusieurs dizaines de milliers de gènes dans un prélèvement. Cette technologie a été publiée pour la première fois en 1995 (Schena et al., 1995), et s’est par la suite très rapidement répandue. Techniquement, son principe de base est proche de celui du Southern blot (Southern, 1975), fondé sur l’hybridation entre deux séquences complémentaires d’acides nucléiques, mais réalisé sur un support beaucoup plus dense. La puce à ADN est une lame de verre de quelques cm², sur laquelle sont positionnées plusieurs dizaines de milliers de sondes d’ADN complémentaire (ADNc).
Puces spottées vs puces à oligonucléotides
Les sondes ADNc placées sur la puce peuvent y être installées via diverses méthodes. On distingue en particulier les puces « spottées » et les puces à oligonucléotides. Dans les puces spottées, les sondes peuvent être des séquences d’ADNc, des produits de PCR ou des oligonucléotides synthétisés avant d’être placés sur la puce. Ces sondes sont déposées à l’aide d’un micropipetteur robotisé. Ce type de puce a pour avantage de pouvoir être facilement personnalisable. Dans les puces dites à oligonucléotides, les sondes sont des fragments nucléotidiques synthétisés directement sur la plaque, cette synthèse pouvant être réalisée par exemple par photolithographie ou par « jet d’encre » (Goldmann & Gonzalez, 2000). Les sondes de ce type de puce peuvent contenir de l’ordre de 25 à 70 paires de bases. Cette méthode est utilisée par des sociétés spécialisées telles qu’Agilent Technologies et Affymetrix, Inc., et est la plus fréquemment rencontrée.
Prétraitement des données
Le résultat de l’acquisition d’une puce ADN par le scanner est une image dans laquelle chaque spot coloré correspond à l’expression d’un gène détectée par une sonde. Ces données brutes doivent subir des étapes de prétraitement avant de pouvoir être analysées, car de nombreuses sources possibles de perturbation peuvent introduire une variabilité technique qui masquerait la variabilité biologique qu’on cherche à mettre en évidence. Par exemple, parmi les sources de variabilité on peut citer la fabrication des puces, les étapes de préparation des échantillons (purification, transcription inverse, amplification…), l’étape d’hybridation, qui est influencée par les conditions de température et d’humidité, le lavage, qui peut rendre certains spots hétérogènes (marques de lavage), et même l’acquisition elle-même .
Parmi les traitements réalisés, on notera en particulier le filtrage des spots non exploitables, qui fait que toutes les sondes de la puce ne se retrouveront pas dans le jeu de données final, et une normalisation en plusieurs étapes : correction du bruit de fond (qui est mesuré pour chaque spot), mise à l’échelle des données, et log transformation des données. Cette mise à l’échelle peut être réalisée sur la base de la moyenne globale des intensités, sur des gènes « de ménage » (house-keeping genes), ou encore sur des sondes de contrôles.
|
Table des matières
Résumé
Publications en lien avec la thèse
Chapitre 1 : Introduction
1.1 Données « omiques », puces à ADN
1.1.1 Données « omiques »
1.1.2 Puces à ADN
1.1.2.1 Puces spottées vs puces à oligonucléotides
1.1.2.2 Puces à une couleur vs puces à deux couleurs
1.1.2.3 Prétraitement des données
1.1.3 Données biopuces utilisées
1.2 Apprentissage automatique, méthodes de classification
1.2.1 k plus proches voisins (kNN)
1.2.2 Analyse discriminante
1.2.3 Machines à vecteurs de support (SVM)
1.2.4 Réseaux de neurones artificiels
1.2.5 Boosting
1.2.6 Forêts aléatoires
1.2.7 Estimation des performances du classifieur
1.3 Méthodes de sélection de variables
1.3.1 Filtres univariés
1.3.1.1 t-score
1.3.1.2 Rapport signal sur bruit
1.3.1.3 Information mutuelle
1.3.2 Filtres multivariés
1.3.2.1 CAT-score
1.3.2.2 ReliefF
1.3.2.3 Couverture de Markov
1.3.3 SVM-RFE
1.3.4 Évaluation de la méthode de sélection
Chapitre 2 : Analyse de la stabilité de la sélection de variables sur des données haute dimension et petit échantillon
Abstract
2.1 Introduction
2.2 Stability measures
2.2.1 Relative weighted consistency, an unbiased feature-focused measure
2.2.2 Partially adjusted average Tanimoto index, an unbiased subset-focused measure
2.2.3 Correlation-based measures
2.3 Analysis on the mathematical model
2.4 Analysis on artificial data
2.4.1 Generation of artificial data
2.4.2 Results on the artificial data
2.5 Analysis on real data
2.5.1 Description of the real data
2.5.2 Result on the real data
2.6 Discussion and Conclusion
Supplementary materials
Chapitre 3 : Présélection par regroupements fonctionnels : Correlation-Gene Ontology (CoGO)
3.1 CoGO, une méthode de pré-sélection de gène combinant données a priori et données observées
3.1.1 Gene Ontology
3.1.2 Mesure de la similarité des fonctions et des gènes dans GO
3.1.2.1 Probabilité d’un terme GO
3.1.2.2 Contenu d’information (information content) de Resnik
3.1.2.3 Mesure de similarité de Lin
3.1.2.4 Relevance similarity
3.1.2.5 Similarité fonctionnelle entre deux gènes
3.1.3 Méthode CoGO
3.2 Mesure de la stabilité fonctionnelle
3.3 Expérimentation de CoGO sur les données DiOGenes et Golub
3.3.1 Design expérimental
3.3.2 Résultats
3.3.2.1 Comparaison de la mesure de stabilité fonctionnelle aux mesures de stabilité
des gènes
3.3.2.2 Performances du filtre CoGO
3.3.2.3 Performances du filtre CoGO avec une matrice de similarité opposée
3.4 Discussion et conclusion
Chapitre 4 : Apport des méthodes d’ensemble pour la stabilité de la sélection de variables
4.1 Influence de la méthode d’agrégation sur la stabilité
4.1.1 Sélection de variables par méthodes d’ensemble
4.1.1.1 Génération de la diversité
4.1.1.2 Agrégation
4.1.2 Design expérimental
4.1.2.1 Données artificielles
4.1.2.1 Données réelles
4.1.3 Résultats
4.1.3.1 Résultats sur les données artificielles
4.1.3.2 Résultats sur les données réelles
4.1.4 Discussion et conclusion
4.2 Ensembles hybrides
4.2.1 Méthodes
4.2.2 Design expérimental
4.2.3 Résultats
4.2.4 Discussion et conclusion
Chapitre 5 : Conclusion
Télécharger le rapport complet