Données « omiques », puces à ADN
Données « omiques »
Le terme de sciences « omiques » recouvre l’ensemble des sciences faisant appel aux technologies de biologie haut-débit. On distingue ainsi, par exemple, selon le niveau auquel on se place (Figure 1) :
• la génomique, qui s’intéresse à l’étude du génome (gènes) des individus ou des espèces, des interactions entre les gènes, et entre les gènes et l’environnement
• l’épigénomique, qui s’intéresse à l’ensemble des modifications épigénétiques (méthylation de l’ADN…)
• la transcriptomique, qui s’intéresse au transcriptome, c’est-à-dire les gènes transcrits (ARN). C’est dans ce contexte que sont utilisées les puces à ADN (présentées plus loin), et plus récemment les techniques de RNA-seq (RNA Sequencing ou Whole Transcriptome Shotgun Sequencing)
• la protéomique, qui étudie l’ensemble des protéines et polypeptides, leurs structures, leurs interactions
• la lipidomique, qui étudie l’ensemble des lipides, et de leurs réseaux et pathways
• la métagénomique, qui étudie le matériel génétique d’un échantillon issu d’un environnement complexe (par exemple l’intestin, le sol…) : par exemple, le projet MetaCardis , auquel participe notre laboratoire, vise à étudier les liens entre le microbiote intestinal et les maladies cardiométaboliques.
Ces champs d’études ont pour point commun de produire des données avec un grand nombre de variables (ensemble des gènes, ensemble des lipides…), le plus souvent sur un petit nombre de patients. D’un point de vue d’apprentissage automatique, ces données présentent donc des questions et problématiques relativement similaires : si l’on veut construire un classifieur pour expliquer ou prédire la réponse à un traitement ou la survenue d’une pathologie à partir de données d’expression génique (transcriptome) ou à partir du lipidome, on se trouvera dans les deux cas face à une variable à expliquer y et une matrice d’observations X avec un grand nombre (plusieurs milliers) de colonnes (variables/gènes/lipides) et un petit nombre (quelques dizaines à quelques centaines, dans le meilleur des cas) de lignes (observations/individus). Dans cette thèse, nous avons choisi, pour traiter du problème de l’apprentissage automatique sur données biologiques haute dimension, de nous focaliser sur les données puces, qui sont un type de données haute dimension produit dans notre laboratoire. Elles ont l’avantage d’être utilisées depuis déjà de nombreuses années, avec donc de nombreux jeux de données publiques disponibles.
Puces à ADN
Les puces à ADN (Gomase et al., 2008), également appelées biopuces, ou encore puces à gènes, permettent de mesurer les niveaux d’expression simultanés de plusieurs dizaines de milliers de gènes dans un prélèvement. Cette technologie a été publiée pour la première fois en 1995 (Schena et al., 1995), et s’est par la suite très rapidement répandue. Techniquement, son principe de base est proche de celui du Southern blot (Southern, 1975), fondé sur l’hybridation entre deux séquences complémentaires d’acides nucléiques, mais réalisé sur un support beaucoup plus dense. La puce à ADN est une lame de verre de quelques cm², sur laquelle sont positionnées plusieurs dizaines de milliers de sondes d’ADN complémentaire (ADNc). Les différentes étapes d’acquisition de données d’expression à partir d’un échantillon sont schématisées sur la Figure 2. L’ARN messager (ARNm) est isolé à partir du prélèvement d’intérêt. Il subit ensuite une transcription inverse et une amplification en ADNc. Puis l’ADNc du prélèvement est marqué par des fluorochromes, par exemple par cyanine 3 (Cy3, vert) ou cyanine 5 (Cy5, rouge), avant d’être hybridé à l’ADNc de la sonde. La puce est ensuite lavée et lue par un scanner, qui numérise les intensités de couleurs, proportionnelles aux niveaux d’expression. Ces données brutes subissent ensuite divers prétraitements (filtrages des spots non exploitables, normalisation…) avant d’être exploitables.
Puces spottées vs puces à oligonucléotides
Les sondes ADNc placées sur la puce peuvent y être installées via diverses méthodes. On distingue en particulier les puces « spottées » et les puces à oligonucléotides. Dans les puces spottées, les sondes peuvent être des séquences d’ADNc, des produits de PCR ou des oligonucléotides synthétisés avant d’être placés sur la puce. Ces sondes sont déposées à l’aide d’un micropipetteur robotisé. Ce type de puce a pour avantage de pouvoir être facilement personnalisable. Dans les puces dites à oligonucléotides, les sondes sont des fragments nucléotidiques synthétisés directement sur la plaque, cette synthèse pouvant être réalisée par exemple par photolithographie ou par « jet d’encre » (Goldmann & Gonzalez, 2000). Les sondes de ce type de puce peuvent contenir de l’ordre de 25 à 70 paires de bases. Cette méthode est utilisée par des sociétés spécialisées telles qu’Agilent Technologies et Affymetrix, Inc., et est la plus fréquemment rencontrée.
Prétraitement des données
Le résultat de l’acquisition d’une puce ADN par le scanner est une image dans laquelle chaque spot coloré correspond à l’expression d’un gène détectée par une sonde. Ces données brutes doivent subir des étapes de prétraitement avant de pouvoir être analysées, car de nombreuses sources possibles de perturbation peuvent introduire une variabilité technique qui masquerait la variabilité biologique qu’on cherche à mettre en évidence. Par exemple, parmi les sources de variabilité on peut citer la fabrication des puces, les étapes de préparation des échantillons (purification, transcription inverse, amplification…), l’étape d’hybridation, qui est influencée par les conditions de température et d’humidité, le lavage, qui peut rendre certains spots hétérogènes (marques de lavage), et même l’acquisition elle-même (par exemple, la grille de lecture peut être décalée – Figure 4). Parmi les traitements réalisés, on notera en particulier le filtrage des spots non exploitables, qui fait que toutes les sondes de la puce ne se retrouveront pas dans le jeu de données final, et une normalisation en plusieurs étapes : correction du bruit de fond (qui est mesuré pour chaque spot), mise à l’échelle des données, et log transformation des données. Cette mise à l’échelle peut être réalisée sur la base de la moyenne globale des intensités, sur des gènes « de ménage » (house-keeping genes), ou encore sur des sondes de contrôles.
Données biopuces utilisées
Dans cette thèse, nous utilisons cinq jeux de données biopuces publics pour le développement et la comparaison des méthodes de sélection. Sur les données cancer du côlon (Alon et al., 1999), la tâche de classification consiste à différencier des échantillons de tissu colique sain et cancéreux (adénocarcinome). Sur les données cancer du côlon (Golub et al., 1999), la tâche de classification consiste à différencier des échantillons de moelle osseuse de leucémie aiguë myéloïde et de leucémie aiguë lymphoblastique. Sur les deux jeux de données cancer du sein (Pawitan et al., 2005 ; van de Vijver et al., 2002), la tâche de classification consiste à séparer les « bons » et les « mauvais » pronostics, le mauvais pronostic étant défini dans (Pawitan et al., 2005) comme une rechute ou un décès (toutes causes confondues) dans les 5 ans. Enfin, sur les données cancer du poumon (Bhattacharjee et al., 2001), la tâche de classification consiste à différencier les adénocarcinomes d’autres tumeurs pulmonaires ou de tissu pulmonaire sain.
Nous nous attacherons également, dans le dernier chapitre, à appliquer l’ensemble de ces méthodes et à étudier plus en détail, au niveau biologique cette fois, les sélections de variables obtenues sur un jeu de données biopuces ayant déjà fait l’objet de travaux dans notre laboratoire, DiOGenes. DiOGenes (Diet, Obesity and Genes) (Larsen et al., 2010 ; Mutch et al., 2011) est un projet européen visant entre autres à étudier, chez des sujets obèses et chez des sujets de poids normal, les déterminants (aussi bien génétiques que diététiques et comportementaux) de la prise de poids. Dans le cadre de ce projet, un groupe de 932 patients a suivi un régime hypocalorique de 8 semaines. Des prélèvements de tissu adipeux sous cutané abdominal ont été obtenus par aspiration sous anesthésie locale au début (J0) et à la fin (S8) du régime hypocalorique. Les 596 sujets qui avaient perdu plus de 8% de leur poids ont poursuivi par un régime contrôlé normocalorique pendant 6 mois, et ont été classés en « repreneurs » (50-100% de reprise de poids) et « non repreneurs » (0-10% de reprise de poids) de poids. Dans chacun de ces 2 groupes, 20 femmes ont été sélectionnées au hasard, en appariant les 2 groupes sur le poids, l’indice de masse corporelle, l’apport énergétique total, les taux sanguins de cholestérol, triglycérides, cholestérol HDL, adiponectine, C-reactive protein (CRP), glucose et insuline, ainsi que la résistance à l’insuline mesurée par HOMA-IR (Matthews et al., 1985). À noter que cet appariement n’a pas été réalisé au niveau individuel, mais au niveau des groupes dans leur ensemble (en utilisant les valeurs moyennes de chaque variable).
Les données d’expression issues des prélèvements de tissu adipeux ont été mesurées via des biopuces Agilent 4x44K whole human genome. Nous nous sommes intéressés ici à la prédiction de la reprise de poids après le régime à partir des données puces de J0. Ces données ont été normalisées en utilisant le package R goulphar (Lemoine et al., 2006), puis les sondes de contrôles ou sans identification, ainsi que gènes ayant des valeurs manquantes ont été retirés. À la fin de ces prétraitements, ce jeu de données contient D=13078 variables, pour N=40 observations.
|
Table des matières
Chapitre 1 : Introduction
1.1 Données « omiques », puces à ADN
1.1.1 Données « omiques »
1.1.2 Puces à ADN
1.1.2.1 Puces spottées vs puces à oligonucléotides
1.1.2.2 Puces à une couleur vs puces à deux couleurs
1.1.2.3 Prétraitement des données
1.1.3 Données biopuces utilisées
1.2 Apprentissage automatique, méthodes de classification
1.2.1 k plus proches voisins (kNN)
1.2.2 Analyse discriminante
1.2.3 Machines à vecteurs de support (SVM)
1.2.4 Réseaux de neurones artificiels
1.2.5 Boosting
1.2.6 Forêts aléatoires
1.2.7 Estimation des performances du classifieur
1.3 Méthodes de sélection de variables
1.3.1 Filtres univariés
1.3.1.1 t-score
1.3.1.2 Rapport signal sur bruit
1.3.1.3 Information mutuelle
1.3.2 Filtres multivariés
1.3.2.1 CAT-score
1.3.2.2 ReliefF
1.3.2.3 Couverture de Markov
1.3.3 SVM-RFE
1.3.4 Évaluation de la méthode de sélection
Chapitre 2 : Analyse de la stabilité de la sélection de variables sur des données haute dimension et petit échantillon
Abstract
2.1 Introduction
2.2 Stability measures
2.2.1 Relative weighted consistency, an unbiased feature-focused measure
2.2.2 Partially adjusted average Tanimoto index, an unbiased subset-focused measure
2.2.3 Correlation-based measures
2.3 Analysis on the mathematical model
2.4 Analysis on artificial data
2.4.1 Generation of artificial data
2.4.2 Results on the artificial data
2.5 Analysis on real data
2.5.1 Description of the real data
2.5.2 Result on the real data
2.6 Discussion and Conclusion
Supplementary materials
Chapitre 3 : Présélection par regroupements fonctionnels : Correlation-Gene Ontology(CoGO)
3.1 CoGO, une méthode de pré-sélection de gène combinant données a priori et données observées
3.1.1 Gene Ontology
3.1.2 Mesure de la similarité des fonctions et des gènes dans GO
3.1.2.1 Probabilité d’un terme GO
3.1.2.2 Contenu d’information (information content) de Resnik
3.1.2.3 Mesure de similarité de Lin
3.1.2.4 Relevance similarity
3.1.2.5 Similarité fonctionnelle entre deux gènes
3.1.3 Méthode CoGO
3.2 Mesure de la stabilité fonctionnelle
3.3 Expérimentation de CoGO sur les données DiOGenes et Golub
3.3.1 Design expérimental
3.3.2 Résultats
3.3.2.1 Comparaison de la mesure de stabilité fonctionnelle aux mesures de stabilité des gènes
3.3.2.2 Performances du filtre CoGO
3.3.2.3 Performances du filtre CoGO avec une matrice de similarité opposée
3.4 Discussion et conclusion
Chapitre 4 : Apport des méthodes d’ensemble pour la stabilité de la sélection de variables
4.1 Influence de la méthode d’agrégation sur la stabilité
4.1.1 Sélection de variables par méthodes d’ensemble
4.1.1.1 Génération de la diversité
4.1.1.2 Agrégation
4.1.2 Design expérimental
4.1.2.1 Données artificielles
4.1.2.1 Données réelles
4.1.3 Résultats
4.1.3.1 Résultats sur les données artificielles
4.1.3.2 Résultats sur les données réelles
4.1.4 Discussion et conclusion
4.2 Ensembles hybrides
4.2.1 Méthodes
4.2.2 Design expérimental
4.2.3 Résultats
4.2.4 Discussion et conclusion
Chapitre 5 : Application des méthodes aux données DiOGenes : à la recherche de gènes prédictifs de la reprise de poids après un régime hypocalorique
5.1 Éléments cliniques et épidémiologies sur l’obésité
5.1.1 Définition
5.1.2 Épidémiologie
5.1.3 Complications
5.1.4 Tissu adipeux et obésité
5.1.5 Principes thérapeutiques
5.2 Design expérimental
5.3 Résultats
5.3.1 Stabilité et performance de prédiction
5.3.2 Gènes communs aux différentes sélections
5.4 Discussion et conclusion
Chapitre 6 : Conclusion générale