État de l’art des méthodes de classification de données transcriptomiques
Les méthodes de classification de puces à ADN permettent d’exhiber les différences pouvant exister entre des classes d’individus au niveau transcriptomique. Ces différences sont résumées par une signature moléculaire constituée d’un ensemble de gènes discriminants. De plus, les méthodes de classification permettent l’estimation d’une fonction de classification et l’évaluation du pouvoir prédictif de la signature moléculaire. Classiquement, ce pouvoir prédictif est quantifié par le taux d’erreurs, qu’il est fondamental d’estimer sur un échantillon indépendant de celui qui a servi à l’apprentissage de la fonction de classification. La classification de puces à ADN est donc une première approche « haut débit » permettant de livrer à l’expérimentateur (le clinicien ou le biologiste) un sous ensemble de gènes impliqués dans les processus biologiques étudiés. La signature moléculaire est ensuite validée sur des échantillons indépendants avec des techniques « bas débit » comme par exemple la quantitative polymerase chain reaction (PCR) ou des mesures de cytométrie.
Les données de puces à ADN comportent classiquement de l’ordre de la dizaine de milliers de variables (p) pour au plus une centaine d’individus (n). Les algorithmes associés aux méthodes de classification standard comme l’analyse discriminante [Fisher, 1936] ou la régression logistique (voir [Tenenhaus, 2007] pour une présentation de ces méthodes standard) ne sont pas adaptés à ce cadre car nécessitant l’inversion de matrices mal conditionnées. Dans ce chapitre, nous présentons les méthodes de classification régularisées adaptées au cadre p > n. L’application de ces méthodes régularisées au contexte n ≪ p nécessite néanmoins de se ramener à n < p en mettant en œuvre des stratégies de sélection d’attributs [Cornuéjols et al., 2002] pour garantir le caractère généralisable de la fonction de classification sur des cohortes indépendantes, des temps de calcul raisonnables et des modèles plus interprétables par les biologistes. Nous présentons les méthodes de classification et de régression de sorte à montrer que l’estimation régularisée des matrices de variance covariance est centrale dans le processus de classification dans le contexte n < p.
Méthodes filter
Les tests d’hypothèse utilisés en analyse différentielle et dans les logiciels d’analyse de profils d’expression, comme ArrayAssist (le logiciel d’Affymetrix) ou GeneSpring (le logiciel d’Agilent), sont des tests univariés classiques paramétriques, comme le test de Student, ou non paramétriques, comme le test de Mann-Whitney. Ces tests sont détaillés par exemple dans [Saporta, 2006] ou [Zar, 1999]. D’autres tests ont été développés spécifiquement pour les puces à ADN, utilisant le fait que les gènes ont des expressions qui ne sont pas indépendantes les unes des autres [Smyth, 2004], [Zuber and Strimmer, 2009]. Ces derniers tests sont parfois disponibles dans les logiciels d’analyse commerciaux, mais ils sont surtout disponibles librement sous la forme de librairies R.
Nous supposons être dans le cas de données non appariées, c’est à dire que les deux classes d’individus sont indépendantes ; très pratiquement, cela signifie que les patients recrutés dans chaque classe sont « différents » d’une classe à l’autre.
Ratio d’expression. La mesure communément admise chez les biologistes de cette différence est le ratio d’expression, également appelé Fold-Change (et donc abrégé en FC par la suite). Pour des données en échelle logarithmique :
FC = x1 − x2,
Statistique basée sur les moyennes géométriques. Une première méthode de filtrage est présentée dans [Breitling et al., 2004] et est très similaire au FC. La procédure décrite dans cet article est assez intuitive : elle consiste à calculer des ratios d’expression (RE) pour tous les individus. Ces RE servent ensuite à calculer des rangs qui sont ensuite moyennés pour obtenir un rang global, appelé dans l’article Rank Product (RP). Ainsi plus ce dernier est petit, plus le gène en question est différentiellement exprimé.
Intégration de réseaux de régulations génétiques dans la classification de données transcriptomiques
Le dogme central de la biologie , définit comment l’information contenue dans l’ADN, les gènes, est transformée en une protéine opérationnelle permettant de déclencher le phénotype pour lequel le gène code. Sans remettre en cause ce dogme, il est possible de décrire la dynamique de synthèse des protéines comme un ensemble d’interactions entre de multiples molécules : métabolites, protéines, ARN (ARNs messagers, petits ARNs interférents, ARNs de transfert etc. ). Un RRG correspond à l’impact qu’ont toutes ces interactions sur le transcriptome. Nous supposons que chaque RRG est particulier d’une situation biologique. Ainsi, dans une expérience à deux classes, on peut disposer de deux RRG différents.
Les méthodes de l’état de l’art intégrant un RRG dans un processus de classification ([Rapaport et al., 2007], [Li and Li, 2008], [Zhu et al., 2009], [Binder and Schumacher, 2009]) ne sont capables d’intégrer qu’un seul RRG supposé commun à toutes les classes. Elles réalisent de plus l’intégration de ce graphe en contraignant la détermination de la fonction de classification de telle sorte que deux variables connectées dans le graphe aient des poids proches dans la fonction de classification. Ces méthodes n’ont pas comme but d’améliorer la qualité de la prédiction, mais l’amélioration de l’interprétabilité du modèle.
En génomique fonctionnelle, le problème de l’intégration des co-régulations entre gènes se pose de manière récurrente : cette information peut provenir soit de bases de données alimentées par les biologistes soit d’autres expériences transcriptomiques réalisées sur les mêmes problématiques biologiques. Dans le dernier cas, il faut mettre en œuvre des méthodes d’inférence de RRG ([Tenenhaus et al., 2008], [Schäfer and Strimmer, 2005b], etc.) pour extraire un graphe de ces données supplémentaires. Des méthodes existent déjà permettant d’intégrer un graphe dans un processus de classification [Li and Li, 2008], [Rapaport et al., 2007], [Zhu et al., 2009]. Les deux premières méthodes utilisent le Laplacien du graphe G a priori. La troisième méthode [Zhu et al., 2009] propose également de réaliser cette intégration sans utiliser le Laplacien du graphe, mais directement la présence ou non d’interaction entre deux variables.
Intégration du réseau par des méthodes à noyau : transformation spectrale du Laplacien du graphe
Dans [Rapaport et al., 2007], une transformation spectrale est appliquée au Laplacien LG du graphe G. On note λ1 ≤ λ2 ≤ … ≤ λp les valeurs propres de LG et e1, …,ep les vecteurs propres correspondants. Une décomposition sur les sous-espaces propres de LG est similaire à une décomposition de Fourier d’un signal. Si l’on projette un vecteur sur les espaces propres correspondant aux valeurs propres les plus petites, on peut « adoucir » ses variations tout le long du graphe, c’est-à-dire que les composantes du vecteur correspondant à des nœuds adjacents dans le graphe seront rendues plus proches.
|
Table des matières
Introduction
1 État de l’art des méthodes de classification de données transcriptomiques
1.1 Méthodes de classification et de régression régularisées
1.1.1 Méthodes de régression
1.1.2 Les Support Vector Machines : une méthode de classification régularisée de référence
1.1.3 Validation croisée
1.2 Gestion de la très grande dimension : de n p à n < p
1.2.1 Méthodes filter
1.2.2 Méthodes wrapper
1.2.3 Comparaison des différentes méthodes d’analyse différentielle sur des données simulées
1.3 Démarche complète de classification de données transcriptomiques
1.4 Discussion et perspectives
2 Intégration de réseaux de régulations génétiques dans la classification de données transcriptomiques
2.1 Méthodes de l’état de l’art
2.1.1 Intégration du réseau par des méthodes à noyau : transformation spectrale du Laplacien du graphe
2.1.2 Intégration du Laplacien du graphe dans la partie quadratique de la contrainte d’une régression elastic-net
2.1.3 Intégration des arêtes du graphe dans la contrainte de l’optimisation de SVM linéaires
2.1.4 Une contrainte commune
2.2 Approche proposée
2.2.1 Analyse Discriminante
2.2.1.1 Optimiser le ratio de la variance inter classes sur la variance intra classes
2.2.1.2 Déterminer la classe d’un nouvel individu
2.2.1.3 Estimations des paramètres de δ
2.2.2 Analyse discriminante régularisée
2.2.3 Intégration de G dans l’estimation de Σ
2.2.4 Intégration du graphe a priori dans la méthode gCDA
2.2.4.1 Modèle de simulation issu de [Li and Li, 2008]
2.2.4.2 Modèle de simulation proposé
2.2.4.3 Résultats sur les deux simulations
2.3 Discussion et perspectives
3 Inférence de réseaux de régulations génétiques et adéquation de réseaux à des données transcriptomiques
3.1 Coefficient de corrélation partielle
3.1.1 Expression du coefficient de corrélation partielle à l’aide de régressions OLS
3.1.2 Expression de la matrice de corrélation partielle à l’aide de la matrice de variance covariance
3.1.3 Résumé
3.2 Estimation de coefficients de corrélation partielle lorsque n ≤ p
3.3 Mesure de l’adéquation d’un graphe à un jeu de données
3.4 Résultats obtenus sur données simulées
3.4.1 Simulation d’un graphe aléatoire
3.4.2 Modèle de génération de données simulées
3.4.3 Comparaison de différentes méthodes d’inférence de réseaux
3.4.4 Comparer des graphes inférés avec un graphe de référence
3.5 Conclusion et Discussion
4 Résultats de l’intégration d’un graphe dans un processus de classification sur des données transcriptomiques réelles
4.1 Sélection des Probe Sets correspondant aux gènes impliqués dans le cancer selon la base de données KEGG
4.2 Inférence de réseaux de régulations génétiques
4.3 Description des données
4.3.1 Données de cancer de la prostate
4.3.2 Données de cancer du colon
4.3.3 Données de cancer du poumon
4.4 Résultats de classification
Conclusion