L’estimation de la survie : méthode de Kaplan-Meier

Données transcriptomiques

La molécule d’ADN

L’acide désoxyribonucléique ou ADN est une grosse molécule qui est le principal support physique des gènes. Il se présente sous la forme d’un long filament et constitue la partie la plus importante des chromosomes présents dans le noyau de nos cellules.
L’ADN est constitué d’éléments appelés nucléotides,qui sont formés par l’association d’un « sucre » (le désoxyribose), d’un groupement phosphate (l’acide phosphorique) et d’une base azotée à savoir l’adénine (A), la cytosine (C), la guanine (G) ou la thymine (T).
L’ADN est formé de deux brins enroulés en double hélice, qui sont chacun formés d’une succession de nucléotides. Ces deux brins sont complémentaires et présentent la particularité de s’unir deux à deux suivant la règle de complémentarité : l’adénine appariée avec la thymine et la cytosine appariée avec la guanine (voir figure 1).

La puce à ADN

Les données transcriptomiques, ou données d’expression des gènes, sont des données issues de technologies variées telles que la technologie des biopuces ou puce à ADN. Celles-ci sont utilisées pour identifier et quantifier la sur- ou sous- expression d’un ensemble de gènes, en mesurant le niveau d’expression d’un grand nombre d’ARN messagers différents mais relatif au même gène, dans une situation biologique donnée.
La technologie des puces à ADN est devenue un outilpuissant pour l’analyse génétique. Le principe de la biopuce repose sur l’hybridation qui consiste en un appariement, par complémentarité des bases, (A, C, G, T) de deux séquences d’ADN, dont l’une, connue, constitue la sonde (brin monocaténaire synthétique) et l’autre représente la séquence cible (figure 3).
Transgene utilise des puces à oligonucléotides (fragments de gènes synthétiques) commercialisées par la société Affymetrix. Une puce, carré d’environ 1 cm , comporte quelques centaines à plusieurs dizaines de milliers d’unités d’hybridation. Chacune est constituée d’un oligonucléotide correspondant à des sondes de séquences connues.
Les sondes sont des oligonucléotides synthétisés in situ par une technique de photolithographie. Chaque élément de la puce est un carré de 11 µm × 11 µm contenant plus de 10 copies d’un oligonucléotide donné (figure 3). Il est possible de synthétiser jusqu’à 1 300 000 oligonucléotides, correspondant à 38 500 gènes (il faut plusieurs oligonucléotides pour un seul gène dans sa totalité) sur une même puce auxquels s’ajoutent 7000 sondes qui servent de contrôles (positifs ou négatifs).
Les ARN messagers sont extraits de l’échantillon biologique (cellule, sang, tissu…). Après rétro transcription, les ARNm sont amplifiés et marqués à l’aide d’un nucléotide modifié (biotinylé) avant d’être hybridés sur la puce.
Le rôle de chaque sonde est de reconnaître et de fixer sa séquence complémentaire dans le mélange « cible » (ADN des cellules prélevées) appliqué à la surface de la biopuce.
Après révélation du signal par ajout de composés fluorescents, l’acquisition des images est réalisée avec des scanners à laser de haute précision, adaptés aux marqueurs utilisés. Les images sont ensuite traitées par des logiciels d’analyse d’images qui permettent de quantifier l’intensité des signaux lumineux, mais aussi de relier chaque sonde (probeset) à l’annotation qui lui correspond (nom du gène, numéro de l’ADNc utilisé, séquence de l’oligonucléotide, etc.).
Dans le cas des puces Affymetrix, chaque sonde est associée à une sonde identique à deux bases près (sonde PM pour PerfectMatch et sonde MM pour MissMatch). L’hybridation non spécifique peut être évaluée par un algorithme utilisant les ratios des signaux PM/MM.
L’intensité du signal de fluorescence pour chaque couple gène/sonde est proportionnelle à l’intensité d’hybridation, donc à l’expression du gène ciblé. L’intensité de la couleur est proportionnelle à la force du signal, le noir symbolisant l’absence de signal.
Pour détecter un gène donné, la technologie Affymetrix utilise jusqu’à 40 oligonucléotides choisis dans des régions de ce gène qui présentent le moins de similitudes avec des régions d’autres gènes. De ces régions, 11 à 20 oligonucléotides sont choisis comme « PerfectMatch » (parfaitement complémentaires à l’ARN messager cible de ce gène), et 11 à 20 oligonucléotides sont choisis comme « MisMatch » (détection de bruits de fond, variabilité dans l’intensité aussi appelé « background ») (figure 4).

Analyse de survie et modèle de Cox

L’analyse de survie

L’analyse de survie est un terme générique qui désigne toute analyse de la survenue au cours du temps d’un événement « en tout ou rien », comme par exemple le décès, et ceci en présence de données censurées (données qui ne sont pas complètement observées au cours de l’étude, par exemple les patients qui ne sont pas morts durant l’étude si l’évènement étudié est le décès, ou encore les personnes qui ont été « perdues de vue » durant l’étude).
Ce type d’analyse est largement utilisé dans les études cliniques. Il permet la description de la survie (le temps s’écoulant entre le début du traitement et la survenue du décès) d’un groupe de patients mais aussi la comparaison de la survie de deux ou plusieurs groupes de patients afin d’étudier les facteurs pronostiques, c’est-à-dire les facteurs susceptibles d’expliquer la survenue du décès (ou d’un autre événement) au cours du temps.
Les méthodes d’analyse de survie permettent :
• d’obtenir une courbe de survie (description graphique des taux de survenue de l’événement étudié dans un ou plusieurs groupes de traitement).
• de déterminer la probabilité de survenue de l’événement étudié après un certain délai.
• de comparer la probabilité de survenue de l’événement étudié entre différents groupes de traitement.
• de mesurer l’influence d’une variable explicative sur la probabilité de survenue de l’événement étudié.
• de stratifier a posteriori, sur la variable explicative, les groupes à comparer et de calculer un nouveau de degré de signification.
Rappelons que, bien que le terme de survie soit le terme consacré au décès pour des raisons historiques (terme utilisé d’abord en cancérologie où la survie des patients est un des critères d’efficacité du traitement), les méthodes d’analyse de survie ne s’appliquent pas seulement à l’étude des décès mais peuvent s’appliquer également à l’étude de tout évènement « unique » susceptible d’apparaître au cours d’un essai : 1ère apparition d’un évènement indésirable, 1er épisode de rechute, 1ère normalisation d’un critère,…
Dans le cadre du sujet du stage, l’évènement étudiésera le décès.

Le modèle de Cox

Le modèle de régression à risques proportionnels proposé par Cox en 1972 pour étudier la relation entre le temps d’apparition d’un événement(par exemple le décès) et un ensemble de variables explicatives (par exemple les gènes) en présence de censure (s’il n’y a pas de censure, le modèle de régression logistique peut aussi être utilisé), a eu un impact considérable dans l’analyse des données de survie, tant du point de vue théorique que pratique, et est rapidement devenu le modèle le plus utilisé. [2,30]
Il suppose cependant (comme tout modèle de régression linéaire multiple) qu’il y ait plus d’observations que de variables, des données complètes et des variables non fortement corrélées entre elles. Ces hypothèses sont souvent impossibles à satisfaire dans la pratique. En oncologie par exemple, la recherche de descripteurs biologiques liés à la durée de survie suppose de prendre en compte l’expression de milliers de gènes pour généralement seulement quelques dizaines d’individus.
La régression semi-paramétrique (estimation de l’influence des facteurs exogènes sans hypothèse concernant la distribution de base) de Cox est la méthode de référence pour l’analyse des données longitudinales issues d’enquêtes de cohortes ou d’essais cliniques.
Au même titre que les autres méthodes de régression, l’expression de la régression de Cox permet de réaliser des prévisions sur la survie d’un patient donné en connaissant ses caractéristiques. On utilisera, d’une part, l’estimation des paramètres ßi et, d’autre part, la valeur des covariables X i mesurées ou recueillies chez ce patient

Réduction du nombre de variables

Description des différentes méthodes

L’analyse des profils d’expression des gènes est de plus en plus utilisée (en oncologie entre autre) pour découvrir de nouveaux marqueurs biologiques et de nouvelles cibles thérapeutiques. Elle suppose la prise en compte de l’expression de milliers de gènes en regard de seulement quelques dizaines d’individus.
Le caractère hautement multi dimensionnel de ces données rend l’application des approches classiques difficile, les modèles de Cox classiquessont mis en défaut face à de telles quantités de données. La solution est d’opérer d’abord une réduction de l’espace des gènes, puis de construire un modèle de Cox avec les variables sélectionnées.
Ici sont présentées différentes méthodes, trouvées dans la littérature, pour réduire la dimension de l’espace des gènes.

L’Analyse des données en cluster

Le but de cette méthode est de réduire le nombre de variables en les regroupant en fonction de leur profil d’expression génique, c’est une méthode qui permet de classer des groupes en fonction de leur contenu. L’inconvénient majeur est que la relation entre le temps de survie et les variables explicatives originales est « dérangée » par un lien entre l’expression des gènes et les « étiquettes » des clusters. De plus la procédure n’utilise pas efficacement l’information prédictive disponible sur l’expression des gènes [3– 5].
Les arbres de décision, forêts aléatoires et les mé thodes de classification :
Ces méthodes utilisent l’expression de groupes de gènes (qui sont trouvés par regroupement hiérarchique / cluster) en tant que prédicteurs de survie. Le premier inconvénient est que ces prédicteurs sont utilisés dans un modèle à risque proportionnel de Cox comprenant des interactions d’ordre 1, or dans le cadre du sujet il peut y avoir des interactions au niveau de la construction du modèle. Le deuxième inconvénient est que ces méthodes nécessitent un grand nombre de sujets pour découvrir des interactions avec succès. De plus le modèle est sensible à la méthode de clustering utilisée, et des groupes hétérogènes peuvent présenter une moyenne d’expression fortement corrélée avec la variable réponse [6, 8, 14, 15].

La Régression en Composantes Principales (PCR)

La Régression en Composantes Principales (encore appelée Analyse en Composante Principales Supervisée) est similaire à l’Analyse en Composante Principale classique [16], en effet elle défini des nouvelles variables appelées « composantes principales » qui sont des combinaisons linéaires des variables d’origine. Cette méthode gère le problème de la grande dimension en n’utilisant que les composantes qui ont la plus forte corrélation estimée avec la réponse Y pour l’ACP. Il y a cependant des inconvénients à la méthode PCR : les 1ères composantes principales ne sont pas forcement celles qui expliqueront le mieux Y, de plus, la méthode demande souvent plus de composantes que la PLS pour donner une bonne prédiction [10, 17, 18]. Une explication plus détaillée de cette méthode est disponible en annexe A.

La méthode LARS (modèle de Cox avec pénalité de typ e L1)

Cette approche consiste à pénaliser la méthode des moindres carrés par ajout d’une contrainte de type L1 sur la vraisemblance partielle du modèle(donc sur l’estimation des coefficients).
La méthode LARS utilise la connexion entre les méthodes LAR et LASSO pour rendre utilisable dans le cas de données de très grande dimension la méthode de sélection de variables LASSO développée et adaptée dans le cadre du modèle de Cox.
L’algorithme du LARS commence avec tous les coefficients de régression βnuls, et consiste à sélectionner les variables explicatives pertinentes en les choisissant les moins corrélées possibles entre elles et le plus corrélées possibleavec la variable réponse Y [19 – 24]. Une explication plus approfondie de cette méthode est disponible en annexe B.

Capacité prédictive du modèle

Les courbes ROC

Quand la variable réponse est binaire, la qualité de prédiction d’un modèle est généralement évaluée par le taux de bien classés (on évalue par rapport à un seuil de discrimination (qui varie) la valeur diagnostique d’un signe dans la maladie et on classe les individus selon la réponse du test : vivants ou morts).
La qualité de prédiction du modèle est caractérisée par 2 critères complémentaires que sont la sensibilité et la spécificité.
La sensibilité est la probabilité que le test soit positif si la maladie est présente ou encore la proportion de tests positifs parmi la population malade, elle se mesure chez les malades seulement. Elle s’accompagne toujours d’une mesure qu’est la spécificité, c’est la probabilité d’obtenir un test négatif chez les non-malades ou encore la proportion de tests négatifs parmi la population non-malade, elle se mesure chez les non-malades seulement. On a tout intérêt à ce que la sensibilité et la spécificité soient les plus grandes possible.
Le ROC (Receiver Operating Characteristic) est utilisé comme une mesure de la performance du classifieur binaire quand le seuil de discrimination varie. Graphiquement, on représente souvent la mesure ROC sous la forme d’une courbe qui donne le taux de classification correcte dans un groupe (la sensibilité ou taux de faux positifs) en fonction du taux de classifications incorrectes pour ce même groupe (lecomplément à 1 de la spécificité ou taux de faux positifs).
La courbe ROC (figure 6) est un outil graphique permettant de représenter la capacité d’un test à discriminer entre les populations de deux groupes, à un temps donné.

Application aux données cliniques

Travail sous R

Présentation de R

Ce logiciel est un environnement de manipulation d’analyse statistique et de représentation graphique des données, qui possède son propre langage de programmation. Il fournit des procédures usuelles et possède des facilités graphiques performantes pour explorer les données. Si les fonctions de base ne suffisent pas, de nombreux modules (packages) additionnels permettent d’étendre ces dernières dans différents domaines.
Nommé par la lettre R en référence à ses deux auteurs Ross Ihaka et Robert Gentelman (auxquels sont venus depuis s’ajouter de nombreux chercheurs), son nom est aussi un clin d’œil au langage S. En effet, c’est au départ un clone de l’outil d’analyse statistique S+ (logiciel payant commercialisé par MathSoft et developpé par Statistical Sciences autour du langage S conçu par les laboratoires Bell) qui a petit à petit acquis son autonomie (il existe depuis une vingtaine d’années) et est devenu une référence dans le monde de la statistique de part son caractère libre qui en fait un outil très dynamique.
Les codes sources et modules d’application de ce langage sont disponibles sur le site du Comprehensive R Archive Network (CRAN) et peuvent être recopiés et diffusés gratuitement.
Les instructions sont saisies dans une console et exécutées au fur et à mesure de leur introduction dans la console (mode interactif).
Dans un premier temps développé pour les systèmes d’exploitation libres et gratuits à savoir UNIX et Linux, est très vite devenu disponible gratuitement (suivant les termes des Licences Publiques Générales, GLP) pour les systèmes d’exploitation Windows et Mac OS X.
Son noyau est implémenté essentiellement en langage C et FORTRAN, ses versions sont distribuées sous la forme de codes sources binaires à compiler (UNIX et Linux) ou d’exécutables précompilés (Windows). Les fichiers d’installation sont disponibles à partir du site web du CRAN, ce site répertorie également une importante source de documentation pour l’installation et l’utilisation du logiciel sur chaque système d’exploitation. est un langage de programmation interactif et orienté objet ce qui signifie que les variables, les données, les fonctions, les résultats sont stockés dans la mémoire de l’ordinateur sous forme d’objets qui ont chacun un nom.
C’est également un langage interprété c’est-à-dire non compilé. Les commandes entrées au clavier sont directement exécutées et contrairement à la plupart des langages informatiques comme C, FORTRAN ou encore JAVA, la construction d’un programme complet n’est pas nécessaire.
Cette propriété permet d’évaluer rapidement la qualité des algorithmes et de les débuguer.
Cependant, l’exécution d’un tel programme peut être plus couteuse en temps machine qu’un programme équivalent compilé.
Enfin, la dernière particularité de ce logiciel est d’être, comme Matlab ou Scilab, un langage évolué basé sur le calcul matriciel et la manipulation simple d’objets complexes (listes, dataframe, etc.). Sa simplicité d’utilisation permet de programmer rapidement des algorithmes évolués. Initialement dédié à la statistique, ce langage est maintenant suffisamment puissant (et précis) pour le calcul scientifique et l’ingénierie mathématique (domaine de prédilection de Matlab). Il constitue aujourd’hui un langage de programmation intégré d’analyse statistique.

Jeux de données publiques

Ce paragraphe du rapport a été écrit pour présenter le jeu de données publiques (dit « d’entraînement ») utilisé pour tester et comparerles différentes méthodes retenues dans le chapitre 4.
Ce jeu traitant de données sur le type le plus commun de lymphome (via des lymphochip, un type de biopuces différent du type affymetrix) est composé de 7399 variables (ce qui correspond à 4128 gènes) et un nombre total de 240 individus. Ce nombre total d’individus est divisé en 2 groupes, l’un de 160 patients qui va former le « training set », l’ensemble des observations utilisé dans le but de construire le modèle, et l’autre de 80 patients qui va former le « test set » , l’ensemble des observations utilisé dans le but de tester la qualité du modèle.

Analyse de survie 

La figure 8 représente l’estimation de la courbe de survie pour le modèle nul (c’est-à-dire sans aucune variable). La médiane de survie (la durée de suivi pour laquelle la moitié des individus sont décédés) est de 2,9 ans. A la fin de l’étude il reste 1 individu en vie (table II)

Conclusion

Le travail effectué à Transgene 

Au cours de ce stage, un travail de bibliographie a permis de trouver différentes méthodes pertinentes de réduction de la dimensionnalité : larégression PLS et la méthode LARS.
Quatre méthodes (LARSDR, PLS, PLSDR et KPLSDR) ont été testées sur un jeu de données publiques, et une s’est révélée la plus pertinente : la méthode PLSDR.
L’analyse de ces méthodes a été rendue complexe parla recherche de différents critères les qualifiant (le noyau gaussien, la déviance résiduelle, le critère du Cp de Mallows, l’indicateur de bonne prédiction du modèle Q2, etc)
Les résultats d’une méthode appliquée sur un jeu de données dépendant de la structure du jeu, les 4 méthodes testées sur le jeu de données publiques dans le paragraphe 6.2 seront appliquées sur le jeu de données de Transgene. La comparaison mettra en avant une méthode pertinente qui sera utilisée pour fournir une listede gènes permettant de prédire la survie des patients relativement au traitement.

Les acquis du stage

Ce stage a été pour moi une expérience très enrichissante car, j’ai pu d’une part, étudier deux thématiques différentes des statistiques qui sont la réduction de la dimensionnalité et l’analyse de survie, et d’autre part découvrir une application biologique de ces dernières, comprennent l’utilisation des biopuces pour découvrir, via leur profil transcriptomique,l’influence d’un traitement sur des patients.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Chapitre 1: Introduction 
Chapitre 2: Données transcriptomiques 
2.1 La molécule d’ADN
2.2 La puce à ADN
Chapitre 3: Analyse de survie et modèle de Cox
3.1 L’analyse de survie
3.2 L’estimation de la survie : méthode de Kaplan-Meier
3.3 Risque instantané de décès
3.4 Le modèle de Cox
3.4.1 Représentation du modèle de Cox et fonctions liées
3.4.2 Méthode du maximum de la vraisemblance
3.4.3 Hypothèses du modèle de Cox
Chapitre 4: Réduction du nombre de variables
4.1 Description des différentes méthodes
4.2 Les méthodes les plus pertinentes
4.3 Sélection du nombre de composantes
4.3.1 Regression PLS
4.3.2 Méthode LARS
Chapitre 5: Capacité prédictive du modèle 
5.1 Les courbes ROC
5.2 L’aire sous la courbe (AUC)
Chapitre 6: Application aux données cliniques 
6.1 Travail sous R
6.1.1 Présentation de R
6.1.2 Descriptif des fonctions utilisées
6.2 Jeux de données publiques
6.2.1 Analyse de survie
6.2.2 Analyse transcriptomique
6.2.3 Résultats
Chapitre 7: Conclusion 
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *