Les méthodes d’estimation statistique pour l’analyse de survie
L’analyse de survie est possible par l’estimation statistique et l’apprentissage automatique. L’estimation statistique est la méthode la plus courante et la plus utilisée par les médecins. Il existe différentes méthodes pour estimer la fonction de survie :
— Des approches non paramétriques comme le Kaplan-Meier ou l’estimateur de Nelson Aalen, sont utilisées quand aucune hypothèse ne peut être faite sur la distribution des temps de survie.
— Des approches paramétriques comme le model de Weibull, qui nécessite une hypothèse sur la distribution des temps de survie
— Des approches semi-paramétriques comme le model de Cox.
Outre ces modèles d’estimation statistique, il existe aussi des méthodes d’apprentissage automatique qui sont applicables à l’étude de la survie qui seront présentées dans la section 3.3.
Les méthodes non paramétriques
L’estimateur de la fonction de survie le plus utilisé et le plus simple lorsqu’aucune hypothèse ne veut être faite sur la distribution des temps de survie est l’estimateur de Kaplan-Meier [20]. Il permet de décrire la survie d’une population, d’estimer la survie médiane, et le taux de survie à un temps donné et de comparer la survie de différentes populations, souvent par le test du Log-Rank [voir le calcul du Log-Rank dans la soussection 5.3.4].
L’estimateur de Kaplan-Meier
Par soucis de simplification, nous considérerons dans cette section l’évènement comme étant le décès, bien qu’il puisse s’agir par exemple de rechute ou guérison.
Méthode semi-paramétrique : Cox
Le modèle de Cox se retrouve beaucoup dans la littérature. Il est employé lorsque l’objectif est d’évaluer l’effet de covariables sur le temps de survie. Il permet d’expliquer la survenue d’un évènement au cours du temps par une ou plusieurs variables explicatives (respectivement analyse univariée et multivariée) qui peuvent être qualitatives ou quantitatives. Pour chacune des variables présentes dans le modèle final, on obtient une estimation du risque relatif (hazard ratio) de survenue d’un évènement en fonction de la valeur de la variable, et de son intervalle de confiance. Le hazard ratio est égal au risque relatif instantané de l’évènement pondéré sur l’ensemble des variables explicatives introduites dans le modèle. Cela implique l’hypothèse que le risque de décès dans les différents groupes d’étude est constant dans le temps et similaire dans tous les sous-groupes.
Les méthodes d’apprentissage automatique
Outre ces méthodes, l’apprentissage automatique est de plus en plus utilisé pour étudier la survie. On peut par exemple trouver dans la littérature la méthode K-NN (K Nearest Neighbours), la méthode Bayesienne [24] [25], ou encore les méthodes basées sur les arbres de décision. La majorité de ces méthodes sont des méthodes de classification et de régression qui ne sont pas forcément adaptées pour l’analyse de la survie et notamment pour les données censurées. En effet, l’utilisation d’une classification impliquerait d’éliminer un bonne partie des patients présentant de la censure. Par exemple, dans le cas d’une classification en 5 classes avec chaque classe correspondante à 1 an, le patient, avec un temps de survie de 2 ans mais sans évènement (censuré), peut être classé dans la classe 2 mais aussi 3, 4 et 5 étant donné que nous ne savons pas quand aura lieu l’évènement. Il est donc inclassable.
Nous présenterons ici les méthodes sur lesquelles se basent les deux méthodes principales de cette thèse. Les forêts de survie aléatoires (RSF) se basent sur les méthodes d’arbres et plus particulièrement de forêts aléatoires, et les méthodes d’apprentissage profond surles réseaux de neurones (NN) et les réseaux de neurones convolutionnels (CNN).
Les méthodes basées sur les arbres de décision
La méthode des RSF est une méthode d’ensemble d’arbres de décision. Un arbre de décision permet de traiter la régression, la classification bi-classe ou multi-classe ou encore de mélanger des variables explicatives quantitatives et qualitatives. Les méthodes d’arbres de décision sont connues depuis les années 60 mais ont connues leur apogée dans les années 80, avec les arbres CART (Classification And Regression Trees) de Leo Breiman qui permettent une large applicabilité, une facilité d’interprétation et des garanties théoriques. Les arbres CART ont cependant un problème de variance. En effet, de petites modifications dans l’échantillon d’apprentissage peuvent avoir des effets importants sur la prédiction. La solution est d’utiliser des forêts, c’est à dire des ensembles d’arbres chacun perturbé de façon aléatoire. Ce sont les forêts aléatoires (Random Forest ou RF) de Breiman [26], basées sur le bagging qui se montrent encore aujourd’hui les plus performantes sur le plan expérimental, et qui sont de plus en plus utilisées pour la survie.
Les méthodes d’arbres font partie de la catégorie des méthodes d’apprentissage automatique dites supervisées. C’est à dire qu’il faut au préalable entraîner le modèle avec des échantillons étiquetés, afin de pouvoir réaliser le test sur des échantillons non étiquetés et prédire leur sortie.
Les arbres CART
Le principe général de CART est de partitionner récursivement l’espace d’entrée X de façon binaire (X étant une matrice de dimensions (N × Nc) avec N le nombre d’individus et Nc le nombre de variables), puis de déterminer une sous-partition optimale afin de regrouper les patients dans des espaces avec une réponse commune. Bâtir un arbre CART se fait en deux étapes. Une première phase est la construction d’un arbre maximal (sans élagage), qui permet de définir la famille de modèles à l’intérieur de laquelle on cherchera à sélectionner l’arbre le plus prédictif. L’arbre se construit en commençant par partitionner dans deux noeuds fils, l’entrée X , en fonction d’une variable x j et d’une valeur c jchoisies.
Les méthodes d’apprentissage automatique
Le choix de la variable et de la valeur de la séparation est faite soit dans le but de diminuer la variance des nœuds obtenus pour la régression, soit en cherchant à diminuer la fonction de pureté de Gini, et donc à augmenter l’homogénéité des nœuds obtenus, pour la classification.
La seconde phase, dite d’élagage, construit une suite de sous-arbres optimaux élagués de l’arbre maximal et qui comprend la racine. La figure 3.3 présente un exemple d’arbre de décision. CART permet une bonne gestion des données manquantes et une bonne interprétabilité. Un autre avantage est la résistance naturelle aux valeurs aberrantes, la méthode étant purement non paramétrique, la présence d’une donnée aberrante dans l’ensemble d’apprentissage va contaminer essentiellement la feuille qui la contient, avec un faible impact pour les autres [27].
L’utilisation d’images médicales pour l’étude de la survie
La plupart des études de survie se basent sur des variables cliniques. Cependant, de plus en plus d’articles louent les mérites de l’utilisation des radiomiques comme variable d’entrée des modèles [25, 45]. La radiomique est définie par Bourgier et al. [46] comme un outil qui « permet une analyse qualitative et quantitative ultra performante, consistant en l’extraction à haut débit de données numériques d’imagerie médicale afin d’obtenir des informations prédictives et/ou pronostiques concernant les patients pris en charge pour une pathologie cancéreuse ». Les radiomiques peuvent être calculées à partir d’images tomographique provenant de TDM, IRM, TEP, ou n’importe quelle autre modalité. Ces données images sont souvent accompagnées par des données cliniques ou génomiques. Les images sont de plus en plus utilisées comme facteur pronostique, par exemple pour le cancer du poumon [47, 48], le lymphome [49], le cancer tête-cou [32], le cancer de l’œsophage [50] ou encore le carcinome bronchique [51]. Aerts et al. [52] montrent qu’un grand nombre de caractéristiques extraites des images TDM ont un pouvoir pronostique dans des bases de données indépendantes de cancer du poumon et tête-cou. Ils indiquent que c’est une méthode rapide, peu chère et non invasive pour étudier l’information phénotypique, et que la signature radiomique est significativement associé à des motifs d’expression de gènes sous-jacents.
Concernant l’imagerie TEP (souvent associée à la TDM), les travaux l’utilisant à desfins pronostiques sont nombreux. Lartizien et al. [ 48], Desseroit et al. [53], Hatt et al. [54] et Bailly et al. [55] l’ont utilisée pour déterminer quelles sont les caractéristiques les plus intéressantes, celles qui dépendent le moins de la segmentation et celles qui sont liées entre elles. Vallières et al. [37] s’intéresse à la recherche de nouvelles textures composites entre TEP et IRM pour mieux identifier les tumeurs agressives, et montre que les caractéristiques extraites des images FDG-TEP sont généralement plus prédictives que celles extraites de l’IRM, dans le cas des métastases pulmonaires d’un sarcome mais la valeur prédictive est fortement augmentée lors de l’association des deux imageries. L’article de Ben Boullègue et al. [30] montre que la combinaison de facteurs pronostiques habituels avec des paramètres de texture de PET/TDM et de forme appropriés permettent d’améliorer la prédiction d’une réponse métabolique précoce dans plusieurs types de lymphome.
Tixier et al. [50] ont démontré que l’analyse texturale d’images FDG-TEP scans peut prédire la réponse à un traitement contre le cancer de l’œsophage. Enfin, des TEP scans ont été utilisées pour montrer la stabilité des caractéristiques radiomiques dans un groupe de patients atteint de NSCLC (Non-Small Cell Lung Cancer) [56].
Myélome multiple et survie
Peu d’articles tentent de prédire la survie des patients atteints de myélome multiple.
La majorité des papiers mettant en relation apprentissage automatique et myélome multiple s’attellent à la segmentation et la détection des lésions [9]. D’autres comme Decaux et al. [57] et Amin et al. [58] proposent de prédire la survie des patients atteints de myélome multiple à partir de l’expression génique. Comme la majorité des articles médicaux, Decaux et al. [57] utilisent les méthodes de Cox et de Kaplan Meier pour réaliser l’étude. Amin et al. [58] testent plusieurs méthodes d’apprentissage automatique (Prédicteur composé de covariables, Analyse discriminante linéaire, K-NN, méthode des plus proche centroïdes, SVM) pour prédire une réponse complète en fonction du profil d’expression génique. Enfin, Lapa et al. [59] utilisent la méthode de Kaplan-Meier avec des caractéristiques des images TEP/TDM. Outre l’article de Pang et al. [60] qui utilise une base de données de myélome multiple pour montrer la corrélation entre la survie et les polymorphismes du nucléotide simple, aucun papier ne présente pour l’instant l’utilisation de RSF pour l’étude de la survie des patients atteints de myélome multiple.
Concernant les modalités utilisées pour l’étude du myélome multiple, le TDM permet de détecter de petites lésions osseuses qui ne sont pas détectables avec la radiographie conventionnelle [61]. Cependant, les méthodes de référence sont maintenant l’IRM et la TEP en baseline. L’IRM est beaucoup utilisée car plus sensible que le TDM et peut détecter une infiltration de la moelle osseuse diffuse avec une bonne différentiation des tissus mous [62, 63]. L’utilisation de la 18-FDG-TEP combiné au TDM permet aussi une bonne sensibilité [64–67]. L’article de Bodet-Milin et al. [68] confirme l’intérêt d’utiliser la TEP.
En effet, la FDG-TEP de corps entier permet de détecter les lésions myélomateuses avec une sensibilité de 90% contre 70% avec l’IRM. De nouveaux traceurs font leur apparition, comme le 68Ga-Pentixafor qui permet une haute sensibilité de détection des lésions du myélome multiple [9, 69] mais ceux ci restent récents. Certains papiers s’attèlent à l’étude des facteurs pronostiques du myélome multiple dans les images TEP. Ainsi, Carlier et al. [70] montrent l’intérêt de l’hétérogénéité déterminée sur FDG-TEP au diagnostic chez des patients atteints de myélome multiples. Ils rapportent aussi que des études prospectives ont prouvé la valeur pronostique de plus de trois lésions focales, de la SUV Max, des lésions extra-médullaires [2, 71] et du volume métabolique total et de la glycolyse totale [72].
La FDG-TEP reste une des méthode d’imagerie les plus utilisées dans l’exploration clinique du myélome multiple (généralement couplée au TDM). C’est aussi la modalité utilisée au CHU de Nantes (le 68Ga-Pentixafor étant encore un traceur récent), ce qui nous amène donc à son utilisation dans le cadre de l’étude du myélome multiple, pour la prédiction de survie.
Conclusion
Dans l’étude de la survie, un grand nombre de papiers prouvent l’intérêt de l’utilisationde RSF par rapport aux méthodes plus conventionnell es. De plus, la méthode RSF reste relativement récente et malgré l’intérêt grandissant pour la radiomique et son efficacité prouvée, l’utilisation de caractéristiques provenant d’images médicales avec des RSF reste peu commune. Ceci nous amène à nous intéresser à l’utilisation des RSF pour la prédiction de la progression chez les patients atteints de myélome multiple, en y associant des caractéristiques radiomiques. Étant dans un problème à grande dimension (notamment en raison de l’évaluation de différentes implémentations de calcul des radiomiques), nous y associons des méthode de sélection des variables. Dans le but de garder la méthode interprétable et de conserver les caractéristiques qui sont cohérentes avec le modèle prédictif, nous proposerons un cadre où les deux tâches, la sélection des variables et le modèle de prédiction de survie, sont basées sur les RSF.
L’imagerie choisie est l’imagerie FDG-TEP. En effet, pour l’étude du myélome multiple, le choix peut se porter sur l’IRM, l’imagerie TEP ou le TDM. Or, comme l’indique P. Moreau et al. [1], les images TEP sont équivalents en terme de détection de lésions mais les images TEP permettent une meilleur prédiction de la PFS ou de l’OS, ce qui fait de cette méthode notre premier choix.
Les méthodes de calcul de l’importance des variables
L’article de Ishwaran et al. [5] donne une méthode de calcul de l’importance des variables (VIMP). Intuitivement, la méthode mesure l’importance d’une caractéristique x j en l’enlevant de tous les arbres et en regardant l’effet sur les prédictions. Un grand changement est un fort indicateur de la valeur prédictive de la variable x j . Son calcul consiste pour chaque caractéristique x j , à reconstruire les arbres à l’aide de l’OOB, en remplaçant les séparation utilisant cette variable, par une séparation aléatoire. Ainsi, lorsque un noeud Ω utilise x j les individus du noeud Ω sont assignés aléatoirement dans les noeuds fils, et l’erreur de prédiction 1 err vimpassociée à la nouvelle forêt est recalculée.
La valeur d’importance de la caractéristique x j est VIMP(x j ) = err vimp − err oob (avec err oob l’erreur de base, sans assignement aléatoire des individus). Plus la valeur du VIMP est grande, plus la caractéristique a une valeur prédictive. L’algorithme est résumé dans le schéma 5.2.
L’optimisation des hyperparamètres des RSF
La première étape correspond à l’optimisation des hyperparamètres des RSF (en jaune dans la figure 5.4). Pour ce faire nous réalisons une recherche par grille sur le nombre d’arbres, le mode de séparation, le nombre minimal d’échantillon dans chaque noeud et le nombre maximal de variables dans chaque noeud. Pour chaque combinaison de paramètres g param , une validation croisée par k « folds » est réalisée sur l’ensemble des données d’entraînement et l’erreur de prédiction est moyennée sur ces « folds ». La combinaison de paramètres donnant l’erreur de prédiction moyenne la plus basse est gardée pour la suite du modèle.
Le calcul de l’importance des variables
La seconde étape (en vert dans la figure 5.4) correspond au classement des variables par VIMP. Ce classement est effectué, compte tenu du vecteur g ∗ param contenant les hyperparamètres optimaux de la première étape (étape 0), sur la base d’une RSF et d’une évaluation de l’importance des variables (VIMP) [voir section 5.2]. VIMP a été exécuté 100 fois (avec 100 séparations aléatoires en jeux d’entraînement et de validation) et chaque caractéristique c j a été classée en fonction de la somme VScj de l’importance de la variable sur les 100 itérations afin de faire face aux instabilités résultant du caractère aléatoire du modèle. Le calcul de VScj est présenté dans l’équation suivante.
Récupération des données cliniques et d’images (autres que texturales)
Différentes caractéristiques ont été relevées lors des études cliniques IMAJEM [1] et EMN02/HO95 [2]. Outre les données cliniques classiques telles que l’âge, le sexe ou les valeurs sanguines (calcémie, hémoglobine, etc.), des caractéristiques peuvent être calculées grâce aux images TEP, TDM et IRM. Ces caractéristiques sont calculées sur des lésions focales (LF) et/ou des lésions diffuses de la moelle osseuse (BM). Les LF ont été définies comme étant des foyers à l’intérieur des os plus intenses que le fond normal de la moelle osseuse, avec ou sans lésion lytique sous-jacente, et présents sur au moins deux coupes consécutives. L’atteinte diffuse de la moelle osseuse (BM) a été définie comme une captation homogène dans le squelette axial et appendiculaire supérieure à celle du foie ou comme une captation hétérogène quelle que soit l’intensité de la captation. Ainsi nousallons considérer différentes valeurs calculées sur ces lésions :
Détails du groupe d’expériences cliniques
Détails sur les données d’entrée
Par la suite, lorsque la base de données EMN02/HO95 fut disponible nous avons combiné ces deux bases pour une analyse plus orientée clinique. Nous avions le choix de garder l’une pour l’entraînement et l’autre pour le test ou de les mélanger. Nous avons choisi de les mélanger, car les deux bases était légèrement différentes (le design de l’étude est légèrement différent et la molécule étudiée, bien que similaire n’est pas la même). Une harmonisation des données à été réalisée au niveau de chaque pays (France et Italie), et non pas au niveau des institutions car elles sont trop nombreuses avec chacune un petit nombre de patients. L’harmonisation a été réalisée grâce à l’approche M-ComBat [74]. La méthode M-ComBat est une modification de la méthode ComBat [75] qui permet d’éliminer les effets de groupes et qui est basée sur un cadre empirique de Bayes. Au contraire de ComBat qui consiste à déplacer les échantillons vers la grande moyenne et la variance groupée, M-Combat les déplace vers la moyenne et la variance du lot de référence « goldenstandard ».
|
Table des matières
Table des figures
Liste des tableaux
Notations
Abréviations
I Introduction et contexte
1 Introduction
2 Contexte clinique
3 Arrière-plan scientifique
3.1 L’analyse de survie
3.2 Les méthodes d’estimation statistique pour l’analyse de survie
3.3 Les méthodes d’apprentissage automatique
3.4 Les valeurs métriques d’évaluation
II Analyse de survie par Random Survival Forest
4 État de l’art
4.1 L’analyse de la survie
4.2 L’utilisation d’images médicales pour l’étude de la survie
4.3 Myélome multiple et survie
4.4 Conclusion
5 Méthodes
5.1 La méthode des RSF
5.2 Les méthodes de calcul de l’importance des variables
5.3 Analyse par RSF : le modèle proposé
5.4 Pré-traitement et récupération des variables
6 Validation expérimentale
6.1 Détails d’implémentation
6.2 Résultats
7 Discussions et conclusion
7.1 Discussions
7.2 Conclusions
III Analyse de survie par apprentissage profond
8 Contexte
8.1 L’analyse de survie par apprentissage profond
8.2 Les défis des bases de données TEP prospectives
9 État de l’art
9.1 Apprentissage profond et analyse de survie
9.2 Apprentissage profond et données en faible nombre et de petite taille
10 Méthodes
10.1 Adapter un modèle d’apprentissage automatique aux données TEP de bases prospectives
10.2 Adapter l’apprentissage automatique à la survie
11 Validation expérimentale
11.1 Cadre expérimental
11.2 Résultats
12 Discussions et conclusions
12.1 Discussions
12.2 Conclusions
IV Conclusions et perspectives
Annexes
A Les méthodes manuelles de segmentation utilisées
B Exemple de calculs de radiomiques
C La validation expérimentale des radiomiques par IBSI
D Paramètres de l’augmentation de données
E Poids attribués aux fonctions de coût combinées
F Les sorties du module d’attention
G Détails de la matrice de confusion de Rank&MSE
Bibliographie