La thèse fut réalisée grâce à une collaboration du CRCINA (Centre de recherche en cancérologie et immunologie Nantes-Angers)/Inserm, du Ls2n (Laboratoire des sciences numériques de Nantes)/Ecole Centrale de Nantes, et de l’équipe de médecine nucléaire du CHU (Centre Hospitalier Universitaire) de Nantes. Mes travaux rentrent dans le projet MILCOM (Multi-modal Imaging and Learning for Computational-based Medicine) dont l’objectif est d’aider les médecins à poser un diagnostic, dans le but d’un traitement personnalisé, grâce à des informations plus riches et propres à chaque patient. Mes travaux ont en particulier pour objectif de développer des algorithmes d’apprentissage automatique pour lier de façon quantitative et reproductible les images TEP (Tomographie à Emission de Positon), et la survie de patients atteints de myélome multiple. Le myélome multiple est un cancer de la moelle osseuse caractérisé par un taux de survie à 5 ans d’environ 50% [4] et un haut taux de rechute. Les chances de survie dépendent de la rapidité de prise en charge avec le traitement approprié. Le modèle développé a pour but de déterminer directement quel profil de patient est le plus à risque et donc de potentiellement adapter le traitement en fonction de sa situation clinique. Ainsi le travail réalisé lors de cette thèse est une analyse de survie des patients atteints de myélome multiple à partir de deux bases de données provenant de deux études cliniques. L’analyse de survie peut être définie comme la prédiction du temps écoulé jusqu’à la survenue d’un événement précis. Elle regroupe de nombreuses méthodes qu’elles soient statistiques ou automatiques. La méthode la plus connue est celle de Cox qui permet de prédire un risque et qui est employée lorsque le but est d’évaluer les effets des covariables sur le temps de survie. Si l’on veut simplement comparer la survie de deux populations/groupes (bas et haut risque, hommes/femmes), on peut utiliser la méthode de Kaplan-Meier. Cette méthode a l’avantage d’être simple d’utilisation et d’interprétation, et ne nécessite aucune hypothèse sur les distributions de survie.
Cependant, dans la littérature les Forêts de survie aléatoire (RSF) [5] sont devenues une référence car celles-ci sont moins dépendantes du taux de censure que la méthode de Cox par exemple. C’est une méthode de prédiction de survie à partir d’un ensemble d’arbres de décision qui prend en compte la censure à droite et les données manquantes. Nous avons donc proposé un modèle basé sur ces RSF, où nous donnons en entrée des caractéristiques radiomiques calculées sur des images TEP et des caractéristiques cliniques. Il en ressort une prédiction de la survie du patient mais aussi l’importance des caractéristiques dans le calcul de cette prédiction. Les techniques mises en œuvre sont relativement récentes et originales dans le contexte du myélome multiple. L’élaboration du modèle basé sur les RSF et son analyse sont présentées dans la partie 3.4.2. Deux articles ont été publiés à partir de ces travaux : un article technique dans International Journal of Computer Assisted Radiology and Surgery (IJCARS) [6] et un article applicatif/médical dans l’European Journal of Nuclear Medicine and Molecular Imaging (EJNMMI) [7].
Cependant, il existe maintenant des méthodes d’apprentissage profond, qui ont permis de grande avancées dans de nombreux domaines et notamment en classification et en segmentation [8,9]. Leur utilisation dans la prédiction de survie reste encore relativement récente et peu présente, bien que celle-ci ait beaucoup augmenté depuis 2016. L’utilisation de l’apprentissage profond pour l’analyse de survie se résume parfois à une classification ou une régression ne prenant pas en compte la censure [10], ou a une extraction de caractéristiques profondes suivie d’une méthode d’apprentissage machine classique (Cox ou RSF) [11]. Les papiers prenant en compte la censure dans la fonction de coût utilisent pour la plupart une simple adaptation de la fonction de Cox [12]. Or de nouvelles fonctions furent proposées [13, 14] et nous souhaitons savoir si celles-ci sont plus prédictives que la fonction de coût Cox. Nous proposons aussi des adaptations de fonctions contrastives par triplets que nous adaptons à la survie.
Contexte clinique
La thèse se déroule dans le contexte clinique du myélome multiple. Ce cancer hématologique est caractérisé par la multiplication dans la moelle osseuse de plasmocytes anormaux. Les conséquences, présentées dans la figure 2.1, sont :
— L’ affaiblissement du système immunitaire en raison de la diminution du nombre de plasmocytes normaux.
— La diminution de la production des cellules sanguines.
— La stimulation de la résorption osseuse ostéoclastique par sécretion de facteurs OAF (Osteoclast Activating Factors). Cela peut ainsi engendrer une hypercalcémie et donc des troubles cardiaques et cérébraux, faiblesse musculaire, etc.
— L’immunoglobuline monoclonale produite par les plasmocytes anormaux circule dans le sang, et lors de son passage dans les reins, peut y former des dépôts et induire une insuffisance rénale [16].
Environ 6000 à 7000 nouveaux cas de myélome multiple sont diagnostiqués chaque année en France et les risques de rechute sont très fréquents. La survie nette à 5 ans est en moyenne de 54% [4].
Pour accroître les chances de survie il faut détecter et soigner au plus tôt la maladie avec le bon traitement. La détection des lésions et le diagnostic peuvent être faits par 18FFDG (fluorodésoxyglucose) TEP. Cette dernière fut ajoutée aux critères révisés IMWG (International Myeloma Working Group). Une machine TEP/TDM (Tomodensitométrie) est présentée dans la figure 2.2A). Bailly et al. [17] détaillent en profondeur la TEP diagnostique. Les images 3D obtenues avec la 18F-FDG TEP permettent un diagnostic précoce des lésions osseuses focales du myélome multiple avec une sensibilité de 85 à 93% et une spécificité de 83 à 100%. Sa sensibilité est supérieure à celle des radiographies conventionnelles et peu différente de celle de l’IRM (Imagerie par Résonance Magnétique). Elle met en évidence 25 à 55% de nouvelles lésions en plus par rapport aux autres techniques d’imagerie [18]. A la différence de l’IRM, la FDG-TEP à l’avantage d’être quantitative. En effet, la fixation du FDG est caractérisée par une indice, le SUV (Standardized Uptake Value), qui prend en compte l’activité injectée et la masse du patient.
La méthode du 18F-FDG TEP résumée dans la figure 2.2B utilise l’association d’un vecteur, le glucose et d’un émetteur, le fluor 18. Le glucose est consommé abondamment par les lésions cancéreuses mais aussi le cerveau et se retrouve dans la vessie par élimination. Le couple vecteur/émetteur (ou médicament radiopharmaceutique) se dirigera donc principalement vers ces zones. Le fluor 18 va se désintégrer dans 97% des cas en oxygène 18 par désintégration β + en formant des positons [voir équation 2.1](et dans 3% des cas par capture électronique).
Les images FDG-PET/CT ont été acquises dans chaque centre selon leur procédure locale. En résumé, tous les patients étaient à jeun pendant 4 heures avant l’acquisition et le taux de glucose sanguin devait être ≤ 150mg/dL. La TEP/TDM-FDG du corps entier a été réalisée entre 54 et 80 minutes après l’injection de 3-7 MB. Les protocoles de reconstruction d’images cliniques de routine ont été utilisés dans chaque centre en utilisant leurs propres paramètres pour la TEP et la TDM. La grille de voxels utilisée pour les images reconstruites, qui est d’importance lorsqu’on traite de la de la délimitation de la tumeur et du calcul des caractéristiques texturales, variait de (2, 7×2, 7×3, 3) à (5, 5×5, 5×3, 3) mm3. Après acquisition, les images TEP ont été récupérées à partir de dcm corps entier. Une ROI (Region Of Interest) a été créée à partir du logiciel Dosisoft pour chaque lésion focale et notamment les plus fixantes (nous nous intéressons uniquement à ces dernières). L’information contenue dans la ROI des lésions les plus fixantes peut avoir un grand intérêt pronostique. Elle peut donc être utilisée, en parallèle des données cliniques, pour déterminer un parcours de soins personnalisé pour chaque patient en fonction de son risque de progression avec chaque traitement.
L’objectif de cette thèse est la création de modèles permettant de prédire la PFS des patients atteints de myélome multiple et la détermination des biomarqueurs de la progression de la maladie, à partir de ces données cliniques et de l’information contenue dans cette ROI des lésions les plus fixantes calculée sur les images TEP. Nous utilisons la TEP de diagnostic car le but est déterminer le meilleur traitement dès le départ et ainsi augmenter les chances de survie. Les bases de données de myélome multiple étant rares et inexistantes publiquement à notre connaissance, nous sommes contraint à l’utilisation de ces deux seules bases de données. Dans la détermination de ces modèles, nous seront donc limités par la censure qui est à un taux de 45% (45% n’ont pas eu d’évènement de progression avant la fin de leur suivi ou de l’étude clinique), par les caractéristiques de ces lésions (taille faible) et des images TEP (faible résolution), et par le nombre de patients.
|
Table des matières
I Introduction et contexte
1 Introduction
2 Contexte clinique
3 Arrière-plan scientifique
3.1 L’analyse de survie
3.2 Les méthodes d’estimation statistique pour l’analyse de survie
3.3 Les méthodes d’apprentissage automatique
3.4 Les valeurs métriques d’évaluation
II Analyse de survie par Random Survival Forest
4 État de l’art
4.1 L’analyse de la survie
4.2 L’utilisation d’images médicales pour l’étude de la survie
4.3 Myélome multiple et survie
4.4 Conclusion
5 Méthodes
5.1 La méthode des RSF
5.2 Les méthodes de calcul de l’importance des variables
5.3 Analyse par RSF : le modèle proposé
5.4 Pré-traitement et récupération des variables
6 Validation expérimentale
6.1 Détails d’implémentation
6.2 Résultats
7 Discussions et conclusion
7.1 Discussions
7.2 Conclusions
III Analyse de survie par apprentissage profond
8 Contexte
8.1 L’analyse de survie par apprentissage profond
8.2 Les défis des bases de données TEP prospectives
9 État de l’art
9.1 Apprentissage profond et analyse de survie
9.2 Apprentissage profond et données en faible nombre et de petite taille
10 Méthodes
10.1 Adapter un modèle d’apprentissage automatique aux données TEP de bases prospectives
10.2 Adapter l’apprentissage automatique à la survie
11 Validation expérimentale
11.1 Cadre expérimental
11.2 Résultats
12 Discussions et conclusions
12.1 Discussions
12.2 Conclusions
IV Conclusions
Télécharger le rapport complet