Analyse de Bland & Altman (1986)
Elle permet une analyse de la concordance entre deux métriques différentes au cours de la même évaluation d’algorithmes. De ce fait, elle met en lumière un comportement récurent et pointe les biais de mesure. Elle est par exemple très utilisée pour déterminer des erreurs de sur ou sous segmentation. La figure 1.6 montre un exemple d’analyse de Bland Altman pour comparer le comportement d’un algorithme par rapport à une référence et déterminer sa sensibilité à sur ou sous segmenter. Sur cette figure, nous avons décidé de tracer la différence d’aire en pourcentage entre le résultat obtenu par l’algorithme et une référence d’étude en fonction de l’aire moyenne des formes finales (en mm2). La droite bleue représente la moyenne de différence d’aire pour l’algorithme. Ici, on voit que l’algorithme a tendance à avoir une aire de segmentation 10% supérieure à l’aire de la référence, ce qui indique qu’il effectue une sur segmentation. Les droites rouges pointillées représentent l’intervalle dans lequel 95% des données de l’algorithme se retrouvent, en supposant leur distribution normale. Plus cet intervalle est important, plus la répartition des données est hétérogène. Scores de classification d’algorithmes De manière à pouvoir classer différents algorithmes, de nombreux concours (ISBI, MICCAI, Kaggle etc. 1) sont régulièrement organisés. Ils permettent aux différentes unités de recherche de se positionner par rapport à ce qui se fait en terme d’algorithmie ailleurs dans le monde ainsi que d’avoir accès à des bases de données communes pour se comparer.
En ce sens, de nombreuses méthodologies sont mises en place pour proposer un classement le plus objectif possible. Lors d’un concours sur la segmentation 3D du foie, Heimann et al. (2009) proposait des critères fournissant un score global φ sur 100 pour classer les différents algorithmes en compétition. Algorithme STAPLE de Warfield et al. (2004) Très utilisé en imagerie médicale, l’algorithme STAPLE permet la création d’une référence à partir de plusieurs segmentations d’entrée. Ces segmentations sont représentées par des masques de décisions binaires de l’image à analyser : la valeur 1 représente un pixel 2D ou un voxel 3D considéré comme appartenant au contour de l’objet d’étude, la valeur 0 appartenant au reste de l’image. Il permet de générer une « réalité terrain », c’est à dire de produire une carte de probabilités où chaque pixel (resp. voxel) de l’image finale est associé à une probabilité d’être ou non sur le contour. La figure 1.8 détaille le principe de l’algorithme pour l’obtention de la réalité terrain. Il fournit également un rapport des performances des experts en donnant leurs scores de sensibilité et de spécificité (voir section 1.2.3 pour plus de détails sur ces paramètres). Pour ce faire, nous utilisons les définitions de la section 1.2.3 en utilisant j segmentations manuelles de chacune des images, fournissant ainsi une matrice de décision D par image. La carte de probabilité obtenue est représentée par les paramètres de performance permettant d’estimer la matrice T. Cela donne les paramètres de performance de sensibilité p j et spécificité q j pour chacun des experts. Cet algorithme a été le sujet de nombreuses amé- liorations dont la possibilité de faire varier spatialement la performance des paramètres, par Commowick et al. (2012). Dans ce mémoire, nous utiliserons la version développée par Warfield et al. (2004). Une illustration de l’algorithme STAPLE pour des images synthétisées est disponible en figure 1.9. Pour cette exemple, sept segmentations binaires d’une forme ont été effectuées. Il fallait remplir en noir (ici la valeur 1) la forme désirée et laisser l’arrière plan en blanc (à valeur de 0). L’algorithme STAPLE fournit ensuite une carte de la forme la plus probable et les valeurs des probabilités par pixel qui lui sont associées. Sont également fournis les paramètres de spécificité et de sensibilité associés à chacune des segmentations.
Cadre de Khooshabi (2013)
Le cadre développé propose une méthode pour générer un étalon-bronze dans le but de diminuer les erreurs inter et intra opérateurs. La solution développée se base sur l’algorithme STAPLE de Warfield et al. (2004). La figure 1.10 détaille le processus du cadre généré. Pour cette solution, Khooshabi (2013) développe une plateforme C++ qui utilise la librairie itk. C’est le premier cadre développé et disponible pour l’utilisation via une interface graphique, comprenant des cas d’exemples ainsi que des motivations concernant le choix des métriques. Par ailleurs, le cadre est par la suite testé sur des images synthétiques : rectangles, cercles et ellipsoïdes. Il s’agit donc d’un travail d’intérêt puisqu’il présente, pour la première fois à notre connaissance, un outil développé utilisant un cadre de validation standardisé et présentant des applications sur des exemples simples. Les métriques utilisées sont la distance de Haussdorff (éq. 1.3), l’ASD (éq. 1.1), les indices de Jaccard (éq. 1.6) et de Dice (éq. 1.7) et leurs écarts type associés. Le cadre de Khooshabi (2013) est un excellent travail préliminaire dans la proposition d’un cadre de validation d’algorithmes de segmentation d’images médicales. Toutefois, les applications présentées sont uniquement basées sur des formes géométriques simples et non des cas cliniques. Il n’y a également pas de lien entre l’étalon-bronze généré et le comportement de l’algorithme.
Par ailleurs, aucune plateforme de visualisation n’a été développée. Limitation des processus de validation d’algorithmes Dans ce chapitre, nous avons présenté l’état de l’art des méthodes de validation d’algorithmes d’imagerie médicale actuellement disponibles. À ce jour, certains protocoles ont été proposés mais aucun ne présente de méthode standardisée permettant de traiter les cas de “scènes réelles ». Les sections consacrées à la validation sont souvent composées d’une partie en fin d’article où certaines métriques de la littérature sont évaluées par rapport à une référence d’expert (Balestra et al. (2014), Chen et al. (2014), Chav et al. (2014)). Chaque méthode de validation ainsi que le choix des métriques est subjectif au choix des auteurs. Il devient donc difficile, voire impossible de pouvoir comparer les algorithmes entre eux. Dans ce sens, de nombreuses études proposent des méthodes pour mettre en place un protocole standardisé de validation. Par ailleurs, certains concours ont été mis en place pour classer les algorithmes les plus récents. Ces travaux sont intéressants, mais malheureusement très peu utilisés lors de la validation de nouveaux algorithmes. Par ailleurs, ils proposent souvent des tableaux de métriques avec des scores calibrés qui sont généralement compliqués à interpréter. En effet, bien qu’ils aient une utilité non négligeable puisqu’ils permettent de classer les algorithmes en fonction de leurs performances, ils ne renseignent pas sur les voies d’améliorations ainsi que les points forts et points faibles de ces algorithmes.
|
Table des matières
INTRODUCTION
CHAPITRE 1 REVUE DE LA LITTÉRATURE
1.1 Préliminaires
1.1.1 Rappels et notations
1.1.2 Définitions mathématiques
1.2 Métriques d’analyse de performances d’algorithmes
1.2.1 Métriques de distance
1.2.2 Métriques d’évaluation de surfaces ou de volumes
1.2.3 Répartition des données
1.2.4 Scores de classification d’algorithmes
1.3 Importance de la référence
1.3.1 Intérêt d’une référence pour valider l’analyse
1.3.2 Algorithme STAPLE de Warfield et al. (2004)
1.4 Cadres de validation disponibles
1.4.1 Cadre de Udupa et al. (2006)
1.4.2 Génération d’étalon-bronze par Jannin et al. (2002)
1.4.3 Un système standardisé avec des critères de validation par Jannin et al. (2002)
1.4.4 Cadre de Bayarri et al. (2007)
1.4.5 Cadre de Khooshabi (2013)
1.4.6 Limitation des processus de validation d’algorithmes
CHAPITRE 2 PROBLÉMATIQUE ET OBJECTIFS
2.1 Problématique
2.2 Objectifs
CHAPITRE 3 MÉTHODOLOGIE GÉNÉRALE
3.1 Génération de référence
3.1.1 Algorithme STAPLE et post-traitement pour la construction de l’étalon-bronze
3.1.2 Caractérisation de l’étalon-bronze
3.2 Évaluation multi-critères
3.2.1 Mise en place de critères d’évaluation
3.2.2 Création d’un graphique radar pour la présentation des résultats
3.3 Programmation de l’interface 2D / 3D
3.3.1 Programmation logicielle pour l’étalon-bronze
3.3.2 Programmation logicielle pour la plateforme 2D / 3D
3.3.3 Analogie des métriques 2D / 3D utilisées
3.3.4 Interface graphique de la plateforme 3D
CHAPITRE 4 APPLICATION DE LA PLATEFORME AUX IMAGES 2D
4.1 Méthodologie spécifique au 2D
4.1.1 Ensemble d’images
4.1.2 Génération de l’étalon-bronze
4.1.3 Algorithmes d’identification de la tête fémorale
4.2 Résultats sur des images EOSTM de la tête fémorale
4.2.1 Étalon-bronze
4.2.2 Évaluation des algorithmes
4.2.3 Interprétation des résultats
CHAPITRE 5 APPLICATION DE LA PLATEFORME AUX VOLUMES 3D
5.1 Méthodologie spécifique au 3D
5.1.1 Ensemble d’images
5.1.2 Étalon-bronze 3D
5.1.3 Exemple d’application avec un algorithme de segmentation 3D
5.2 Résultats sur des images IRM de tumeurs cérébrales
5.2.1 Génération d’étalon-bronze
5.2.2 Évaluation d’algorithme de segmentation 3D
5.2.3 Interprétation des résultats
CHAPITRE 6 DISCUSSIONS, CONCLUSIONS ET RECOMMANDATIONS
6.1 Discussions et conclusions
6.2 Recommandations
6.2.1 Optimisation de la génération de l’étalon-bronze
6.2.2 Caractérisation de l’étalon-bronze sur des formes complexes
6.2.3 Adaptation de l’étalon-bronze aux modèles 3D
6.2.4 Adaptation des critères aux besoins de cahier des charges
6.2.5 Amélioration de l’interface logicielle
6.3 Communication scientifique des résultats
ANNEXE I A FRAMEWORK TO EVALUATE AND VALIDATE 2D SEGMENTATION ALGORITHMS ON LOWER-LIMB XRAYS
ANNEXE II PLATEFORME D’ÉVALUATION D’ALGORITHMES DE TRAITEMENT D’IMAGES MÉDICALES
ANNEXE III AN EVALUATION PLATFORM FOR SEGMENTATION ALGORITHMS : AN APPLICATION TO FEMORAL HEAD X-RAY IMAGES
ANNEXE IV A MULTI-CRITERIA EVALUATION PLATFORM FOR SEGMENTATION ALGORITHMS
BIBLIOGRAPHIE
Télécharger le rapport complet