État de l’art de l’Intelligence Artificielle
L’intelligence artificielle regroupe différents types de paradigmes et d’algorithmes. Ses objectifs sont toujours d’automatiser un traitement ou encore calculer des prédictions. Certains algorithmes sont dits supervisés lorsqu’il est nécessaire de fournir les labels (valeurs recherchées ou valeurs cibles) pour l’entrainement et d’autres sont dit non-supervisés lorsque l’algorithme n’utilise aucune information a priori. Trois grandes parties composent l’intelligence artificielle :
— Les systèmes experts
— Le machine learning
— Le deep learning .
Système expert
Un système expert vise à reproduire une intelligence et s’appuie sur trois parties :
— Une base de faits
— Une base de règles
— Un moteur d’inférence
La base de faits contient une liste de faits permettant par exemple de décrire un environnement. La base de règles est composée de règles logiques à appliquer au fait. Le moteur d’inférence quant à lui utilise la base de règles en l’appliquant à la base de faits dans le but de produire de nouveaux faits. Plus d’informations sur les systèmes experts peuvent être trouvées dans [1, 2].
L’exemple suivant permet d’illustrer un système expert. Soit F une base de faits permettant de représenter un environnement, composée des faits p, q. Soit R une base de règles contenant les formules logiques suivantes :
p ^ q │─ r
p ^ r │─ s .
Machine learning
Le machine learning rassemble les algorithmes de statistiques automatiques permettant de calculer une prédiction telle qu’une classification, une segmentation ou une régression de données. Plusieurs algorithmes sont regroupés sous le terme de machine learning et les plus connus sont les K plus proches voisins (K-nn), les machines à vecteur de support (SVM) ou encore les K-moyennes (k-means) et les fôrets aléatoires [3]. Les K plus proches voisins est un algorithme de classification qui utilise une métrique de distance et s’appuie sur les labels des K voisins d’une nouvelle donnée afin de lui attribuer une classe [4, 5]. La figure 1.2 montre un exemple de classification d’une donnée par l’algorithme des K plus proches voisins. Les K-moyennes est un algorithme de classification non-supervisé qui cherche les K centroïdes des classes de façon à minimiser la distance moyenne des données d’une classe à son centroïde.
Les algorithmes de K plus proches voisins et K-moyenne nécessitent que l’utilisateur définisse K, le nombre de voisins pour les K-nn ou de classes pour les k-means. Les machines à support de vecteur permettent de calculer une classification en maximisant la distance entre les classes. Pour cela, une fonction noyau peut être appliquée afin d’augmenter la dimension des données dans le but de trouver un espace dans lequel une classification linéaire est possible [6, 7, 8, 9].
Deep learning
Le deep learning regroupe les algorithmes d’apprentissage profond avec les réseaux de neurones capables de traiter de grande base de données (Big data) pour des applications de classification, de segmentation et de régression. Le chapitre suivant détaille le fonctionnement d’un neurone artificiel et du réseau de neurones . Ce neurone artificiel est apparu en 1943 avec les travaux de Warren Mcculloch et Walter Pitts [10] permettant d’effectuer des calculs logiques. Cependant, ce modèle du neurone artificiel ne peut apprendre à calculer une discrimination non linéaire. Ces travaux sur le neurone artificiel sont repris en 1958 avec le perceptron développé par Rosenblatt [11]. En 1982 les premiers réseaux de neurones apparaissent avec les travaux de Hopfield [12]. Les travaux de Yann LeCun permettent d’améliorer l’apprentissage du neurone artificiel avec l’algorithme de rétro propagation en 1985 [13], suivi par l’amélioration de cet algorithme en 1988 proposée par Rumelhart, Hinton et Williams [14]. Yann LeCun propose une adaptation de la rétro propagation en 1989 permettant de développer les réseaux de neurones convolutifs [15]. Son modèle permet de classifier les images contenant des chiffres manuscrits. Hochreiter et Schmidhuber ont proposé un type de réseau neuronal récurrent avec mémoire à court et long terme en 1997 [16]. Suite à ces travaux initiant les réseaux de neurones artificiels, de nombreuses études ont été réalisées afin de diversifier les tâches de ces modèles, mais aussi leurs architectures. La compétition annuelle image-net a permis de développer plusieurs architectures [17] et les modèles entrainés sont disponibles dans la littérature afin d’effectuer du transfer learning . Il est alors possible de citer les modèles VGG [18], ResNet [19] et Googlenet .
Biomarqueurs dérivés
L’acquisition d’une image IRM fournit des données brutes et de grandes dimensions. Les biomarqueurs dérivés de l’IRM permettent de mettre en évidence certaines parties de l’information contenue dans les données brutes de l’IRM, ou encore de mettre en évidence certains phénomènes. Les principaux biomarqueurs dérivés de l’IRM utilisés en neuro imagerie sont listés ci-dessous.
— GM (Gray Matter) : permet de mettre en évidence le niveau de substance grise et est utile en neuro imagerie car le volume de substance grise à tendance à réduire ou s’affaisser chez les patients atteints de pathologies neurodégénératives.
— MD (Mean Diffusivity) : image le mouvement Brownien des molécules d’eau. Ce biomarqueur est utile pour le diagnostic des pathologies neurodégénératives car les patients atteints de ce type de pathologies ont souvent des agrégats ferreux qui modifient le mouvement Brownien des molécules d’eau [21].
— ALFF (Amplitude of Low Frequency Fluctuation) : permet de représenter l’activité du cerveau en imageant le niveau d’oxygénation dans le sang dans une séquence temporelle. Seules les basses fréquences sont conservées car les hautes fréquences correspondent aux battements du coeur, or l’objectif de ALFF est d’obtenir les micro-variations du niveau d’oxygénation du sang correspondant à l’activité cérébrale. Finalement l’amplitude est conservée ce qui permet d’obtenir une image de l’activité cérébrale plutôt qu’une séquence temporelle.
— FA (Fractional Anisotropy) : permet de mesurer l’anisotropie de la diffusion. Une FA de 0 correspond à une diffusion isotropique, autrement dit qu’aucune direction n’est priviligiée, alors qu’une FA de 1 correspond à une diffusion contrainte selon une seule direction [22].
— R2* : permet d’imager le dépôt de fer.
— Local Correlation : permet de mesurer la cohérence locale d’un voxel par rapport à son voisinage.
— Global Correlation : permet de mesurer la corrélation entre un voxel et tous les autres voxels représentant le cerveau.
Template MNI
Les templates MNI sont des atlas développés par le Montreal Neurological Institute qui ont pour but de résoudre les problèmes de localisation dans les images IRM [26]. En effet chaque patient étant unique, les acquisitions d’IRM fournissent des images où les cerveaux ont des tailles différentes et les régions du cerveau peuvent être décalées d’un patient à l’autre. Cela devient problématique lorsqu’une localisation est nécessaire.
Afin de palier ce problème l’Institut Neurologique de Montreal a proposé ces templates MNI (ou atlas) en moyennant les cerveaux de centaines de patients afin d’obtenir un cerveau moyen. Ensuite, une transformation non linéaire permet de ramener une nouvelle acquisition vers un template MNI. Il existe plusieurs templates MNI disponibles dans la littérature permettant d’obtenir des tailles physiques de voxels allant de 0.5 × 0.5 × 0.5mm³ à 3 × 3 × 3mm³ [27, 28].
Parkinson
La maladie de Parkinson est une maladie neurodégénérative qui se développe généralement entre 45 et 70 ans. Elle est la seconde maladie la plus fréquente après la maladie d’Alzheimer. La maladie de Parkinson se distingue des syndromes Parkinsoniens qui sont souvent plus agressifs et répondent moins aux traitements. Le diagnostic de ces pathologies neurodégénératives est difficile car tous les syndromes Parkinsoniens et la maladie de Parkinson ont en commun plusieurs symptômes.
— Le tremblement des extrémités
— Une rigidité des mouvements
— Des mouvements lents
Si certains syndromes Parkinsoniens peuvent être diagnostiqués, la maladie de Parkinson reste à ce jour une maladie idiopathique. Parmi ces syndromes Parkinsoniens, il est possible de citer :
— L’atrophie multi systématisée (AMS)
— La paralysie supra nucléaire (PSP)
— La dégénérescence corticobasale (DCB)
— La maladie à corps de Lewy .
Ces syndromes Parkinsoniens sont souvent confondus avec la maladie de Parkinson de par les symptômes en commun. L’évolution de la pathologie est souvent l’un des éléments permettant de discriminer les syndromes Parkinsoniens de la maladie de Parkinson. Ces syndromes Parkinsoniens sont des pathologies rares et agressives, répondant peu aux traitements. Leur étude est un challenge car la collecte de données de pathologies rares, au diagnostic définitif, est difficile. Plus d’informations sur la maladie de Parkinson peuvent être trouvées dans [29].
|
Table des matières
Introduction
1 État de l’art
1.1 État de l’art de l’Intelligence Artificielle
1.1.1 Système expert
1.1.2 Machine learning
1.1.3 Deep learning
1.2 État de l’art de la neuroimagerie
1.2.1 Imagerie par résonance magnétique
1.2.2 Biomarqueurs dérivés
1.2.3 Template MNI
1.2.4 Parkinson
1.3 Application de l’Intelligence Artificielle à la neuro imagerie
2 Développement d’un modèle de réseau de neurones artificiels
2.1 Neurone artificiel
2.1.1 Modèle du neurone artificiel
2.1.2 Apprentissage du neurone artificiel
2.1.3 Fonction d’activation du neurone artificiel
2.2 Réseau de neurones
2.2.1 Perceptron
2.2.2 Perceptron multi couches
2.3 Réseau de neurones convolutifs
2.3.1 VGG
2.3.2 ResNet
2.3.3 GoogLeNet
2.3.4 U-Net
2.4 Transfer learning
2.5 Data augmentation
2.6 Mesure des performances d’un modèle
2.6.1 Perte
2.6.2 Exactitude
2.6.3 Amélioration des performances
2.7 Hyper-paramètres d’un réseau de neurones
2.7.1 Nombre de couches entièrement connectées
2.7.2 Nombre de neurones
2.7.3 Nombre de couches de convolution
2.7.4 Taille et nombre des filtres de convolution
2.7.5 Initialisation
2.7.6 Fonction d’erreur
2.7.7 Pas d’apprentissage
2.7.8 Optimiseur
2.8 Modèle monomodal et multimodal
2.9 entraînement d’un modèle
3 Outils de visualisation et d’interprétation d’un réseau de neurones convolutifs
3.1 Occlusion partielle de l’entrée
3.1.1 Méthodologie
3.1.2 Visualisations avec l’occlusion partielle de l’entrée
3.2 Saliency map
3.2.1 Méthodologie
3.2.2 Visualisations avec saliency map
3.3 Class Activation Mapping (CAM)
3.3.1 Méthodologie
3.3.2 Visualisations avec CAM
3.4 Gradient weighted Class Activation Mapping (gradCAM)
3.4.1 Méthodologie
3.4.2 Visualisations avec gradCAM
3.5 CNN eyes visions
3.5.1 Méthodologie
3.5.2 Visualisations avec CNN eyes visions
3.6 Comparaisons des visualisations
3.6.1 Transfert learning et jeu de données simulées
3.6.2 Comparaison des visualisations sur CIFAR10
3.6.3 Comparaison des visualisations sur des IRM 3D
3.7 Logiciel de visualisation 3D
3.8 Conclusion sur les méthodes de visualisation
4 Validation sur des données simulées
4.1 Créations d’un jeu de données simulées
4.1.1 Objectifs des images simulées
4.1.2 Augmentation de l’intensité
4.1.3 Amélioration de l’augmentation de l’intensité
4.2 Amplitude des modifications et effets
4.2.1 Scores des versions de base des images simulées
4.2.2 Scores de la version améliorée des images simulées
4.3 Visualisation d’un CNN sur les données simulées
4.3.1 Visualisation des versions de base des images simulées
4.3.2 Visualisation de la version améliorée des images simulées
4.3.3 Visualisation appliquée à un sujet unique
Conclusion