État de l’art de l’Intelligence Artificielle
L’intelligence artificielle regroupe différents types de paradigmes et d’algorithmes. Ses objectifs sont toujours d’automatiser un traitement ou encore calculer des prédictions. Certains algorithmes sont dits supervisés lorsqu’il est nécessaire de fournir les labels (valeurs recherchées ou valeurs cibles) pour l’entrainement et d’autres sont dit non-supervisés lorsque l’algorithme n’utilise aucune information a priori. Trois grandes parties composent l’intelligence artificielle :
— Les systèmes experts
— Le machine learning
— Le deep learning .
Système expert
Un système expert vise à reproduire une intelligence et s’appuie sur trois parties :
— Une base de faits
— Une base de règles
— Un moteur d’inférence
La base de faits contient une liste de faits permettant par exemple de décrire un environnement. La base de règles est composée de règles logiques à appliquer au fait. Le moteur d’inférence quant à lui utilise la base de règles en l’appliquant à la base de faits dans le but de produire de nouveaux faits.
L’exemple suivant permet d’illustrer un système expert. Soit F une base de faits permettant de représenter un environnement, composée des faits p, q. Soit R une base de règles contenant les formules logiques suivantes :
p ^ q ⊢ r
p ^ r ⊢ s
A l’initialisation, F : {p, q}. En appliquant le moteur d’inférence, une première itération permet de déduire le fait r via la règle p ^ q ⊢ r, et F devient F : {p, q, r}. Une seconde itération déduit le fait s avec la règle p ^ r ⊢ s et F devient F : {p, q, r,s}. Afin de rendre plus parlant cet exemple, supposons que les faits correspondent au cas suivant :
— p : il y a du soleil
— q : le taux d’humidité est faible
— r : il ne pleut pas
— s : le sol est sec
Un robot a alors la possibilité d’utiliser ses capteurs de lumière et d’humidité pour détecter les faits p et q. En saturant la base de faits via l’application de la base de règles, le robot peut déduire qu’il ne pleut pas et que le sol est sec ce qui lui permet d’adapter sa motricité en fonction de son environnement.
La difficulté des systèmes experts est située dans la rédaction des règles logiques. De plus, les temps de calcul peuvent être longs en fonction de la taille de la base de règles puisqu’elles vont toutes être appliquées plusieurs fois jusqu’à ce que plus aucun fait ne soit produit.
Machine learning
Le machine learning rassemble les algorithmes de statistiques automatiques permettant de calculer une prédiction telle qu’une classification, une segmentation ou une régression de données. Plusieurs algorithmes sont regroupés sous le terme de machine learning et les plus connus sont les K plus proches voisins (K-nn), les machines à vecteur de support (SVM) ou encore les K-moyennes (k-means) et les fôrets aléatoires [3]. Les K plus proches voisins est un algorithme de classification qui utilise une métrique de distance et s’appuie sur les labels des K voisins d’une nouvelle donnée afin de lui attribuer une classe [4, 5]. Les K-moyennes est un algorithme de classification non-supervisé qui cherche les K centroïdes des classes de façon à minimiser la distance moyenne des données d’une classe à son centroïde.
Les algorithmes de K plus proches voisins et K-moyenne nécessitent que l’utilisateur définisse K, le nombre de voisins pour les K-nn ou de classes pour les k-means. Les machines à support de vecteur permettent de calculer une classification en maximisant la distance entre les classes. Pour cela, une fonction noyau peut être appliquée afin d’augmenter la dimension des données dans le but de trouver un espace dans lequel une classification linéaire est possible [6, 7, 8, 9].
Deep learning
Le deep learning regroupe les algorithmes d’apprentissage profond avec les réseaux de neurones capables de traiter de grande base de données (Big data) pour des applications de classification, de segmentation et de régression.
Ce neurone artificiel est apparu en 1943 avec les travaux de Warren Mcculloch et Walter Pitts [10] permettant d’effectuer des calculs logiques. Cependant, ce modèle du neurone artificiel ne peut apprendre à calculer une discrimination non linéaire. Ces travaux sur le neurone artificiel sont repris en 1958 avec le perceptron développé par Rosenblatt [11]. En 1982 les premiers réseaux de neurones apparaissent avec les travaux de Hopfield [12]. Les travaux de Yann LeCun permettent d’améliorer l’apprentissage du neurone artificiel avec l’algorithme de rétro propagation en 1985 [13], suivi par l’amélioration de cet algorithme en 1988 proposée par Rumelhart, Hinton et Williams [14]. Yann LeCun propose une adaptation de la rétro propagation en 1989 permettant de développer les réseaux de neurones convolutifs [15]. Son modèle permet de classifier les images contenant des chiffres manuscrits. Hochreiter et Schmidhuber ont proposé un type de réseau neuronal récurrent avec mémoire à court et long terme en 1997 [16]. Suite à ces travaux initiant les réseaux de neurones artificiels, de nombreuses études ont été réalisées afin de diversifier les tâches de ces modèles, mais aussi leurs architectures. La compétition annuelle image-net a permis de développer plusieurs architectures [17] et les modèles entrainés sont disponibles dans la littérature afin d’effectuer du transfer learning . Il est alors possible de citer les modèles VGG [18], ResNet [19] et Googlenet .
État de l’art de la neuroimagerie
Imagerie par résonance magnétique
L’imagerie par résonance magnétique (IRM) fait partie des examens cliniques d’imagerie à disposition des praticiens médicaux. Tout comme pour les échographies et les scanners, l’objectif est d’obtenir une image du corps humain. L’IRM utilise les champs intenses via une bobine à supraconducteur refroidie à l’hélium liquide ce qui permet d’éviter les effets de chauffe et donc les effets indésirables pour le corps humain. Afin d’obtenir une image, la première étape consiste à déterminer les noyaux des éléments à étudier. En effet, seuls les noyaux avec un spin non nul sont sensibles aux effets de résonance magnétique.
Biomarqueurs dérivés
L’acquisition d’une image IRM fournit des données brutes et de grandes dimensions. Les biomarqueurs dérivés de l’IRM permettent de mettre en évidence certaines parties de l’information contenue dans les données brutes de l’IRM, ou encore de mettre en évidence certains phénomènes. Les principaux biomarqueurs dérivés de l’IRM utilisés en neuro imagerie sont listés ci-dessous.
— GM (Gray Matter) : permet de mettre en évidence le niveau de substance grise et est utile en neuro imagerie car le volume de substance grise à tendance à réduire ou s’affaisser chez les patients atteints de pathologies neurodégénératives.
— MD (Mean Diffusivity) : image le mouvement Brownien des molécules d’eau. Ce biomarqueur est utile pour le diagnostic des pathologies neurodégénératives car les patients atteints de ce type de pathologies ont souvent des agrégats ferreux qui modifient le mouvement Brownien des molécules d’eau [21].
— ALFF (Amplitude of Low Frequency Fluctuation) : permet de représenter l’activité du cerveau en imageant le niveau d’oxygénation dans le sang dans une séquence temporelle. Seules les basses fréquences sont conservées car les hautes fréquences correspondent aux battements du coeur, or l’objectif de ALFF est d’obtenir les micro-variations du niveau d’oxygénation du sang correspondant à l’activité cérébrale. Finalement l’amplitude est conservée ce qui permet d’obtenir une image de l’activité cérébrale plutôt qu’une séquence temporelle.
— FA (Fractional Anisotropy) : permet de mesurer l’anisotropie de la diffusion. Une FA de 0 correspond à une diffusion isotropique, autrement dit qu’aucune direction n’est priviligiée, alors qu’une FA de 1 correspond à une diffusion contrainte selon une seule direction [22].
— R2* : permet d’imager le dépôt de fer.
— Local Correlation : permet de mesurer la cohérence locale d’un voxel par rapport à son voisinage.
— Global Correlation : permet de mesurer la corrélation entre un voxel et tous les autres voxels représentant le cerveau.
|
Table des matières
Introduction
1 État de l’art
1.1 État de l’art de l’Intelligence Artificielle
1.1.1 Système expert
1.1.2 Machine learning
1.1.3 Deep learning
1.2 État de l’art de la neuroimagerie
1.2.1 Imagerie par résonance magnétique
1.2.2 Biomarqueurs dérivés
1.2.3 Template MNI
1.2.4 Parkinson
1.3 Application de l’Intelligence Artificielle à la neuro imagerie
2 Développement d’un modèle de réseau de neurones artificiels
2.1 Neurone artificiel
2.1.1 Modèle du neurone artificiel
2.1.2 Apprentissage du neurone artificiel
2.1.3 Fonction d’activation du neurone artificiel
2.2 Réseau de neurones
2.2.1 Perceptron
2.2.2 Perceptron multi couches
2.3 Réseau de neurones convolutifs
2.3.1 VGG
2.3.2 ResNet
2.3.3 GoogLeNet
2.3.4 U-Net
2.4 Transfer learning
2.5 Data augmentation
2.6 Mesure des performances d’un modèle
2.6.1 Perte
2.6.2 Exactitude
2.6.3 Amélioration des performances
2.7 Hyper-paramètres d’un réseau de neurones
2.7.1 Nombre de couches entièrement connectées
2.7.2 Nombre de neurones
2.7.3 Nombre de couches de convolution
2.7.4 Taille et nombre des filtres de convolution
2.7.5 Initialisation
2.7.6 Fonction d’erreur
2.7.7 Pas d’apprentissage
2.7.8 Optimiseur
2.8 Modèle monomodal et multimodal
2.9 entraînement d’un modèle
3 Outils de visualisation et d’interprétation d’un réseau de neurones convolutifs
3.1 Occlusion partielle de l’entrée
3.1.1 Méthodologie
3.1.2 Visualisations avec l’occlusion partielle de l’entrée
3.2 Saliency map
3.2.1 Méthodologie
3.2.2 Visualisations avec saliency map
3.3 Class Activation Mapping (CAM)
3.3.1 Méthodologie
3.3.2 Visualisations avec CAM
3.4 Gradient weighted Class Activation Mapping (gradCAM)
3.4.1 Méthodologie
3.4.2 Visualisations avec gradCAM
3.5 CNN eyes visions
3.5.1 Méthodologie
3.5.2 Visualisations avec CNN eyes visions
3.6 Comparaisons des visualisations
3.6.1 Transfert learning et jeu de données simulées
3.6.2 Comparaison des visualisations sur CIFAR10
3.6.3 Comparaison des visualisations sur des IRM 3D
3.7 Logiciel de visualisation 3D
3.8 Conclusion sur les méthodes de visualisation
4 Validation sur des données simulées
4.1 Créations d’un jeu de données simulées
4.1.1 Objectifs des images simulées
4.1.2 Augmentation de l’intensité
4.1.3 Amélioration de l’augmentation de l’intensité
4.2 Amplitude des modifications et effets
4.2.1 Scores des versions de base des images simulées
4.2.2 Scores de la version améliorée des images simulées
4.3 Visualisation d’un CNN sur les données simulées
4.3.1 Visualisation des versions de base des images simulées
4.3.2 Visualisation de la version améliorée des images simulées
Conclusion