L’Apprentissage automatique (machine learning)
Le machine learning ou « apprentissage automatique » en français est un concept qui fait de plus en plus parler de lui dans le monde de l’informatique, et qui se rapporte au domaine de l’intelligence artificielle. Encore appelé « apprentissage statistique », ce terme renvoie à un processus de développement, d’analyse et d’implémentation conduisant à la mise en place de procédés systématiques. Pour faire simple, il s’agit d’une sorte de programme permettant à un ordinateur ou à une machine un apprentissage automatisé, de façon à pouvoir réaliser un certain nombre d’opérations très complexes.
L’objectif visé est de rendre la machine ou l’ordinateur capable d’apporter des solutions à des problèmes compliqués, par le traitement d’une quantité astronomique d’informations. Cela offre ainsi une possibilité d’analyser et de mettre en évidence les corrélations qui existent entre deux ou plusieurs situations données, et de prédire leurs différentes implications.
Les différents types de l’apprentissage automatique
L’Apprentissage automatique se décompose en 2 étapes: une phase d’entraînement (on apprend sur une partie des données) et une phase de vérification (on teste sur la seconde partie de données). Nous aurons donc 3 phases: la représentation, l’évaluation, l’optimisation. La phase de représentation consiste à trouver le modèle mathématique le plus adapté. Il existe un nombre important de modélisations. L’évaluation mesure l’écart entre le modèle et la réalité des données de tests. Enfin, l’optimisation vise à amenuiser cet écart.
Nous pouvons dénombrer 3 méthodes basiques:
– la Classification: modélisation de plusieurs groupes de données dans des classes existantes. Par exemple: la classification des types d’orchidées, la tendance d’un parti politique…
– le Clustering: ressemble à la classification mais ce ne sont pas des classes connues.
– la Régression: les données sont liées à d’autres données numériques par une corrélation (une droite, une courbe, une tendance).
Classification
La classification est d’abord employée pour désigner le partage d’un ensemble d’individus en classes de telle sorte que tout individu appartienne à une classe et une seule. Mais le terme classification sert aussi à désigner des systèmes emboités de classes alors on peut dire que c’est une opération statistique qui consiste à regrouper des objets (individus ou variables ou observations) en un nombre limité de groupe (classes, segments), et à classer des individus en fonction de certaines de leurs caractéristiques. Il existe différents types de classification, mais un des plus intuitifs et des plus utilisés est la classification supervisée. L’objectif global de la classification est d’identifier les classes auxquelles appartiennent des objets à partir de traits descriptifs (attributs, caractéristiques).
La classification de données est un problème délicat qui apparaît dans de nombreuses sciences telles que l’analyse du datamining ainsi plusieurs secteur d’application parmi celles si on intéressé dans notre mémoire le domaine médicale.
Domaine commercial: classification répartissant l’ensemble des magasins d’une enseigne en établissements homogènes d’un point de vue de type de clientèle…
Marketing: classification appelée plus fréquemment segmentation. Permettant la recherche des différents profils de clients constituant la clientèle. Après avoir détecté les classes de la clientèle, l’entreprise peut adapter sa stratégie marketing à chaque profil.
Domaine médical: classification permettant de déterminer des groupes de patients susceptibles d’être soumis à des protocoles thérapeutiques, chaque groupe regroupant tous les patients réagissant identiquement [4].
|
Table des matières
Introduction générale
Chapitre 1 : classification des données
I. Introduction
II. L’intelligence artificielle
III. L’Apprentissage automatique (machine learning )
III.1 Les différents types de l’apprentissage automatique
III.2 classification
IV. Approche Paramétrique versus non Paramétrique
IV.1 Non paramétrique
IV.2 Paramétrique
V. Les Techniques de classification
V.1L’apprentissage supervisé
V.2 L’apprentissage non-supervisé
V.3 L’apprentissage semi-supervisé
V.4 L’apprentissage par transfert
V.5 L’apprentissage par renforcement
VI. La différence entre l’apprentissage supervisé et non-supervisé
VII. Domaines d’application
VIII. Conclusion
Chapitre 2 : Environnements et outils de classification
I. Introduction
II. Définition
III. Les logiciels commerciaux
III.1 SAS
III.2. SPSS
IV. les outils libres
IV.1. RapidMiner
IV.2. ORANGE
IV.3. R
IV.4 KNIME
IV.5 PYTHON
IV.6 KEEL
V. Description détaillé sur les outils de notre étude comparative
V.1 Matlab
V.2 Weka
V.3 TANAGRA
VI. Conclusion
Chapitre 3 : Méthodes de classification supervisé
I. Introduction
II. Les méthodes de classification supervisé
II.1 Classification naïve bayésien
II.2 Inférence grammaticale
II.3 Arbre de décision
III. Description détaillé des techniques de classification utilisées dans notre étude
III.1 Réseaux de neurones
III.2 Les machines à vecteurs de support SVM
III.3 k-plus proches voisins
IV. Conclusion
Chapitre4 : Expérimentation et Résultats
I. Introduction
II. Bases de données
II.1 Description de la base de données Pima
II.2 Description de la base de données Appendicits
II.3 Description de la base de données Heart
III. Critères d’évaluation
IV. Résultats et Discussions
IV.1 Résultats de la méthode Knn
IV.2 Résultats de la méthode SVM
IV.3 Résultats de la méthode RN
V. Comparaisons des résultats
V.1 Comparaison des résultats de la méthode KNN
V.2 Comparaison des résultats de la méthode de SVM
V.3 Comparaison des résultats de la méthode de RN
VI. Discussion
VII. Conclusion
Conclusion générale
Télécharger le rapport complet