Apprentissage automatique et analyse des données

Apprentissage automatique et analyse des données

Motivation

Les nouvelles technologies d’acquisition et de stockage de données, ont conduit à une forte augmentation des données collectées quotidiennement. Par exemple, l’accélérateur de particules du CERN génère chaque année à lui seul 1 petabyte de données, un problème auquel doivent faire face la plupart des domaines de recherche comme l’astronomie au séquençage du génome humain [1]. Par conséquent, il est devenu très difficile d’extraire manuellement des informations utiles à partir des énormes quantités de données disponibles. L’apprentissage artificiel est un domaine qui s’intéresse au développement de modèles dits intelligents et qui simule le raisonnement humain en tirant des connaissances à partir d’un ensemble de données. Grâce à ce processus, une machine peut répondre correctement à un problème réel ou artificiel en utilisant l’expérience accumulée durant l’apprentissage des exemples. A chaque exemple de la base d’apprentissage est associée une réponse, ce qui permet aux algorithmes de réagir correctement aux nouveaux exemples. Le processus d’identification des patterns descriptifs sur une large base de données est appelé Extraction de connaissance et Fouille de données (Knowledge discovery and data mining (KDD)). Parmi les approches du KDD, nous trouvons le clustering qui permet de générer les patterns sans supervision ou l’apprentissage supervisé qui prédit la classe de nouvelles données à partir de données existantes fournies avec les classes. Les instances inconnues forment l’ensemble de tests tandis que les instances labellisées forment l’ensemble d’apprentissage. La prédiction des classes se fait par un algorithme de classification suivant deux étapes : [2] :

Malheureusement, l’application des algorithmes d’apprentissage artificiel a des problèmes de grandes dimensions présentes certaines limites étant donné que la plupart des algorithmes classiques (SVM, K-ppv, réseaux de neurones, . . . ) ont été développés avec des bases de petites dimension. En effet, si la taille (nombre d’instances) ou la dimension (nombre de variables) de la base augmentent, les approches existantes font face à plusieurs problèmes. Parmi ces problèmes nous citons, l’augmentation du coût de labellisation, de l’espace mémoire et du temps d’apprentissage. En effet, il n’y a aucun intérêt majeur lorsque nous utilisons un algorithme de classification qui nécessite beaucoup de ressources ou un temps d’apprentissage trop long. D’un autre côté, en plus de la quantité des données, c’est aussi la qualité des données qui pose un problème aux algorithmes existant. Le bruit présent dans les bases de données, causé par une mauvaise labellisation, peut induire à une perte de performances. En plus, ils doivent faire face aussi aux données déséquilibrées de certaines bases, où le nombre de cas ciblés est largement inférieur au nombre du cas non ciblés. De ce fait, l’apprentissage est orienté en faveur de la classe majoritaire.

Deux solutions possibles s’offrent pour résoudre ces problèmes. La première possibilité est l’élaboration de nouveaux algorithmes rapides et efficaces capables de faire face aux problèmes de données. La deuxième solution est l’implémentation d’approches de sélection d’instance pour l’adaptation des données aux algorithmes existants. Le passage par une étape de prétraitement pour nettoyer et réduire la base d’apprentissage avant la construction du classifieur à démontrer de bons résultats dans divers domaines [3–5]. Cette étape a pour objectif de sélectionner un sous-ensemble de l’ensemble d’apprentissage formé par les instances les plus pertinentes, qui permet de créer un classifieur aussi performant que celui obtenu avec l’ensemble d’origine.

Objectif de la thèse

Durant les dernières années, plusieurs recherches ont était menées pour réduire les coûts sans pour autant compromettre les performances des modèles d’apprentissage. La sélection d’instances est l’une des étapes de prétraitement de la fouille de donnée durant laquelle la base de données sera plus « propre » et plus représentative. Cette étape permet d’éliminer les instances bruitées, redondantes ou superflues afin d’obtenir de meilleurs résultats de classification. L’inconvénient majeur des méthodes de sélection existantes, comme les algorithmes évolutionnaires [6] ou l’algorithme K-nn [7], concerne la taille de la base des données où la complexité de l’algorithme augmente avec l’ordre de grandeur. Ce qui les rend inapplicables aux cas où leur utilisation est la plus nécessaire. Le principal objectif de cette thèse est de proposer une approche capable d’effectuer une sélection qui permet un compromis entre le temps et la performance. En effet, il n’y a aucun intérêt à utiliser un algorithme de sélection qui nécessite un temps d’exécution et des ressources importantes. D’un autre côté, la perte d’information de l’ensemble d’origine ne doit pas être trop importante afin que le sous-ensemble obtenu par l’application de cet algorithme ne dégrade pas le taux de reconnaissance du classifieur. Donc, nous évaluerons les performances de notre approche en termes de temps d’exécution, de taux de classification et de taux de réduction.

Synthèse et Analyse

Nous remarquons que la plupart des méthodes existantes sont généralement basées sur le principe du K-plus proches voisins. L’inconvénient majeur des premières méthodes basées sur la mauvaise classification d’une instance par ses voisins (tels que CNN, GCNN, IB, ENN ou All-Knn) est la rétention d’instances bruitées puisqu’elles sont toujours mal classées par leurs voisins. Ce qui cause que la proportion de bruit dans S soit supérieure à celle de A. D’un autre côté, ces méthodes sont sensibles à l’ordre de présentation, différentes permutations de l’ensemble d’apprentissage aboutissent a des sous-ensembles différents. Ce problème est notamment retrouvé au sein des algorithmes de condensation. Tandis que les algorithmes d’édition ont un taux de réduction assez faible. Bien que les algorithmes d’édition soient considérés comme étant des filtres de bruit, leurs performances diminuent si le taux de bruit augmente. Si le nombre d’instance bruité est élevé, elles ne seront plus considérées comme des exceptions et seront correctement classées par d’autres instances bruitées [3].

Plusieurs travaux ont démontré que les approches hybrides sont plus performantes que celles appartenant aux deux groupes précédent [3, 7]. Mais l’inconvénient majeur lié à ces méthodes est la baisse des performances obtenues par l’ensemble réduit S s’il est appliqué avec un autre classifieur que K-NN [7]. Les algorithmes évolutionnaires peuvent être utilisés avec n’importe quel algorithme de classification pour le processus de sélection ce qui permet d’effectuer la sélection avec l’algorithme qui sera utilisé pour la classification et ainsi évitée une perte de performance. Dans l’article de Cano et al. [4]les auteurs ont mené une étude sur les algorithmes Generational Genetic Algorithm (GGA), CHC Adaptive Search Algorithm, Steady-State Genetic Algorithm (SGA) et Population-Based Incremental Learning (PBIL) pour la sélection d’instances. Selon les résultats obtenus, l’algorithme CHC présente les meilleures performances réduction/ classification. Par contre les algorithmes évolutionnaires souffrent d’un problème de scalabilité, en effet, le temps d’exécution augmente avec la taille des données, ce qui rend impossible leur application à des bases de données de grande taille. Nous pouvons en conclure que la plupart des algorithmes de sélection d’instance souffre du même problème de scalabilité que les algorithmes d’apprentissage et ne peuvent être appliqué à des bases de grande taille où ils sont le plus necessaire.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Remerciements
Résumé
Abstract
Table des matières
Table des figures
Liste des tableaux
Introduction
1 Motivation
2 Objectif de la thèse
3 Contribution de la thèse
4 Organisation de la thèse
I Background : Apprentissage automatique et analyse des données
1 Concepts et définitions
1.1 Matrice de données
1.2 Type d’attribut
1.3 Méthode d’évaluation
1.4 Mesures de performances
1.5 Type d’apprentissage
1.6 Algorithme de classification
2 Conclusion
II Les méthodes de sélection d’instances
1 Sélection d’instances
2 Objectif des algorithmes de sélection
3 Taxonomie des méthodes de sélection d’instances
3.1 Direction de recherche
3.2 Méthodes d’évaluation
3.3 Type de sélection
3.4 Critères d’évaluation
4 Algorithmes de sélection
4.1 Algorithme de condensation
4.2 Algorithme d’édition
4.3 Algorithme hybride
4.4 Algorithme méta-heuristique
4.5 Hybridation avec les méthodes ensembliste
4.6 Synthèse et Analyse
5 Problème de scalabilité
6 Conclusion
III Les méthodes ensemblistes
1 Construction de l’algorithme
1.1 La construction des modèles
1.2 Stratégie de diversification
1.3 La combinaison des estimations
2 Avantages
3 Algorithmes ensembliste
3.1 Échantillonnage
3.2 Bootstrap Aggregation (Bagging)
3.3 Boosting
3.4 Random Subspace Method (RMS)
3.5 Randomizing output
3.6 Forêt aléatoire
3.7 Arbre de décision : CART
3.8 Random feature selection
3.9 Forêts aléatoires à variables d’entrée aléatoires (Random Forests – RI)
3.10 Types de fôrets RF-RI
4 Conclusion
IV Approche proposée
1 Limitations des méthodes existantes
2 Le principe de sélection
2.1 Marge ensembliste non-supervisée
2.2 Etude des paramètres
2.3 Algorithme modifié EMIS
3 Expérimentation
3.1 Bases de données
3.2 Paramétrage d’EMIS
3.3 Comparaison des performances
3.4 Comparaison avec le classifieur CART
3.5 Résistance au bruit
4 Application de la sélection d’instance pour la segmentation automatique des globules blancs
4.1 État de l’art de segmentation d’images cytologique
4.2 Approche proposée
4.3 Base de données
4.4 Résultats et discussions
5 Conclusion
Conclusion et Perspectives
Bibliographie
Annexe

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *