LES ÉTAPES DE LA CATÉGORISATION

LES ÉTAPES DE LA CATÉGORISATION

Tokenisation

Cette étape consiste à décomposer le corpus en un ensemble de descripteurs tel que des mots, des phrases ou des n-grams .La tokenisation consiste à utiliser les séparateurs de la langue (espace, majuscule, point…)pour pouvoir déterminer les descripteurs. Ce processus de tokenisation soulève plusieurs problèmes, en effet ils existent des cas particuliers pour chaque langue où les séparations des termes fait perdre le sens du mot, exemple :Aujourd’hui, pomme de terre, les adresse IP séparés par des points(192.168.0.1), M.Mokhtar…, ainsi que certaines langues rend la tokenisation plus compliquée tel que l’allemand où une phrase n’est pas séparée par les séparateurs classiques, exemple : Levensversicherungsgesellschaftsangestellter (employé d’une société d’assurance vie), les langues qui s’écrivent de droite à gauche comme l’arabe mais les chiffres se lisent de gauche à droite, Le résultat de la tokenisation est un vecteur constitué des descripteurs de corpus.

Classification à base de règles

Cette méthode a pour objectif de construire un classeur composé de règles de classification, pour cela il est nécessaire d’utiliser un ensemble de règles ordonnées R1, R2… de type : Si condition(x) alors classe(x) = C Pour classer une donnée on vérifie si la donnée vérifie la première règle sinon on vérifie la deuxième règle et ainsi de suite [Ph. PREUX, 2011]. Plusieurs approches ont étaient proposées, les plus connus sont :C4.5 rules, Prism, règles d’association. Dans cette approche il s’agit de construire des ensembles d’items attribut=valeur (exemple : température=chaud). A chaque item sera associé une fréquence représentant le de nombre d’occurrence de cet item dans le jeu d’exemple, la classe est considérée comme un item. Afin de pouvoir construire les règles il s’agit de fixer une fréquence S qui représente le nombre d’objets auxquels la règle s’applique permettant de construire des ensembles selon la valeur de l’item(item>s).

MESURES DE SIMILARITE SEMANTIQUE

Les mesures de similarité statistique reposent essentiellement sur des valeurs où il n’existe pas de dépendance entre les mots, alors que dans la réalité on peut trouver des documents très proches mais qui n’utilisent pas les mêmes mots (synonymes) par conséquence l’utilisation de ces mesures n’assure pas une bonne similarité, en effet la notion sémantique est souvent ignorée dans ce type de mesure [Elsa Negre-2013] comme par exemple il n’y a pas de similarité entre « j’ai un chien » et « je possède un animal », ainsi que la relation syntaxique n’est pas prise en compte, dans l’exemple suivant les deux textes sont considérés similaires alors qu’ils sont en réalité différents: « Christine aime Simon » et « Simon aime Christine ». De plus les problèmes de la négation qui conduit à une similarité élevée alors que c’est totalement le contraire, exemple : « je suis à la maison » et « je ne suis pas à la maison ». Les mesures de similarité sémantique permettent de palier les problèmes précédemment cités.

EN effet, il existe plusieurs travaux sur les mesures de similarité sémantique dans le but d’améliorer et faciliter l’accès à l’information de façon pertinente. D’après [Thabet et al,2007] on peut identifier trois grandes familles d’approches pour l’identification de la similarité sémantique. Les approches basées sur les noeuds [Res, 1995][Lin, 1998][Jiac, 1997] définissant la similarité conceptuelle en s’appuyant sur des mesures du contenue informationnel. En plus, le degré de partage de l’information détermine la similarité entre les concepts. La deuxième famille d’approche s’appuie uniquement sur la hiérarchie ou sur les distances des arcs [Rada, 1989][Lee, 1993] [Wup, 1994]. Le calcul de la similarité dans cette approche est basé principalement sur la longueur du chemin entre les noeuds, plus le chemin est court plus les noeuds sont semblables. La deuxième caractéristique de cette approche est que les arcs d’une taxonomie ont une longueur uniforme, ce qui implique l’inconvénient que tous les liens sémantiques possèdent le même poids ce qui impose des difficultés au niveau de la définition et du contrôle des distances des liens [Thabet et al, 2007]. La troisième est l’approche hybride [Lec 98][Res99] qui combine entre les deux approches cités en-dessus,

Environnement de travail 

Dans notre application nous avons utilisé l’environnement NetBeans open source par Sun sous licence CDDL (Common Développent and Distribution License), il permet la prise en charge native de divers langages comme le Java, C, le C++, le JavaScript, le XML, le Groovy, le PHP et le HTML, Python. Il offre toutes les facilités d’un IDE moderne (éditeur en couleurs, projets multi-langage, refactoring, éditeur graphique d’interfaces et de pages Web). Compilé en Java, NetBeans est disponible sous Windows, Linux, Mac, et possède même une version indépendante des systèmes d’exploitation (requérant une machine virtuelle Java). Un environnement Java Development Kit JDK est requis pour les développements en Java. NetBeans constitue par ailleurs une plate forme qui permet le développement d’applications spécifiques (bibliothèque Swing (Java)). L’IDE NetBeans s’appuie sur cette plate forme.

CONCLUSION GENERALE

A la fin de ce mémoire il est nécessaire de rappeler d’une façon globale ce qui était abordé, au début du premier chapitre nous avons évoqué les définitions de la catégorisation pour énoncer ses différents types et par la suite les étapes à suivre pour effectuer la C.T (indexation, chaix du classificateur, évaluation). La première étape permet de réduire le nombre des termes pour garder les plus importants afin de gagner en espace de stockage et gagner en temps d’exécution. L’étape suivante sera la plus importante car elle permet de choisir le type du classificateur et enfin l’évaluation du model qui permet de déterminer sa qualité. Le deuxième chapitre nous a permis au début de définir la similarité pour énoncer les principaux approches qui existent (arcs (Wu et Palmer, Zargayouna et Salotti, Thabet et al, Rada et al), noeuds (resnik, lin, Hirst et St-Onge ), hybride(Jiang et Conrath, Leacock et Chodorow )). Dans le troisième chapitre qui est la partie essentiel de notre travail, au début on a présenté l’architecture de l’approche qui comporte la tokénization, la pondération, l’apprentissage et la classification, la repondération et enfin le classement de notre document. Ensuite on a évoqué les ressources utilisées qui sont Netbeans, la bibliothèque Freeling, java, wordnet, java wordnet similarity.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 INTRODUCTION GÉNÉRALE
2 CHAPITRE 1 : CATÉGORISATION DES TEXTES
2.1 INTRODUCTION:
2.2 DÉFINITIONS
2.3 TYPES DE LA CATÉGORISATION
2.3.1 Multi/mono catégorie
2.3.2 Catégorisation centrée-document, catégorisation centrée-catégorie
2.4 LES ÉTAPES DE LA CATÉGORISATION
2.4.1 Indexation
2.4.1.1 Tokenisation
2.4.1.2 Elimination des mots vides
2.4.1.3 Lemmatisation
2.4.1.4 Pondération
2.4.2 Sélection des termes:
2.4.2.1 Gain d’information (IG information gain)
2.4.2.2 Mutuel information (MI mutuel information)
2.4.2.3 Chi Square χ²
2.4.3 Choix du classificateur :
2.4.3.1 Classification par arbres de décision
2.4.3.2 Classification bayésienne
2.4.3.3 Classification à base d’exemples présentatifs(K plus proches voisins)
2.4.3.4 Classification à base de règles
2.4.3.5 Classification par réseaux de neurones
2.4.3.6 Classification par SVM( supports vector machine )
2.4.3.7 Classification par sélection des attributs
2.4.4 Evaluation du model:
2.5 CONCLUSION
3 CHAPITRE 2 : MESURES DE SIMILARITE
3.1 INTRODUCTION
3.2 DÉFINITION:
3.3 CLASSIFICATION DES APPROCHES DE MESURES DE SIMILARITE:
3.3.1 Approches basées sur les arcs:
3.3.1.1 Mesure de Wu et Palmer:
3.3.1.2 La mesure de [Zargayouna et Salotti, 2004]:
3.3.1.3 La mesure de [Thabet et al, 2007]:
3.3.1.4 La mesure de Rada et al:
3.3.3 Approches basées sur les noeuds
3.3.2.1 La mesure de Resnik:
3.3.2.2 La mesure de Lin:
3.3.2.3 La mesure de Hirst et St-Onge:
3.3.3 Les approches Hybrides:
3.3.3.1 La mesure de Jiang et Conrath:
3.3.3.2 La mesure de Leacock et Chodorow:
3.4 CONCLUSION
4 CHAPITRE 3 : NOTRE TRAVAIL
4.1 INTRODUCTION :
4.2 ARCHITECTURE DE NOTRE APPROCHE
4.2.1 Tokenization :
4.2.2 Pondération :
4.2.3 Apprentissage et classification :
4.2.4 Repondération du vecteur conceptuel du document à classer:
4.2.5 Classement du document :
4.3 FIGURE DU PROGRAMME
4.4 LES RESSOURCES UTILISÉES :
4.4.1 Description des corpus
4.4.2 Environnement de travail :
4.4.3 La bibliothèque FREELING:
4.4.4 Java:
4.4.5 WordNet
4.4.6 La bibliothèque JWS(java wordnet similarity)
4.5 CONCLUSION
5 CONCLUSION GÉNÉRALE
6 BIBLIOGRAPHIE

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *