Les mesures de similarités sémantiques
Représentation avec les racines lexicales
Cette méthode consiste à remplacer les mots du document par leurs racines lexicales, et à regrouper les mots de la même racine dans une seule composante. Ainsi, plusieurs mots du document seront remplacés par la même racine, cette méthode peut être réalisée en utilisant un des algorithmes les plus connus pour la langue anglaise qui est l’algorithme de Porter [4] de normalisation de mots qui sert à supprimer les affixes de ces derniers pour obtenir une forme canonique. Néanmoins la transformation automatique d’un mot à sa racine lexicale peut engendrer certaine anomalies. En effet, une racine peut être commune pour des mots qui portent des sens différents tel que les mots jour, journalier, journée ont la même racine « jour » mais se rendent à trois notions différentes, cette représentation dépond aussi de la langue utilisée.
Représentation avec les lemmes
La lemmatisation consiste à utiliser l’analyse grammaticale afin de remplacer les verbes par leur forme infinitive et les noms par leur forme au singulier. En effet, Un mot donné peut avoir différentes formes dans un texte, mais leur sens reste le même. Par exemple, les mots jouons, joueurs, jouet seront remplacés par leurs lemmes « jouer », « joueur » et « jouet » selon le contexte. Cette représentation est simple mais elle peut causer une perte d’informations donnée par le contexte nécessaire à la distinction des lemmes polysémiques (possèdent plusieurs sens) et la présence de synonymes, considérés comme des lemmes différents même s’ils font référence au même concept. 00000000000000000000000 III.4.5.Les arbres de décision Les arbres de décision sont composés d’une structure hiérarchique en forme d’arbre. Un arbre de décision est un graphe orienté sans cycles, dont les noeuds portent une question, les arcs des réponses et les feuilles des conclusions ou des classes terminales. Un classificateur de texte basé sur la méthode d’arbre de décision est un arbre de noeuds internes qui sont marqués par des termes, les branches qui sortent des noeuds sont des tests sur les termes et les feuilles sont marquées par catégories. [12] Une méthode pour effectuer l’apprentissage d’un arbre de décision pour une catégorie Ci consiste à vérifier si tous les exemples d’apprentissage ont la même étiquette. Dans le cas contraire, nous sélectionnons un terme Tk, et nous partitionnons l’ensemble d’apprentissage en classes de documents qui ont la même valeur pour Tk, et à la fin on crée les sous arbres pour chacune de ces classes. Ce processus est répété récursivement sur les sous arbres jusqu’à ce que chaque feuille de l’arbre généré de cette façon contienne des exemples d’apprentissage attribués à la même catégorie Ci, qui est alors choisie comme l’étiquette de la feuille. L’étape la plus importante est le choix du terme de pour effectuer la partition.
Mesure de Wu & Palmer
La mesure de similarité de [15] est basée sur le principe suivant Etant donnée une ontologie Ω formée par un ensemble de noeuds et un noeud racine R (Figure II.1). Soit X et Y deux éléments de l’ontologie dont nous allons calculer la similarité. Le principe de calcul de similarité est basé sur les distances (N1 et N2) qui séparent les noeuds X et Y du noeud racine et la distance qui sépare le concept subsumant2(CS) de X et de Y du noeud R. sa formule est a effectué une comparaison entre les méthodes des mesures de similarité. Il en ressort que la mesure de [15] a l’avantage d’être simple à calculer en plus des performances qu’elle présente, tout en restant aussi expressive que les autres, La mesure de [15] est intéressante mais présente une limite car elle vise essentiellement à détecter la similarité entre deux concepts par rapport à leur distance de leur plus petit généralisant, ce qui ne permet pas de capter les mêmes similarités que la similarité conceptuelle symbolique. Cependant, avec cette mesure on peut obtenir une similarité plus élevée entre un concept et son voisinage par rapport à ce même concept et un concept fils, ce qui est inadéquat dans le cadre CT.
Architecture de notre travail
Notre travail entre dans le cadre de la classification automatique des textes. Plus précisément notre travail consiste à classer les documents en utilisant les mesures de similarités sémantiques afin de pallier à l’inconvénient des mesures de similarité statistiques dont le produit scalaire est le plus célèbre. L’exemple de la Figure II.3 montre l’inconvénient des MS statistiques, en effet dans cette figure on trouve deux documents qui sont proche l’un à l’autre, alors qu’ils ne partagent aucun mot commun, et de fait le PS aura la valeur 0. Pour répondre à ce besoin on a essayé d’apporter une nouvelle mesure de similarité qui permet d’ajouter au produit scalaire une notion sémantique. De ce fait nous avons implémenté une méthode de représentation qui est basée sur le WordNet pour traiter les documents classés et les documents non classés à fin de faire la représentation conceptuelle dans laquelle l’unité de vecteur serait un concept (groupe des synonymes). Ensuite nous passons à l’étape d’enrichissement dans le but est d’enrichir l’espace de représentation par des concepts qui n’existent pas dans les document, mais qui ont une relation avec ces derniers ; dans cette étape d’enrichissement il s’agit d’utiliser les relations sémantique entre les concepts (Hypernyms ,Hyponyms ,Meronyms ,Holonyms). Ensuite nous choisissons une méthode de classification dans le but de prédire la catégorie du document à classer. Plusieurs méthodes existent, dans notre travail, on a utilisé la méthode de K-plus proches voisins (Kppv) pour associer une ou plusieurs catégories à un document non classé.
Notre travail présenté dans ce mémoire s’inscrit dans le cadre de la représentation conceptuelle pour la catégorisation des textes. Sans oublier que le but de la catégorisation est d’apprendre à une machine à classer un texte dans la bonne catégorie en se basant sur son contenu. Notre mémoire se décompose en deux chapitres. Le premier chapitre vise à présenter le processus de la catégorisation des textes et les principales phases de ce dernier, ainsi, les applications liées à la catégorisation des textes, le deuxième chapitre présente un état d’art sur les mesures de similarité sémantique et leurs approches, aussi une exposition de la description des approches implémentées ainsi que les résultats obtenus. La représentation conceptuelle dans laquelle l’unité de vecteur serait un concept (groupes des synonymes appelé synsets), nous a permis de voir comment l’intégration d’une base lexicale Wordnet a permis l’amélioration de la performance de notre classificateur. Les éléments de cette représentation ne sont plus associés directement à des simples mots mais plutôt à des concepts. Malheureusement, le temps est court et il a été nécessaire d’ajouter d’autre mesures de similarité sémantique, de fixer certain paramètres pour en étudier d’autres plus en profondeur ainsi que plusieurs seuils. Evidemment, il aurait été intéressant d’observer le comportement de nos approches implémentées sur d’autres corpus plus riches, ainsi que sur d’autres classificateurs. Notre perspective dans un premier temps est de consolider la démarche implémentée en évaluant sur d’autres collections, puis élargir notre domaine en ajoutant d’autres mesures de similarité sémantique et aussi de travailler avec la dernière version de WordNet 3.1.
|
Table des matières
Introduction générale
Chapitre I Classfications des textes
II.Définition
III. Processus de la catégorisation de textes
III.1.1.Représentation en sac de mots (bag of words)
III.1.2.Représentation avec les racines lexicales
III.1.3.Représentation avec les lemmes
III.1.4.Représentation avec les n-gramme
III.1.4.Représentation par phrases
III.1.5.Représentation conceptuelle
III.2.La pondération des termes
III.2.1Mesure TF (Term Frequency)
III.2.2Mesure TFIDF (Term Frequency Inverse Document Frequency)
III.2.3.La mesureTFC
III.3.La réduction de la taille du vocabulaire
III.4.Choix de classificateur
III.4.1.Machine à vecteur support
III.4.2.Les k plus proches voisins
III.4.3.Méthode de Rocchio
III.4.4.Naïve bayes
III.4.5.Les arbres de décision
III.4.6.Les réseaux de neurone
IV.Evaluation du processus de catégorisation
V.Les applications de la catégorisation des textes
VI.Problèmes de la catégorisation de textes
VII. Conclusion
Chapitre II Les mesures de similarités sémantiques et l’amélioration du produit scalaire
I.Introduction
II.Les mesures de similarités sémantiques
II.1.Définition
II.2.Objectifs
II.3.Les Différentes approches de la similarité sémantique
II.3.1.Approche basé sur les arcs
II.3.1.1.Mesure de Wu & Palmer
II.3.2.Approche basé sur les noeuds (contenue informationnel)
II.3.2.1 .Mesure de Resnik
II.3.2.2. Hirst & Onge
II.3.3.Hybride
II.3.3.1.Jiang & Conrath
II.3.3.2.Leacock et Chodorow
III. Architecture de notre travail
III.1. Les étapes de représentation
III.1.1. Représentation en sacs de mots
III.1.2.Transformation des mots en synsets
III.1.2.1.Definition
III.1.2.2.Représentation conceptuelle
III.1.3.Enrichissement
III.1.4.Classfication
IV.Exemple de déroulement de notre programme
IV.1.Indexation
IV.2.Classification
V.Environnement et outils de développement
V.1.Language JAVA
V.2.Evironnement de développement
V.3.WordNet
V.4.JWNL
V.I.Conclusion
Conclusion générale
Télécharger le rapport complet