Les composants d’une ontologie

Les composants d’une ontologie

La révolution de l’internet a fait exploser les informations textuelles, qui sont un patrimoine vivant des entreprises, des administrations et des particuliers, il est devenu indispensable aux utilisateurs du web de trouver les documents pertinents, pour cette raison il devient de plus en plus important de disposer de solutions efficaces pour conserver, chercher et classer ces informations, afin d’assister les utilisateurs à trouver leurs besoins et faciliter leur travail dans certaines tâches qui sont devenues impossible à traiter manuellement. Donc il est très intéressant de compter sur une application automatique qui est la classification et la catégorisation des textes.

Cette thèse traite l’évaluation de l’utilisation des mesures de similarité sémantique pour la classification des textes, qui consiste à représenter les documents classés et non classés par une bonne méthode de représentation. L’objectif principal est de calculer la mesure de similarité entre les documents classés et le document non classé.

Nous avons décomposé notre mémoire en trois chapitres. Le premier chapitre vise à présenter le processus de la catégorisation des textes et les principales phases de ce dernier, ainsi, les applications liées à la catégorisation des textes, le deuxième chapitre présente un état d’art sur les mesures de similarité sémantique et leurs approches. Enfin le dernier chapitre qui expose la description des approches implémentées ainsi que les résultats obtenus.

classification et catégorisation des textes

De nos jours, la classification des textes est un domaine de recherche très actif, permettant àl’utilisateur de trouver les informations pertinentes dans un temps raisonnable, afin de résoudre les problèmes d’accès à l’information voulu.

Définition de la classification et la catégorisation des textes

Jalam définit dans[1]la catégorisation de textes comme étant la recherche d’une relation bijective qui consiste à « chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (étiquettes, classes) ». C’est à dire associer une catégorie à un texte libre, en fonction des informations qu’il contient. Sebastiani définit formellement dans [2]la catégorisation des textes comme le processus qui consiste à associer une valeur booléenne à chaque paire (dj,ci)  D × C, où D l’ensemble des textes et C l’ensemble des catégories. La valeur V (Vrai) est alors associée au couple (dj,ci) si le texte dj appartient à la classe ci tandis que la valeur F (Faux) lui sera associée dans le cas contraire. Le but de la catégorisation de texte est de construire une procédure (modèle, Classificateur) notée : Φ: D × C → {V, F} qui associe une ou plusieurs étiquettes (catégories) à un document dj telle que la décision donnée par cette procédure coïncide le plus possible avec la fonctionΦ^: D × C → {V, F}, la vraie fonction qui retourne pour chaque vecteur dj une valeur ci.

Historique

L’idée d’effectuer la classification des textes remonte au début des années 60 et qui a connu des progrès considérables à partir des années 90 avec l’apparition des algorithmes beaucoup plus performants qu’avant. Ces évolutions technologiques et algorithmes avancées font aujourd’hui de la catégorisation, un outil fiable.

Les termes ‘classification’ et ‘catégorisation’ ont des histoires et des origines très différentes. Le terme classification est apparu pour la première fois dans la cinquième édition du dictionnaire de l’Académie Française en 1798 [3]sous la définition : « distribution en classes et suivant un certain ordre » et dans la dernière édition [4]par« l’Action de classifier et le résultat de cette action».Le terme ‘catégorisation’ n’existe pas dans le dictionnaire de l’Académie Française, contrairement au mot ‘catégorie’ qui est définit dans tous les éditions du dictionnaire comme étant une classe dans laquelle on range plusieurs choses qui sont des espèces différentes, mais qui appartiennent à un même genre .

Le processus de la catégorisation des textes

D’une façon générale, le processus de catégorisation reçoit en entrée un texte afin de lui associer sa catégorie en sortie. Pour identifier la catégorie d’un texte, un ensemble d’étapes est habituellement suivies. D’après Jalam dans[1], ces étapes sont :
• La représentation des textes
• La pondération des termes
• La réduction de la taille de vocabulaire
• Choix de classificateur
• Evaluation du modèle

La représentation des textes
La représentions des textes est la phase la plus importante dans le processus decatégorisation des textes, et cela pour classifier les textes d’une manière efficace. Cette représentation consiste à représenter chaque document sous forme d’un vecteur, dont les composants sont les termes de ce documentLes différentes méthodes pour la représentation des textes sont :

Représentation en sac de mots (bag of words)
Cette méthode consiste à représenter chaque document par un vecteur,dont les composantes sont les mots contenus dans le texte. L’analyse lexicale est un processus qui permet deconvertir le texte d’un documenten un ensemble demotset qui permet de reconnaitre les espaces deséparations des mots, le signes deponctuations,…etc. ; ces derniers sont supprimés de la représentation.

L’avantage de cette représentation est d’exclure toute analyse grammaticale ettoute notion de distance entre lesmots, mais l’inconvénient est que le regroupement des mots du document sans prendre en compte les combinaisonset l’ordre des mots dans laphrase entraine une perte dans la sémantique detexte.

Représentation avec les racines lexicales
Cette représentation consiste àregrouper les mots de la mêmeracine dans une seule composante, alors que cetteracine peut être commune pour des mots qui ontdes sens différents. On a par exemple les mots «des cendre»«des cendance » et«des cendu» ont la même racine«descend » mais leurs notions sans différentes. Cette méthode se fait grâce à des algorithmes qui ont été proposés; l’un des plus connus pour la langue anglaise est l’algorithme de Porter .

Représentation avec les lemmes
Cette représentation est compliquée à mettre en œuvre puisqu’ellenécessite une analyse grammaticale des textes afin de remplacer tous les verbes du document parleur formeinfinitive et les noms par leur formeau singulier. L’objectif de cette représentation est d’associer à chaquemot, uneentrée dans le lexique qui est définitcomme un ensemble delemmes. Parexemple le lemme de « chantaient » est« chanter ». Cetteméthode est simplemais elle peut causer plusieurs problèmescomme La perte de l’informationdonnée par lecontexte syntagmatique, nécessaireà la distinction des lemmespolysémiques et La présencede synonymes,considéréscomme des lemmesdifférents même s’ils font référence aumêmeconcept.

Représentation avec les n-gramme
Cette représentation consiste à représenter le document par des n-grammesqui sontuneséquence de n caractères consécutifs. Plusieurstravaux ont montré l’efficacitédes n-grammescomme méthode dereprésentation des textes pour la classification. Cette méthode à plusieursavantages, comparativement à d’autres techniques, Les n-grammescapturentautomatiquement les racines des mots les plusfréquents sanspasser par l’étape de recherchedes racines lexicales[7].Ilintroduit aussi la notion d’indépendancede lalangue comme montré dans[8]. Les espaces sont pris enconsidération parce qu’en effet, la non prise encomptede ces derniersintroduitdu bruit.

Représentation conceptuelle
Cette étape sert à représenter le document textuel sous forme d’unensembledeconcepts qui est un groupe de synonymes appelés «synsets».Selon Rehel dans [9],l’avantage de la représentation conceptuelle est deréduirel’espace de travail car les mots qui sont synonymes partagent aumoins unconcept.L’inconvénient decette représentation est qu’il n’existepas des bases lexicales pour toutes les langues.

Conclusion générale 

Dans ce mémoire, nous avons développé un travail dans le cadre de l’enrichissement de la représentation conceptuelle dans la catégorisation des textes en utilisant des mesures de similarité sémantique.L’enrichissement élaboré nous a permis d’évaluer la proximité sémantique entre les concepts afin de voir l’amélioration de la performance de notre classificateur.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale 
Chapitre 1 : classification et catégorisation des textes
I. Introduction
II. Définition de la classification et la catégorisation des textes
III. Historique
IV. Le processus de la catégorisation des textes
IV.1 La représentation des textes
a. Représentation en sac de mots (bag of words)
a. Représentation avec les racines lexicales
b. Représentation avec les lemmes
c. Représentation avec les n-gramme
b. Représentation conceptuelle
IV.2 La pondération des termes
a. Mesure TF (Term Frequency)
b. Mesure TFIDF (Term Frequency Inverse Document Frequency)
IV.3 La réduction de la taille du vocabulaire
IV.4 Choix de classificateur
a. Machine à support vectoriel (SVM)
b. K plus proches voisins
c. Méthode de Rocchio
d. Naïve bayes
a. Les arbres de décision
b. Les réseaux de neurone
IV.5 Evaluation du processus de catégorisation
V. Les applications de la catégorisation des textes
VI. Conclusion
Chapitre 2 : Etat d’art : les mesures de similarité 
I. Introduction
II. Définition d’une ontologie
III. Les composants d’une ontologie
III.1 Les concepts
III.2 Les relations
III.3 Les fonctions
III.4 Les axiomes
III.5 Les instances
IV. Définition de la mesure de similarité
V. Notion de la distance sémantique
VI. Les différents approches de mesure de similarité
VI.1 Approches basées sur les arcs
a. Mesure de Wu & Palmer
b. Mesure de Rada et al
a. Mesure de Ehrig et al
b. La mesure de Hirst-St.Onge
c. La mesure de Zargayouna
VI.2 Approches basées sur les nœuds
a. Mesure de Resnik
b. Mesure de Lin
c. Mesure de Seco et al
VI.3 Approches hybrides
a. Mesure de Jiang et Conrath
b. Mesure de Leacock et Chodorow
c. Mesure de Li et al
d. Mesure de FaITH
VI.4 Approches basées sur l’espace vectoriel
a. Similarité de Cosine
b. Similarité de Jaccard
c. Similarité de Dice
VI.5 Mesure de similarité intentionnelle
a. Mesure de Tversky
VII. Domaine d’application
VII.1 Traitement du langage naturel (NLP)
VII.2 Bioinformatique
VII.3 Web Services
VIII. Conclusion
Chapitre 3 : Evaluation des mesures de similarité sémantique 
I. Introduction
II. Architecture de notre travail.
III. Description des approches implémentées
III.1 Représentation en sac de mots
III.2 Transformation des mots en synsets
III.3 Représentation conceptuelle
III.4. Enrichissement
III.5. Classification avec Kppv
IV. Technologies et outils de développement
IV.1. Langage JAVA
IV.2. Environnement de développement
IV.3. WordNet
IV.4. JWNL
IV.5. Corpus utilisé
V. Evaluation de notre travail
VI. Discussion
VII. Conclusion
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *