Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes

Le mot ou lemme

Un corpus, écrit en langue naturelle indo-européenne, est constitué de mots afin de le décrire. Un mot peut être défini comme un son ou bien un ensemble de sons exprimant une sensation, une conception ou encore une représentation. Nous distinguons alors deux types de mots : les variables et invariables. Ces derniers peuvent être des adverbes, interjections,conjonctions ou prépositions. Nous nous focalisons sur les mots variables pouvant être des adjectifs, substantifs (ou noms), articles, pronoms et verbes. Les mots variables ont la propriété de pouvoir être déclinés ou conjugués (dans le cas de langues indo-européennes). Nous parlons alors de forme fléchie du mot. Notons que le “mot” tel que nous l’avons défini peut également se nommer lemme. Les lemmes sont en d’autres termes les entrées de dictionnaires. Un exemple de mot, ou forme lemmatisée de ce mot peut être le verbe “faire”. L’intérêt de ce type de descripteurs est double. Il peut dans un premier temps réduire de manière non négligeable le nombre de descripteurs utilisés pour par exemple une tâche d’apprentissage. Les lemmes peuvent également permettre d’associer des termes ayant une sémantique commune.

Les descripteurs phonétiques

Les descripteurs phonétiques sont identifiés par des syllabes, responsables des sons. La définition de “syllabe” peut être : structure de type consonne+voyelle. Cependant, cette notion est ambigüe et a été discutée dans la littérature. Citons par exemple [Laueufer, 1992] et [Pallier, 1994] qui proposent un certain nombre de définitions permettant de caractériser une syllabe. Bien que peu utilisés dans le cadre d’application typiquement TAL, ces descripteurs sont surtout employés pour des approches de synthèses vocales comme le montrent [Dutoit, 1997] et [Bagein et al., 2001]. Les approches de synthèse vocale ne se limitent pas aux descripteurs phonétiques et sont souvent des méthodes complexes comme c’est le cas du système Mary TTS présenté dans [Schröder et al., 2003] qui traite l’allemand. Les descripteurs qui ont été présentés jusqu’ici ont des avantages certains mais ne permettent pas de résoudre le cas de termes polysémiques comme le mot “livre”, ayant un certain nombre de sens distincts. Un type de descripteur peut permettre de lever en partie les ambigüités sémantiques : les n-grammes qui sont présentés ci-dessous.

Les connaissances syntaxiques

Outre les connaissances lexicales, nous pouvons également sélectionner des descripteurs par des approches utilisant les informations syntaxiques d’un corpus. Le principe est assez similaire à l’approche précédente en ne conservant uniquement les descripteurs comme des syntagmes ou des relations syntaxiques. Nous définissons ci-dessous ce type de descripteurs. Notons que l’obtention de ce type de descripteurs nécessite le plus souvent une analyse syntaxique là où les précédents descripteurs pouvaient être obtenus par le biais d’étiqueteurs grammaticaux. Nous reviendrons sur ces notions dans les sections 3.2.2.2 (analyseurs) et 5.2.2 (étiqueteurs).
Les syntagmes
La sélection de syntagmes est une extension logique de la sélection de catégories lexicales pouvant être des noms, des verbes, des adverbes, etc. En effet un syntagme peut se définir comme un groupe de mots formant une unité lexicale par son sens et par sa fonction. Un syntagme est formé d’un noyau et de satellites. Le noyau est l’élément qui va définir la catégorie lexicale du syntagme. Par exemple, dans le syntagme “une jolie petite maison”,le noyau est le nom maison. Nous parlons alors de syntagme nominal. Une description plus complète de la notion de syntagme peut être trouvée dans [Bouquiaux, 1987]. Les syntagmes peuvent être obtenus par le biais de patrons syntaxiques, eux mêmes issus du domaine de l’extraction d’information et plus précisément de l’extraction de la terminologie. La terminologie d’un corpus se définit comme l’ensemble des termes “techniques” décrivant le plus significativement le domaine du corpus. Les méthodes permettant d’extraire de la terminologie sont fondées sur des approches numériques ou linguistiques. Citons par exemple Termino [David & Plante, 1990] et Lexter [Bourigault, 1994] qui se fondent sur des méthodes linguistiques. Citons par ailleurs Mantex [Frath et al., 2000] et Ana [Enguehard, 1993], [Enguehard, 2001] s’appuyant sur des outils numériques. Finalement, les approches les plus abondantes dans la littérature sont mixtes, utilisant des méthodes numériques avec des ressources linguistiques. Citons par exemple Acabit [Daille, 1994], Exit [Roche et al., 2004] ou encore Syntex [Bourigault & Fabre, 2000] qui fait suite à l’approche Lexter. Notons que chaque mot constituant un syntagme est dissociable. Un groupe de mots non dissociable est appelé un mot composé, formant ainsi un lemme à part entière (comme par exemple “après-midi”). Un type particulier de mot composé, appelé une locution est défini comme un mot composé contenant au moins un espace. Il s’agit la plupart du temps de syntagme qui se sont figés dont les mots ne sont plus dissociables comme la locution “pomme de terre”. Dans cet exemple, le sens du syntagme ne peut être déduit du sens de “pomme” et de “terre” pris séparément. Les syntagmes sont assez utilisés dans le domaine de la classification de textes comme dans [Kongovi et al., 2002] ou encore [Fei et al., 2004]. Ces derniers proposent de construire des patrons à base de syntagmes afin de classifier des sentiments.
Les relations syntaxiques
La syntaxe peut se définir comme un ensemble de règles régissant les relations entre les descripteurs d’un corpus (pouvant être des mots ou des syntagmes). Ces relations de dépendances sont appelées des relations syntaxiques. Il existe plusieurs types de relations syntaxiques comme les relations “verbe-objet” ou “sujet-verbe”. Ainsi, de la phrase “Je mange une pomme”, nous pouvons extraire la relation sujet-verbe “sujet :Je, verbe :mange” et verbe-objet “verbe :mange, objet :une pomme”. Une description détaillée des relations syntaxiques peut être trouvée dans [Bowers, 2001]. Les descripteurs de type relations syntaxiques ne sont pas employés en tant que tels dans la littérature. Ils sont cependant utilisés de manière connexe à d’autres approches dans différents domaines comme la biomédecine. Citons par exemple [Kim, 2008] qui utilise des relations syntaxiques afin de détecter l’interaction entre gènes et protéines. [Shen et al., 2005] présentent par ailleurs une approche construisant des patrons fondés sur des relations syntaxiques afin de produire un système de réponse automatique à des questions. Nous proposons dans ce mémoire une approche de sélection de descripteurs en se fondant sur l’utilisation de relations syntaxiques. Ainsi, ce type de descripteurs et son utilisation seront développés dans le chapitre 3 dans lequel nous présentons notre modèle.

Les thésaurus

Un thésaurus est présenté par la norme ISO 2788 de 1986 comme définissant “un vocabulaire d’un langage d’indexation contrôlé, organisé formellement de façon à expliciter les relations a priori entre les notions (par exemple relation générique-spécifique) ”. En d’autres termes, un thésaurus contient un ensemble de lemmes d’une langue de spécialité (appelé un lexique). Ces lemmes sont décrits par un ensemble de relations sémantiques avec les autres lemmes du lexique (relation de synonymie, de traduction, hiérarchiques ou encore de règles d’associations). Ainsi, le thésaurus est lié à l’étude terminologique d’un domaine général ou spécialisé, d’une langue comme nous pouvons le voir par exemple dans [Knapen & Briot, 1999]. Les termes d’un thésaurus ainsi définis cherchent alors à décrire des concepts. Deux notions caractérisent les concepts définis par les thésaurus selon [Maniez, 1999].
(1) Ces concepts sont définis afin de faciliter l’interrogation de bases de données textuelles (souvent des fonds documentaires). Ce critère va ainsi définir le choix de descripteurs par rapport à d’autres.
(2) Les concepts d’un thésaurus sont dépendants des langues qu’ils décrivent ainsi que du discours décrit. C’est en ce second point que d’autres types de représentations sémantiques peuvent se distinguer des thésaurus dont notamment les ontologies. L’un des thésaurus les plus utilisés dans la littérature est sans doute le thésaurus Roget [Roget, 1852] qui vise à décrire de manière générale la langue anglaise.

Latent Semantic Analysis (LSA)

L’approche LSA est issue des laboratoires BellCore en 1989. Originalement, cette analyse représentait une aide à la recherche documentaire [Deerwester et al., 1990]. Au fil du temps, son utilisation s’est étendue à des domaines plus variés comme le filtrage d’information [Foltz & Dumais, 1992], l’évaluation automatique de copies [Foltz, 1996], [Schreiner et al., 1998], [Wiemer-Hastings et al., 1999] ainsi que dans le domaine psycholinguistique par le biais de modélisation de l’acquisition [Landauer & Dumais, 1997], l’apprentissage des connaissances de l’apprenant [Zampa & Lemaire, 2002]. La méthode LSA qui s’appuie sur l’hypothèse distributionnelle émise par Harris [Harris, 1951], se fonde sur le fait que des mots qui apparaissent dans un même contexte sont sémantiquement proches. Le corpus est représenté sous forme matricielle. Les lignes sont relatives aux mots et les colonnes représentent les différents contextes choisis (un document, un paragraphe, une phrase, etc.). Chaque cellule de la matrice représente le nombre d’occurrences des mots dans chacun des contextes du corpus. Deux mots proches au niveau sémantique sont représentés par des vecteurs proches. La mesure de proximité est généralement définie par le cosinus de l’angle entre les deux vecteurs. La théorie sur laquelle s’appuie LSA est la décomposition en valeurs singulières (SVD).Une matrice A = [aij ] où aij est la fréquence d’apparition du mot i dans le contexte j, se décompose en un produit de trois matrices T SDt. T et D sont des matrices orthogonales et S une matrice diagonale.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction
1.1 Problématique
1.1.1 Le besoin humain de communiquer
1.1.2 De la fouille de données aux descripteurs de données textuelles
1.1.3 Thèse défendue : l’apport de l’information syntaxique à la sélection de descripteurs
1.1.4 Les tâches nécessitant des descripteurs
1.2 Organisation du manuscrit
2 État de l’art sur les descripteurs de textes et leur utilisation
2.1 Le choix du descripteur
2.1.1 Les types de descripteurs
2.1.1.1 Le mot ou lemme
2.1.1.2 La forme fléchie
2.1.1.3 Le radical
2.1.1.4 Les descripteurs phonétiques
2.1.1.5 Les n-grammes
2.1.2 La sélection de descripteurs
2.1.2.1 Les approches statistiques
2.1.2.2 Sélection morphosyntaxiques
2.1.2.3 Sélection par des modèles de connaissances
2.2 Représentation vectorielle
2.2.1 Espaces vectoriels
2.2.2 Modèle vectoriel
2.2.2.1 Booléen ou binaire
2.2.2.2 Fréquentielle
2.2.2.3 Représentations vectorielles par vecteurs d’idées
2.2.3 Pondérations statistiques
2.2.3.1 Le tf-idf
2.2.3.2 L’entropie
2.2.4 La réduction / projection
2.2.5 La similarité
2.2.5.1 Une mesure binaire : le coefficient de Jaccard
2.2.5.2 Produit scalaire, angle et cosinus
2.2.5.3 D’autres mesures de similarité
2.2.6 Les autres modèles de représentation
2.3 Comment sont utilisés ces descripteurs
2.3.1 Utilisation des descripteurs pour des tâches de classification
2.3.1.1 Principe
2.3.1.2 La notion d’apprentissage
2.3.1.3 Les approches avec apprentissage supervisé
2.3.1.4 Les approches avec apprentissage non supervisé
2.3.1.5 Les approches sans apprentissage
2.3.1.6 Type de descripteurs utilisés en classification
2.3.2 Extraction d’information
2.3.3 Recherche documentaire (RD)
2.4 Discussion
3 SelDe : identification de descripteurs fondée sur les connaissances syntaxiques
3.1 Introduction
3.2 L’analyse syntaxique
3.2.1 Définition
3.2.1.1 Approche générale
3.2.1.2 L’analyse syntaxique de données textuelles
3.2.2 Différents systèmes d’analyse syntaxique
3.2.2.1 La campagne d’évaluation Easy et le projet PASSAGE
3.2.2.2 Les analyseurs syntaxiques
3.2.3 Le système SYGMART
3.2.3.1 SYGMART et SYGFRAN
3.2.3.2 Principe de SYGMART
3.2.3.3 OPALE : le sous-système de décomposition morphologique
3.2.3.4 TELESI : le sous-système de transformation d’éléments structurés
3.2.3.5 AGATE : le sous-système de linéarisation d’éléments structurés
3.2.4 L’analyseur morpho-syntaxique SYGFRAN
3.3 L’étude de la proximité sémantique de termes
3.3.1 De la syntaxe aux connaissances sémantiques
3.3.1.1 Comment utiliser la syntaxe ?
3.3.1.2 La notion de proximité sémantique liée à l’analyse distributionnelle
3.3.2 Présentation générale du système ASIUM
3.3.3 La mesure d’ASIUM
3.3.3.1 Définition générale
3.3.3.2 Le choix des relations syntaxiques de type Verbe-Objet
3.3.3.3 La mesure d’ASIUM appliquée à notre problématique
3.3.4 Discussions sur le comportement de la mesure ASIUM
3.3.4.1 Définition des mesures de proximités
3.3.4.2 Exemple de calcul des mesures
3.3.4.3 Comparaison des mesures avec la mesure d’Asium
3.4 Le modèle SELDE
3.4.1 Les différentes étapes
3.4.2 Les post-traitements apportés à l’analyse de Sygfran
3.4.3 La sélection des objets en tant que descripteurs
3.4.3.1 Le choix du type d’objet
3.4.3.2 Le Seuil d’Asium – SA
3.4.3.3 Les différents paramètres pour la sélection de descripteurs 84
3.4.4 Les objets complémentaires dans le modèle SelDe
3.4.5 Les apports des descripteurs hybrides
4 Application du modèle SelDe pour l’enrichissement de contextes
4.1 Un modèle d’expansion de corpus appliqué à la classification
4.1.1 Description du modèle d’expansion
4.1.2 Corpus enrichi et classification
4.1.3 Un modèle d’enrichissement de corpus pour une tâche de classification
4.1.4 LSA et la syntaxe
4.2 Première expérimentation évaluant SelDe : la classification conceptuelle
4.2.1 Protocole expérimental
4.2.1.1 Description et caractéristiques du corpus étudié
4.2.1.2 Démarche expérimentale
4.2.2 Résultats expérimentaux
4.2.2.1 Plan des expérimentations
4.2.2.2 Le choix du paramètre k de LSA et de l’algorithme
4.2.2.3 L’enrichissement avec SelDe pour différents seuils d’Asium et choix du couple de verbes
4.2.2.4 Choix des paramètres de SelDe
4.2.2.5 ExpLSA comparé à LSA
4.2.2.6 ExpLSA comparé à l’approche utilisant TreeTagger
4.2.3 Synthèse et discussions
4.3 Seconde application pour évaluer SelDe : la classification de textes
4.3.1 L’impact des différents types de données textuelles sur la classification de textes
4.3.1.1 Taille des documents
4.3.1.2 Taille des corpus
4.3.1.3 Thème du corpus
4.3.2 Protocole expérimental
4.3.2.1 Description des corpus étudiés
4.3.2.2 Démarche expérimentale
4.3.3 Résultats expérimentaux
4.3.3.1 Plan des expérimentations
4.3.3.2 Le choix du paramètre k de LSA et de l’algorithme
4.3.3.3 L’enrichissement avec SelDe pour différents seuils d’Asium et choix du couple de verbes
4.3.3.4 Choix des paramètres de SelDe
4.3.3.5 Résultats obtenus
4.3.4 Synthèse et discussions
5 Quel modèle appliquer sur les données complexes
5.1 Introduction
5.1.1 Les limites du modèle SelDe
5.1.2 Les données textuelles complexes
5.1.3 Plan du chapitre
5.2 De la sélection de descripteurs à un modèle de classification de données textuelles complexes
5.2.1 L’extraction des descripteurs
5.2.2 Le modèle de classification
5.3 Traitement des données issues de blogs
5.3.1 Contexte
5.3.2 Protocole expérimental
5.3.3 Résultats expérimentaux
5.4 La sélection de descripteurs appliquée aux données bruitées
5.4.1 Contexte
5.4.2 Quelles approches combiner ?
5.4.2.1 Le choix des descripteurs pertinents de la littérature
5.4.2.2 Dans quel ordre combiner ces approches
5.4.3 Description et discussions sur la combinaison des approches de sélection de descripteurs
5.4.4 Approche HYBRED
5.4.4.1 Description d’HYBRED
5.4.4.2 Exemple de l’application d’HYBRED
5.4.5 Expérimentations
5.4.5.1 Protocole expérimental
5.4.5.2 Résultats expérimentaux
5.4.5.3 Synthèse
5.5 Traitement des données liées aux Ressources Humaines
5.5.1 Contexte .
5.5.2 Méthode de classement automatique des candidats
5.5.3 Expérimentations
5.6 Synthèse
6 SelDeF : la sélection de descripteurs avec filtrage
6.1 Vers un nouveau modèle
6.2 SelDeF
6.2.1 Description générale du modèle
6.2.2 Pourquoi un second modèle ?
6.3 Le filtrage des objets complémentaires
6.3.1 Les vecteurs sémantiques
6.3.1.1 Travaux relatifs aux vecteurs fondés sur les thésaurus
6.3.1.2 La représentation vectorielle
6.3.1.3 Deux approches pour mesurer la qualité d’une relation syntaxique induite
6.3.1.4 Comment mesurer la proximité sémantique des vecteurs sémantiques ?
6.3.2 La validation par le Web
6.3.2.1 Travaux relatifs à la validation par le Web
6.3.2.2 Notre approche de validation Web
6.3.3 Les approches hybrides
6.3.3.1 Combinaison 1 : Une combinaison pondérée par un scalaire (HyPon)
6.3.3.2 Combinaison 2 : Un système hybride adaptatif (HybAd)
6.3.4 Exemple de classement avec cinq relations induites
6.4 Synthèse
7 La construction et l’enrichissement de classes conceptuelles via SelDeF
7.1 Des descripteurs de SelDe aux classes conceptuelles
7.1.1 Préambule
7.1.2 La terminologie issue d’un corpus
7.1.3 La construction de classes conceptuelle fondée sur le modèle SelDe
7.2 Évaluation de la construction et de l’enrichissement de classes conceptuelles
7.2.1 La construction des classes conceptuelles
7.2.2 Enrichissement avec SelDeF
7.2.2.1 Protocole d’évaluation
7.2.2.2 Résultats expérimentaux
7.2.3 Le modèle d’enrichissement fondé sur le Web
7.2.3.1 L’acquisition de nouveaux termes
7.2.3.2 Le filtrage des candidats
7.2.3.3 Expérimentations
7.2.4 Synthèse
7.2.4.1 Les approches d’enrichissement
7.2.4.2 Analyse des résultats
7.2.4.3 Exemple de classe enrichie
7.3 Expérimentations avec un grand nombre de relations induites
7.3.1 Démarche expérimentale
7.3.1.1 Description des données
7.3.1.2 Les différentes variantes des approches de validation de SelDeF
7.3.1.3 Le protocole expérimental
7.3.2 Résultats expérimentaux
7.3.2.1 Les vecteurs sémantiques
7.3.2.2 La validation Web
7.3.2.3 Les combinaisons
7.3.3 Discussions
7.3.3.1 La qualité des résultats
7.3.3.2 La taille minimum du corpus de validation
7.3.3.3 La qualité du protocole d’évaluation
7.3.4 Synthèse
8 Conclusion et Perspectives
8.1 Synthèse
8.2 Perspectives
8.2.1 Le contexte dans ExpLSA
8.2.2 Le contexte pour l’enrichissement de classes conceptuelles
8.2.3 Mesurer la proximité sémantique de verbes
8.2.4 Vers une nouvelle problématique : les descripteurs dans les entrepôts de données
Publications personnelles
Table des figures
Liste des tableaux
A Classification conceptuelle
A.1 Détail des expérimentations dans le choix des paramètres
A.2 Résultats expérimentaux
A.2.1 Résultats pour chaque concept deux à deux
A.2.2 Résultats pour tous les concepts
B Classification de textes
B.1 Détail des expérimentations dans le choix des paramètres
B.2 Résultats expérimentaux avec les algorithmes NaiveBayes et k-ppv
C Données complexes
C.1 Taille de l’espace de représentation d’HYBRED
C.2 Résultats expérimentaux obtenus avec les corpus A et C
C.2.1 Évaluation des différents descripteurs
C.2.2 Évaluation de l’approche HYBRED
D Construction classes conceptuelles
D.1 Détail des résultats pour Hypon
D.2 Résultats expérimentaux pour les autres critères pour le vote et la moyenne
Bibliographie