Notre étude porte sur l’intégration de ressources lexicales et syntaxiques dans deux tâches fondamentales du Traitement Automatique des Langues [TAL] que sont l’étiquetage morphosyntaxique probabiliste et l’analyse syntaxique probabiliste. Dans le cadre de l’analyse syntaxique, deux modèles de la syntaxe sont majoritairement utilisés : structures de constituants et dépendances syntaxiques. Pour ces deux modèles, il existe une multitude de formalismes permettant de modéliser statistiquement le problème, comme par exemple les grammaires. Actuellement, les grammaires dites hors-contexte probabilistes permettent aux analyseurs d’obtenir les meilleures performances dans le cadre de l’analyse en constituants, et ce pour diverses langues dont le français (Crabbé & Candito, 2008; Candito & Crabbé, 2009). Il existe, en parallèle de ces grammaires, d’autres modélisations possibles du problème, et notamment les modèles discriminants (ou discriminatifs). Ce type de modélisation est mathématiquement plus complexe que les grammaires et permet de modéliser un plus grand nombre d’informations lexicales et syntaxiques. Ces modèles sont principalement utilisés pour l’analyse en dépendances (McDonald, 2006; Nivre, 2008; Candito et al., 2010b). Les grammaires, et, dans une moindre mesure, les modèles discriminants, souffrent de divers problèmes liés à leur formalisme mathématique (Jurafsky & Martin, 2000). La dispersion des données est l’un de ces problèmes, et représente la difficulté d’estimer la probabilité de phénomènes syntaxiques apparaissant dans les textes à analyser mais qui sont rares ou absents du corpus ayant servi à l’apprentissage des analyseurs. Ces phénomènes qui posent un problème de dispersion des données sont en général des phénomènes courants : les locuteurs en ont déjà entendu et produit des exemples innombrables, et ils en entendent et en produisent régulièrement. Ces phénomènes sont rares dans les corpus annotés actuellement utilisés, d’une taille sans commune mesure avec la masse de formes linguistiques à laquelle est exposé un locuteur. Notre premier objet d’étude portera donc sur la résolution, ou du moins l’atténuation de l’impact négatif de la dispersion des données sur les performances des analyseurs syntaxiques du français.
Par ailleurs, la plupart des évaluations concernant l’étiquetage morpho-syntaxique probabiliste et l’analyse syntaxique probabiliste ont été réalisées avec une segmentation parfaite du texte, car identique à celle du corpus évalué. Or, dans les cas réels d’application, la segmentation d’un texte est très rarement disponible et les segmenteurs automatiques actuels sont loin de proposer une segmentation de bonne qualité, et ce, à cause de la présence de nombreuses unités multimots (mots composés, entités nommées,…). Notre deuxième objet d’étude portera donc sur la segmentation automatique des textes français et son impact sur les performances des processus automatiques.
Corpus annotés
Les corpus de textes sont de plus en plus utilisés dans le cadre du traitement des langues naturelles. En revanche, seule une petite portion des corpus disponibles sont actuellement annotés au niveau syntaxique. En effet, les meilleurs analyseurs syntaxiques probabilistes nécessitent un corpus annoté afin d’être capable de modéliser statistiquement le problème, mais également, de pouvoir par la suite effectuer des évaluations pertinentes . Cependant, les corpus annotés ont un coût de création (humain et pécunier) non négligeable ce qui explique pourquoi il y a aujourd’hui peu de langues qui disposent de corpus annotés mais également pourquoi ces corpus sont souvent de petite taille.
Il existe plusieurs modèles de la syntaxe différents qui nécessitent chacun un type de corpus ayant un schéma d’annotations propre. Dans le cadre de l’analyse syntaxique probabiliste, deux modèles de la syntaxe sont très utilisés actuellement, l’un basé sur des corpus annotés en constituants, et l’autre sur des corpus annotés en dépendances. Les corpus dits en constituants contiennent des arbres de constituants syntaxiques (syntagmes nominaux, groupes verbaux,…) exploitables uniquement par des modèles probabilistes ayant un formalisme dérivé de ces constituants. Parmi les nombreux corpus de ce type, on peut citer le Penn Treebank [PTB] pour l’anglais (Marcus et al., 1994), le Tiger Treebank pour l’allemand (Brants et al., 2002) ou encore le French Treebank pour le français [FTB] (Abeillé et al., 2003). Quant aux corpus dits en dépendances, ils contiennent des arbres annotés en dépendances syntaxiques (structures prédicat-arguments) et exploitables par des analyseurs en dépendances uniquement. La représentation des phrases sous forme d’arbre de dépendances est souvent utilisée dans les tâches comme l’extraction d’informations ou encore les systèmes de questions-réponses. Il existe plusieurs solutions pour représenter ces dépendances, parmi lesquelles nous en citons deux. Une première solution consiste à modéliser des relations entre syntagmes de premier niveau . Pour le français, on peut citer les corpus des projets EAsy (Paroubek P., 2005) et Passage (Villemonte De La Clergerie et al., 2008). Une deuxième solution est basée sur des relations gouverneur-dépendants entre les mots de la phrase. Actuellement, la plupart des meilleurs algorithmes probabilistes d’analyse en dépendances ont adopté la deuxième solution (Nivre et al., 2007). Or, de nombreuses langues dont le français et l’anglais ne disposent pas de corpus de ce type. La conversion des corpus des projets EAsy et Passage pourrait être une solution à envisager mais la tâche est rendue complexe par leur schéma d’annotation particulier (Candito et al., 2010a). Pour éviter de créer un corpus de toutes pièces, de nombreux travaux se sont penchés sur la conversion automatique des corpus en constituants vers les corpus en dépendances, ce qui est rendu possible par des informations comme les fonctions syntaxiques. Par exemple, le PTB-DEP (Johansson & Nugues, 2007) et le FTB-DEP (Candito et al., 2010a) sont respectivement les versions en dépendances du PTB et du FTB.
French Treebank, un corpus arboré du français
Le corpus arboré du français appelé French Treebank (Abeillé et al., 2003), a été rendu disponible sous licence à partir de 2003 . Ce corpus, au format XML, contient 20648 phrases (pour 580 945 mots) provenant d’articles du journal Le Monde. Dans ce corpus, chaque phrase est annotée par un arbre syntaxique en constituants et les annotations sont à la fois morphologiques et syntaxiques. Aujourd’hui toutes doivent pouvoir prétendre à l’excellence. Un arbre syntaxique en constituants est composé de trois types de noeuds. Les noeuds terminaux sont les feuilles de l’arbre et correspondent aux tokens de la phrase . Les noeuds préterminaux sont les étiquettes morpho-syntaxiques associées aux tokens et chaque noeud préterminal possède un unique noeud terminal fils. Quant aux noeuds non-terminaux, ils ont pour valeur une étiquette syntaxique. Sur l’exemple précédent, toutes est un token de la phrase et donc la valeur d’un terminal de l’arbre. Son noeud préterminal père a pour valeur l’étiquette morpho-syntaxique PRO-ind-3fp. Le père de ce noeud préterminal est un non-terminal ayant pour valeur l’étiquette syntaxique NP. En ce qui concerne la description des étiquettes morpho-syntaxiques, le FTB fournit les traits flexionnels (champ mph) ainsi que le lemme (champ lemma) pour tous les tokens du corpus. De plus, un champ subcat indique une souscatégorisation possible pour le token. Par exemple, pour un déterminant, la sous-catégorisation indique s’il est défini ou indéfini. Pour un nom, le champ peut préciser s’il est commun ou propre. Il existe 34 valeurs différentes de sous-catégorisation dans le FTB.
Format parenthésé
Comme nous l’avons énoncé précédemment, le FTB (toutes versions confondues) est un corpus au format XML. Or, ce format n’est pas le format utilisé pour l’entraînement de la plupart des analyseurs syntaxiques. Le format standard est une structure arborée, appelé format parenthésé. Un mot et son étiquette morpho syntaxique sont représentés sous la forme d’un tuple (étiquette mot). Les noeuds syntaxiques sont représentés sous la forme (étiquette X), avec X une séquence de paires mot-étiquette et/ou de noeuds syntaxiques. Par convention, un noeud racine ayant une étiquette vide est ajouté à l’arbre. au format parenthésé et sa représentation graphique arborée correspondante. La plupart des travaux menés sur l’analyse syntaxique du français se basent sur une instance du FTB-UC au format parenthésé. Cette instance a la particularité d’avoir un jeu de 28 étiquettes morpho syntaxiques. Ces étiquettes sont la composition des catégories grammaticales avec certains traits flexionnels (mph) et quelques champs de sous-catégorisation (subcat). Par exemple, l’étiquette CS (conjonction de subordination) est la composition de la catégorie grammaticale C (conjonction) avec le trait de sous-catégorisation S (de subordination).
|
Table des matières
Introduction
1 Contexte
2 Objectifs
3 Plan de la thèse
Partie I État de l’art
Chapitre 1 Corpus annotés
1.1 Introduction
1.2 French Treebank, un corpus arboré du français
1.3 French Treebank en dépendances
Chapitre 2 Analyse syntaxique probabiliste
2.1 Introduction
2.2 Évaluation de la qualité des analyseurs syntaxiques
2.3 Modèles génératifs pour l’analyse syntaxique : Grammaires hors-contexte probabilistes
2.4 Modèles discriminants pour l’analyse syntaxique
2.5 Adaptation des analyseurs à de petits corpus et à des textes de genres différents
2.6 Conclusion
Chapitre 3 Étiquetage morpho-syntaxique
3.1 Introduction
3.2 Modèles génératifs markoviens
3.3 Modèles discriminants
3.4 Éxpériences d’étiquetage réalisées sur le corpus du français FTB-UC
3.5 Conclusion
Chapitre 4 Ressources lexicales et syntaxiques
4.1 Introduction
4.2 Dicovalence
4.3 Lefff
4.4 Lexique-Grammaire
4.5 LexSchem
4.6 Couverture des lexiques
Partie II Stratégies d’exploitation de ressources lexicales et syntaxiques pour l’étiquetage morpho-syntaxique et l’analyse syntaxique
Chapitre 5 Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique
5.1 Introduction
5.2 Unités lexicales multi-mots
5.3 Stratégies discriminantes pour l’intégration de ressources lexicales
5.4 Les traits concernant les mots composés
5.5 Évaluations de l’étiqueteur-segmenteur
5.6 Évaluation de l’analyse syntaxique avec identification des MWEs
5.7 Discussion des résultats
Chapitre 6 Analyse syntaxique et algorithmes de regroupements lexicaux basés sur les lexiques
6.1 Introduction
6.2 Classes lexicales pour l’analyse en constituants
6.3 Classes lexicales pour l’analyse en dépendances
6.4 Regroupements lexicaux générés à partir des lexiques syntaxiques du français
6.5 Discussion des résultats
Conclusion
Bibliographie
3 Bibliographie
Annexes
1 Hiérarchie des classes du Lexique-Grammaire
2 README de l’étiqueteur LGTagger
3 README du réordonnanceur discriminatif