Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique
L’intégration des expressions multi-mots [MWE] dans des applications réelles, comme la traduction automatique ou l’extraction d’information, est cruciale car de telles expressions ont la particularité de contenir un certain degré de figement. En particulier, elles forment des unités lexicales complexes qui, si elles sont prises en compte, pourraient non seulement améliorer l’étiquetage morpho-syntaxique et l’analyse syntaxique, mais aussi faciliter les analyses sémantiques qui en découlent. Ces dernières années, l’étiquetage morpho-syntaxique a atteint d’excellents niveaux de performance grâce à l’utilisation de modèles probabilistes discriminants (chapitre I.3), comme les modèles de maximum d’entropie [ME] (Ratnaparkhi, 1996; Toutanova et al., 2003), les séparateurs à vaste marge [SVM] (Giménez & Màrquez, 2004) ou encore les champs conditionnels aléatoires [CRF] (Tsuruoka et al., 2009). Il a par ailleurs été montré que le couplage de ces modèles avec des lexiques externes augmente encore la qualité de l’annotation, comme l’illustre (Denis & Sagot, 2009, 2010) pour les modèles ME (section I.3.3.2). Néanmoins, les évaluations réalisées considèrent toujours en entrée un texte avec une segmentation lexicale parfaite, c’est-à-dire que les MWEs, qui forment par définition des unités linguistiques, ont été parfaitement reconnues au préalable. Or cette tâche de segmentation est difficile car elle nécessite des ressources lexicales importantes. On notera que les systèmes tels que Macaon (Nasr et al., 2010) et Unitex (Paumier, 2011) intègrent une analyse lexicale avec segmentation multi-mots ambiguë avant levée d’ambiguité par l’utilisation d’un modèle de Markov caché [HMM]. L’intégration des MWEs dans un processus d’analyse syntaxique probabiliste a déjà été envisagée dans quelques études. Toutefois, comme pour la phase d’étiquetage, elles reposent pour la majorité sur un corpus au sein duquel l’ensemble des MWEs a été parfaitement identifié au préalable. Bien qu’artificielles, ces études ont montré une amélioration des performances d’analyse avec, par exemple, (Nivre & Nilsson, 2004; Eryigit et al., 2011) pour l’analyse en dépendance et (Arun & Keller, 2005; Hogan et al., 2011) pour l’analyse en constituants. Plus récemment, (Green et al., 2011) ont intégré la reconnaissance des MWEs au sein de la grammaire et non plus dans une phase préalable. La grammaire est entrainée sur un corpus arboré où les MWEs sont annotées avec des noeuds non-terminaux spécifiques.
Unités lexicales multi-mots
Dans le consensus actuel du Traitement Automatique des Langues (TAL), les expressions multi-mots forment des unités linguistiques aux comportements lexicaux, syntaxiques et/ou sémantiques particuliers. Elles regroupent les expressions figées et semi-figées, les collocations, les entités nommées, les verbes à particule, les constructions à verbe support, les termes, etc… (Sag et al., 2002). Leur identification est donc cruciale avant toute analyse sémantique. Elles apparaissent à différents niveaux de l’analyse linguistique : certaines forment des unités lexicales contigues à part entière, comme par exemple cordon bleu, San Francisco, par rapport à, d’autres composent des constituants syntaxiques comme les phrases figées, telles que N0 prendre le taureau par les cornes, N0 prendre N1 en compte, ou les constructions à verbe support, comme N0 donner un avertissement à N1 et N0 faire du bruit. Dans ce mémoire, nous nous focalisons sur les MWEs continues qui forment des unités lexicales auxquelles on peut associer une étiquette morpho-syntaxique. Par exemple, tout à fait est un adverbe, à cause de est une préposition, table ronde est un nom. Les variations morphologiques et lexicales sont très limitées, et les variations syntaxiques très souvent interdites. De telles expressions sont généralement analysées au niveau lexical. Par exemple, le mot vin, quand il désigne la boisson, peut être associé à un mot représentant une couleur prise parmi la liste restreinte suivante : rouge, blanc ou rosé. Le mot orange n’est en revanche pas accepté. Le mot caisse noire est un autre exemple de limitation lexicale car, dans le cas présent , caisse ne peut être associé qu’au mot noire. Par la suite, nous utilisons le terme mot composé ou unité polylexicale.
Les unités polylexicales peuvent être recensées dans des dictionnaires électroniques ou des grammaires locales. Les dictionnaires électroniques sont des listes qui associent des formes lexicales à des informations linguistiques comme les catégories grammaticales ou certains traits sémantiques tels que humain ou concret. Les grammaires locales (Gross, 1997; Silberztein, 2000) sont des réseaux récursifs de transitions décrits sous la forme de graphes d’automates finis. Chaque transition est étiquetée par un élément lexical (mange par exemple), un masque lexical correspondant à un ensemble de formes lexicales encodées dans un dictionnaire ( symbolisant toutes les formes fléchies dont le lemme est manger) ou un élément non-terminal référant à un autre automate. Elles sont très utiles pour décrire de manière compacte des MWEs acceptant des variations lexicales. Un système de transduction permet d’annoter les expressions décrites, comme la catégorie grammaticale ou l’analyse des composants internes pour les entités nommées (Martineau et al., 2009).
Identification des mots composés
La reconnaissance automatique des mots composés est, la plupart du temps, réalisée à l’aide de ressources lexicales construites manuellement ou apprises automatiquement. La méthode la plus simple est fondée sur la consultation de lexiques comme dans (Silberztein, 2000). Le plus grand désavantage est que cette procédure se base entièrement sur des dictionnaires, et est donc incapable de découvrir de nouveaux mots composés. L’utilisation d’extracteurs automatiques de collocations peut donc s’avérer utile. Par exemple, (Watrin & François, 2011) calculent à la volée pour chaque collocation candidate dans le texte traité, son score d’association au moyen d’une base externe de n-grammes apprise sur un grand corpus brut. L’expression est ensuite étiquetée comme MWE si son score d’association est plus grand qu’un seuil donné. Ils obtiennent d’excellents résultats dans le cadre d’une tâche d’extraction de mots-clés. Dans le cadre d’une évaluation sur corpus de référence, (Ramisch et al., 2010) ont développé un classifieur basé sur un séparateur à vastes marges intégrant des traits correspondant à différentes mesures d’associations des collocations. Les résultats sont plutôt faibles sur le corpus GENIA. (Green et al., 2011) ont confirmé ces mauvais résultats sur le FTB. Ceci s’explique par le fait que de telles méthodes ne font aucune distinction entre les différents types de MWEs, et que les types de MWEs annotés dans les corpus sont souvent limités. L’identification de telles expressions est une tâche très difficile car les unités non décrites dans les ressources sont difficilement reconnaissables. Elle est d’autant plus difficile qu’elle dépend du contexte d’occurrence. En effet, une expression reconnue est souvent ambigue avec l’analyse en combinaison libre, comme par exemple :
il en fait une priorité (combinaison libre)
j’ai en fait beaucoup travaillé (combinaison figée).
On observe parfois des chevauchements avec d’autres unités polylexicales, comme dans la séquence une pomme de terre cuite, où pomme de terre et terre cuite sont des mots composés. C’est pourquoi les outils existants de segmentation en unités polylexicales, comme dans INTEX (Silberztein, 2000) ou SxPipe (Sagot & Boullier, 2008), produisent une segmentation ambiguë sous la forme d’automates finis acycliques pour éviter de prendre une décision définitive trop hâtive. Cette analyse ambiguë peut alors être intégrée dans des traitements linguistiques tels que l’étiquetage morpho-syntaxique (Nasr et al., 2010; Paumier, 2011)) ou l’analyse syntaxique superficielle (Blanc et al., 2007; Nasr et al., 2010) et profonde (Sagot, 2006). À présent, nous allons voir en détail deux approches pour l’identification des MWEs consistant à combiner cette tâche avec un processus automatique : l’étiquetage morpho-syntaxique ou l’analyse syntaxique.
|
Table des matières
Introduction
1 Contexte
2 Objectifs
3 Plan de la thèse
Partie I État de l’art
Chapitre 1 Corpus annotés
1.1 Introduction
1.2 French Treebank, un corpus arboré du français
1.3 French Treebank en dépendances
Chapitre 2 Analyse syntaxique probabiliste
2.1 Introduction
2.2 Évaluation de la qualité des analyseurs syntaxiques
2.3 Modèles génératifs pour l’analyse syntaxique : Grammaires hors-contexte probabilistes
2.4 Modèles discriminants pour l’analyse syntaxique
2.5 Adaptation des analyseurs à de petits corpus et à des textes de genres différents
2.6 Conclusion
Chapitre 3 Étiquetage morpho-syntaxique
3.1 Introduction
3.2 Modèles génératifs markoviens
3.3 Modèles discriminants
3.4 Éxpériences d’étiquetage réalisées sur le corpus du français FTB-UC
3.5 Conclusion
Chapitre 4 Ressources lexicales et syntaxiques
4.1 Introduction
4.2 Dicovalence
4.3 Lefff
4.4 Lexique-Grammaire
4.5 LexSchem
4.6 Couverture des lexiques
Partie II Stratégies d’exploitation de ressources lexicales et syntaxiques pour l’étiquetage morpho-syntaxique et l’analyse syntaxique
Chapitre 5 Les unités multi-mots dans l’étiquetage morpho-syntaxique et l’analyse syntaxique
5.1 Introduction
5.2 Unités lexicales multi-mots
5.3 Stratégies discriminantes pour l’intégration de ressources lexicales
5.4 Les traits concernant les mots composés
5.5 Évaluations de l’étiqueteur-segmenteur
5.6 Évaluation de l’analyse syntaxique avec identification des MWEs
5.7 Discussion des résultats
Chapitre 6 Analyse syntaxique et algorithmes de regroupements lexicaux basés sur les lexiques
6.1 Introduction
6.2 Classes lexicales pour l’analyse en constituants
6.3 Classes lexicales pour l’analyse en dépendances
6.4 Regroupements lexicaux générés à partir des lexiques syntaxiques du français
6.5 Discussion des résultats
Conclusion