L’analyse syntaxique et les grammaires de dépendances
L’analyse syntaxique de textes à l’aide de lexiques syntaxiques est au centre de projets de recherche récents sur le français et d’autres langues. Elle constitue un point clé dans un grand nombre de traitements automatiques, tels que la compréhension de textes, l’extraction des relations de dépendances entre des tokens , l’extraction d’information ou la traduction. Le but d’un analyseur syntaxique est de créer une ou plusieurs représentations de chacun des tokens qu’il reçoit en entrée. Autrement dit, sa tâche est de déterminer pour chaque token de la phrase sa fonction syntaxique, ainsi que les relations de dépendance syntaxique des éléments de la phrase, telles que sujet-verbe ou verbe-objet, l’objectif final étant de retirer toute forme d’ambiguïté à la phrase afin de ne générer qu’une seule représentation. Pour atteindre cet objectif, il faut notamment posséder un lexique où les formes lexicales sont les plus spécifiées possible afin d’augmenter les contraintes d’utilisation et ainsi diminuer l’ambiguïté.
Ces dernières années, de nombreux progrès ont été réalisés depuis l’analyseur syntaxique développé par l’équipe de Z. Harris dans les années 50 (Joshi et Hopely (1996)). De manière plus détaillée, nous pouvons diviser les différentes approches en deux catégories :
– les analyseurs symboliques qui utilisent une grammaire et/ou un lexique développés manuellement ;
– les analyseurs probabilistes qui reposent sur un modèle acquis à partir d’un corpus annoté manuellement.
L’analyse syntaxique probabiliste profonde obtient ses meilleurs résultats avec le formalisme des grammaires hors-contextes probabilistes (PCFG, Probabilistic Context-Free Grammar). Différentes stratégies d’apprentissage sont utilisées. Ces stratégies sont soit lexicalisées (par exemple, Collins (2003)), soit non lexicalisées (par exemple, Klein et Manning (2003)). L’approche symbolique, bien que laborieuse puisque les ressources sont développées manuellement, permet de construire une base très riche d’informations linguistiques. Il s’agit notamment de décrire les caractéristiques syntaxiques des tokens, même si représenter toutes ces données est difficile.
Définition Un analyseur en dépendances reçoit une phrase en entrée s = w1, w2,…, wn et calcule le graphe de dépendances G = (W, A). L’ensemble des nœuds W = w0, w1,…, wn correspondent aux tokens d’une phrase, et le nœud w0 est la racine2 de G. A est un ensemble d’arcs (wi , wj ), dont chacun représente une relation de dépendance où wi est la tête et wj est le dépendant. On suppose que le résultat d’un graphe de dépendance pour une phrase est bien formé (Nivre (2008)). G est bien formé si et seulement s’il satisfait les quatre conditions suivantes : une seule tête pour une phrase, acyclique, connexe et enraciné.
Les analyses en dépendances
Les représentations en dépendance sont devenues de plus en plus populaires dans l’analyse syntaxique, en particulier pour les langues avec un ordre des mots flexible, comme le tchèque (Collins et al. (1999)), le bulgare (Marinov et Nivre (2005)), le turc (Eryi ˘git et Oflazer (2006)) et le russe (Boguslavsky et al. (2011)). De nombreuses implémentations pratiques de l’analyse en dépendances sont limitées aux structures projectives. Bien que cette contrainte garantit une bonne complexité, il est bien connu que certaines constructions syntaxiques ne peuvent être représentées de manière adéquate que par des structures de dépendances non-projectives, où la projection de la tête peut être discontinue. Ceci est particulièrement pertinent pour les langues avec ordre des mots libres ou flexibles.
Méthodes d’analyses en dépendances
Nous allons présenter certaines méthodes d’analyses en dépendances. Nous passons aussi au problème de l’analyse en dépendances qui consiste à trouver automatiquement la structure de dépendance d’une phrase donnée et de former une analyse ou les analyses les plus probables pour chaque phrase. Nous allons montrer un certain nombre de méthodes différentes pour résoudre ce problème (Nivre et al. (2009), (Dikovsky (2004) )), certaines sont basées sur l’apprentissage automatique inductif de grands ensembles de phrases qui sont annotées syntaxiquement, d’autres basées sur des grammaires formelles qui définissent des structures de dépendance admissibles. D’une manière générale, ces approches peuvent être divisées en deux classes, que nous appelons dirigée par les données et basée sur une grammaire. Une approche est dirigée par les données si elle fait usage essentiellement de l’apprentissage automatique à partir des données linguistiques en vue d’analyser de nouvelles phrases. Une approche est basée sur la grammaire si elle s’appuie sur une grammaire formelle, la définition d’un langage formel , de sorte qu’il est logique de se demander si une phrase donnée en entrée dans la langue est définie par la grammaire ou pas.
La majeure partie des travaux sur l’analyse en dépendances sont consacrés aux méthodes dirigées par les données qui ont attiré le plus l’attention ces dernières années (Nivre et al. (2009)). Dans l’analyse en dépendances il y a deux problèmes:
– le premier est le problème de l’apprentissage qui est la tâche de l’apprentissage d’un modèle d’analyse à partir d’un échantillon représentatif de phrases et de leur structure de dépendance.
– le deuxième est le problème d’analyse qui est la tâche d’appliquer le modèle d’apprentissage à l’analyse d’une nouvelle phrase. Nous pouvons les représenter comme suit.
– Acquisition : étant donné un ensemble d’exemples D (annotées avec des graphes de dépendances), il faut induire un modèle d’analyse M qui peut être utilisé pour analyser de nouvelles phrases.
– Analyse : étant donné un modèle d’analyse M et une phrase S, on dérive le graphe de dépendances optimal G pour S correspondant à M. Plus précisément, le problème de l’apprentissage est d’induire un modèle de prédiction d’une transition vers l’état suivant , étant donnée l’histoire des transitions, et le problème de l’analyse est de construire la séquence de transitions optimale pour une phrase en entrée. Nous pouvons résumer les méthodes d’analyses en dépendances comme suit :
1. l’analyse en dépendances dirigée par les données ;
– analyse syntaxique basée sur les transitions ;
– analyse syntaxique basée sur les graphes ;
2. analyse syntaxique basée sur les grammaires ;
– l’analyse en dépendances hors-contexte ;
– l’analyse en dépendances basée sur les contraintes.
Types d’analyses syntaxiques et les algorithmes d’analyses
Nous étudions les deux catégories d’analyses syntaxiques : l’analyse en dépendances dirigée par les données et l’analyse syntaxique basée sur les grammaires. Mais d’abord, nous donnons quelques définitions importantes pour la suite.
Définition Supposons que R = {r1, · · · ,rm} est un ensemble fini de noms de dépendances possibles (relation de dépendance) qui peuvent relier deux tokens dans une phrase. Un nom de dépendance r ∈ R est aussi appelé un arc étiqueté. Par exemple une relation entre un verbe “tête” et son sujet peut être noté avec r = SBJ.
Définition Un graphe de dépendances G = (V, A) est un graphe étiqueté dans le sens standard de la théorie des graphes et consiste en un ensemble de nœuds V et en un ensemble d’arcs A, tel que pour une phrase S = w1w2…wn et l’ensemble des noms de dépendances R :
1. V ⊆ {w1w2…wn}
2. A ⊆ V × R × V
3. si ( wi,r, wj )∈ A alors ( wi,r′, w ) ∉ A pour tous r’ ≠ r .
|
Table des matières
INTRODUCTION
1 Introduction
1.1 Contexte
1.1.1 Présentation de la problématique
1.1.2 Résumé des contributions
1.1.3 Publications
1.1.4 Plan de la thèse
I État de l’art
2 L’analyse syntaxique et les grammaires de dépendances
2.1 Introduction
2.2 Les analyses en dépendances
2.2.1 Méthodes d’analyses en dépendances
2.2.2 Analyse en dépendances stochastiques pour le français
2.3 Les formalismes de grammaires
2.3.1 Grammaires de liens
2.3.2 Les grammaires catégorielles (GC)
2.3.3 Grammaires algébriques
2.3.4 Les grammaires d’arbres adjoints (TAG)
2.4 Conclusion
3 Grammaires catégorielles de dépendances
3.1 Introduction
3.2 Les grammaires catégorielles de dépendances
3.2.1 Type de CDG
3.2.2 Calcul de types des dépendances
3.2.3 Extension des CDG
3.2.4 Expressivité des CDG
3.3 L’analyseur des CDG
3.4 Conclusion
II Ressources lexicales et unités lexicales
4 Le lexique morpho-syntaxique Lefff et la CDG du français
4.1 Introduction
4.2 Les ressources linguistiques et la CDG du français
4.2.1 Présentation de Lefff et de son architecture
4.2.2 Construction du lexique de la base de données de la CDG du français
4.2.3 Travaux après l’incorporation de Lefff
4.3 Conclusion et perspectives
5 Acquisition automatique des arguments de noms déverbaux
5.1 Introduction
5.2 La structure argumentale des déverbaux
5.2.1 Recherche des déverbaux
5.2.2 Cadres de sous-catégorisation des déverbaux
5.2.3 Expériences et évaluation des résultats
5.2.4 Construction du corpus de déverbaux
5.3 Complétion de la liste des suffixes
5.3.1 Conclusion et perspectives
III Amélioration de l’analyse en dépendances
6 Une approche pour améliorer l’analyse en dépendances
6.1 Introduction
6.2 Modèles d’analyses en dépendances
6.2.1 Correspondances entre des étiquettes des étiqueteurs morpho-syntaxiques et les parties du discours de Lefff
6.2.2 Expériences et évaluation des résultats
6.3 Discussions
6.4 Conclusion
7 Conclusion et perspectives
7.1 Rappel des enjeux
7.1.1 Contributions
7.1.2 Travaux futurs
CONCLUSION
Annexes