Annotation en rôles sémantiques du français en domaine spécifique

En Intelligence Artificielle et en Traitement Automatique des Langues, les années 50 et 60 étaient pleines d’optimisme. D’après [Russell and Norvig, 2010], Simon Herbert annonçait en 1957 :

Mon intention n’est pas de vous surprendre ou de vous choquer, mais la manière la plus simple de résumer les choses consiste à dire qu’il existe désormais des machines capables de penser, d’apprendre et de créer. En outre, leur capacité d’accomplir ces choses va rapidement s’accroître jusqu’à que, dans un futur proche, le champ des problèmes qu’elles pourront aborder soit coextensif à celui auquel s’applique l’esprit humain.

Effectivement, les réussites sur des petits problèmes étaient prometteuses. Slagle [1963] a proposé un système de calcul de primitives du niveau d’un bon étudiant de première année à l’université. Winograd [1972] a lui proposé un système de compréhension de l’anglais au sein du monde des blocs, un micromonde très utilisé à l’époque pour sa simplicité. Malheureusement, la réussite sur des petits problèmes ne s’est pas étendue à des problèmes plus complexes, ce qui a conduit notamment à un arrêt des financements portant sur la traduction automatique aux États-Unis [Pierce and Carroll, 1966] et à limiter les travaux en Intelligence Artificielle à deux universités en Grande Bretagne [Lighthill et al., 1973].

Depuis, l’Intelligence Artificielle a continué à progresser jusqu’à devenir une industrie et une science, grâce à :
— des techniques comme les systèmes experts, les réseaux de neurones et diverses approches d’apprentissage automatique,
— de gros volumes de données disponibles depuis le début des années 2000,
— des ordinateurs de plus en plus puissants disposant de stockages de plus en plus rapides,
— et à diverses applications tel que la planification logistique, la reconnaissance de la parole ou encore la robotique.

De la même manière, au fil des années, le Traitement Automatique des Langues a muri, et s’appuie aujourd’hui sur des applications, des méthodes et des sous-tâches plus accessibles que les applications envisagées initialement. Nous citerons ici deux de ces sous-tâches.

— Étiquetage morpho-syntaxique Le Brown Corpus a été annoté en parties du discours entre le milieu des années 60 et la fin des années 1970, ce qui a permis d’entraîner divers algorithmes, tels que les chaînes de Markov cachées et plus tard des méthodes d’apprentissage supervisées telles que les SVMs ou les CRFs. Un plateau a été atteint autour de 97 % d’exactitude depuis le milieu des années 2000 [Manning, 2011].
— Analyse syntaxique Au début des années 1990, le corpus du Penn Treebank [Marcus et al., 1993] a permis d’avancer la recherche en analyse syntaxique. Deux représentations relativement équivalentes (constituants et dépendances) se sont largement imposées [Rambow, 2010], ce qui a facilité la comparaison des systèmes. Différents chercheurs ont introduit un certain nombre d’algorithmes ayant chacun leurs avantages et leurs défauts. Depuis le début des années 2010, et de la même manière que pour l’annotation des parties du discours, un plateau a été atteint autour de 90 % d’exactitude, et ceci que la méthode soit statistique ou plus symbolique [De La Clergerie, 2014].

Pour un certain nombre de chercheurs [Bos et al., 2012, Banarescu et al., 2013], c’est le moment de se tourner vers de nouvelles tâches plus sémantiques. C’est pour cette raison qu’à la manière des corpus annotés en parties du discours ou en syntaxe qui ont tant fait progresser leurs domaines respectifs, des corpus « sémantiques » ont vu le jour dans le passé tels que FrameNet, PropBank ou le Penn Discourse Treebank, mais d’autres, plus ambitieux, voient aussi le jour aujourd’hui, tels que GMB [Bos et al., 2012] ou l’AMR Bank [Banarescu et al., 2013] . L’objectif affiché est de « faire progresser la sémantique comme la syntaxe a progressé dans les années 1990 ».

Dès lors, si l’on considère que l’analyse syntaxique n’est plus la priorité, quelle direction prendre ? Commençons par identifier les informations manquantes une fois que l’analyse syntaxique d’une phrase a été effectuée.

Le problème principal que nous voyons est que le sujet et les objets syntaxiques d’un verbe ne suffisent pas à déterminer les sujets et objets sémantiques, c’est-à-dire l’agent, le patient, etc. Par exemple, étant donné la phrase Le ballon repoussé par Léa a cassé la vitre des voisins, il s’avère que le sujet syntaxique (Le ballon repoussé par Léa) correspond parfaitement à l’agent sémantique. Dans d’autres situations, ce n’est pas le cas : pour La vitre des voisins a cassé sous le choc du ballon tiré par Léo, le sujet syntaxique est La vitre des voisins  . Pourtant ce sujet syntaxique n’est pas l’agent sémantique, mais bien le patient, étant donné que c’est la vitre qui subit l’action ici.

De manière plus marquée que pour les sujets, l’analyse syntaxique en tant que telle ne fournit pas suffisamment d’information pour désambiguïser le rôle des objets du verbe. Prenons les phrases Luc a posé un livre sur la table et Luc a posé sur la table son livre préféré traitant de la génétique des chimpanzés. Ici, l’ordre des objets ne suffit pas, il faut identifier que parmi les deux objets syntaxiques :
— l’un est un syntagme prépositionnel introduit par une préposition locative (sur),
— tandis que l’autre est un syntagme nominal direct.

On peut alors déterminer que le livre est le thème sémantique pour le prédicat poser et que la table est la destination sémantique pour ce même prédicat. Ici, même si la syntaxe en ellemême ne résout pas le problème, c’est bien grâce à elle qu’on peut déterminer le rôle de chaque syntagme.

Dans d’autres cas, la syntaxe ne suffit plus. Par exemple, pour la phrase When you’ve booted the machine you’ve built yourself (extraite de la version anglaise de DiCoInfo), le sujet et l’objet de boot sont tous les deux des syntagmes nominaux, et la syntaxe ne suffit alors pas à désambiguïser entre le sens informatique de boot (démarrer un ordinateur) et le sens géographique de boot (exclure un individu de quelque part). Ici, des informations sémantiques peuvent nous aider. Dans le cas informatique, l’objet n’est pas animé, alors que dans le second il l’est. Si on sait que the machine n’est pas animé, il devient alors possible :

1. d’exclure le sens géographique du verbe,
2. et d’attribuer les rôles corrects aux syntagmes associés aux verbes (respectivement thème et destination),

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction
1.1. Motivation
1.1.1. Historique
1.1.2. Au-delà de l’analyse syntaxique
1.2. Objectifs
1.2.1. L’annotation en rôles sémantiques
1.2.2. Applications
1.2.3. Contraintes
1.2.4. Moyens
1.3. Ressources lexicales utilisées
1.3.1. WordNet
1.3.2. Les classes de Levin
1.3.3. VerbNet
1.3.4. FrameNet
1.3.5. Différences de vocabulaire entre VerbNet et FrameNet
1.3.6. Les Verbes Français et le Lexique-Grammaire
2. État de l’art
2.1. Représentation des mots .
2.1.1. Représentation du sens des mots
2.1.2. Ressources lexicales actuelles
2.1.3. Modèles de langue pour la similarité sémantique
2.2. Traductions de ressources linguistiques
2.2.1. WordNet
2.2.2. VerbNet
2.2.3. FrameNet
2.3. Annotation en rôles sémantiques
2.3.1. Les rôles sémantiques
2.3.2. Lexiques et corpus
2.3.3. Approches d’annotation
2.3.4. Terminologie
2.3.5. Adaptation au domaine
3. Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *