Influence des annotations imparfaites sur les systèmes de Traitement Automatique des Langues

A la lecture d’un texte, l’homme, qui en comprend le sens, décode mentalement l’ensemble des informations contenues dans le texte. Il n’en est pas de même pour un système automatique. Pour permettre le traitement automatique, un certain nombre d’informations contenues dans le texte doivent être rendues explicites au système. Ces informations peuvent être très simples comme la distinction des mots et des phrases, ou bien plus complexes comme la structure grammaticale des phrases ou encore les relations de synonymie entre les syntagmes nominaux.

La mention explicite de ces informations exploitables par le système prend souvent la forme d’un ensemble d’annotations. Annoter une partie d’un document consiste à consigner un ensemble de propriétés, dont le type est prédéfinies, afin de caractériser une séquence continue ou discontinue du document. Ces propriétés peuvent être d’ordres différents comme des propriétés lexicales, syntaxiques, sémantiques voire ontologiques. On parle plus généralement d’annotation d’une partie d’un document, mais on peut aussi annoter le document lui même ou encore le corpus. Notre définition s’étend sans difficulté. Annoter un document ou un corpus consiste à consigner un ensemble de propriétés prédéfinies afin de caractériser une information relative au document ou au corpus.

La richesse de l’annotation d’un document est variable et dépend de l’utilisation qui doit en être faite. Il s’agit souvent d’un compromis entre la qualité recherchée des réponses du système, et la rapidité de la réponse attendue. Un système de recherche d’information rudimentaire qui doit traiter de gros volumes de données rapidement pourrait se satisfaire d’un corpus où seules les entités nommées (EN) sont annotées. Les EN sont de bons indicateurs du sujet général d’un document. Le nom de Nicolas Sarkozy retrouvé dans un document suffit à le distinguer d’un document ou le nom Linux apparaîtrait. Pour un système d’extraction d’information, cette annotation serait insuffisante et demanderait à être complétée par d’autres annotations, comme la recherche des hyperonymes des entités nommées ou de classes sémantiques de verbes spécifiques. Pour cette tâche, l’utilisateur tolère un délai de réponse plus important mais exige des réponses précises et justes.

Un schéma d’annotation est une description abstraite de la propriété que l’on souhaite annoter. Elle précise le nom général de l’annotation, les attributs devant décrire l’élément annoté et peut aussi spécifier des contraintes sur les valeurs possibles des attributs. Chaque annotation est une réalisation particulière et conforme du schéma d’annotation qui la définit. Il n’y a aucune limitation au nombre d’annotations que l’on peut créer, sinon celles imposées par le document (par exemple si nous ne désirons annoter que les mots d’un document nous allons créer une annotation pour chaque mot du document, ni plus ni moins).

Un schéma d’annotation peut être exprimé par différentes grammaires. Si les langages à balisages du type DTD ou XML schema sont couramment employés, ils ne sont pas les plus expressifs. Les grandes plateformes d’annotations, telle que GATE ou encore UIMA, lui ont préféré pour cette raison le langage de représentation objet [Thayse et al., 1990a]. Nous présentons rapidement les points principaux du document technique TIPSTER de [Grishman, 1997] sur lequel les concepteurs de ces plateformes se sont appuyés.

Dans ce langage, un schéma d’annotation est décrit par la classe d’objet Annotation. Chaque annotation est une instance particulière de cette classe. L’annotation est identifiée par un numéro d’identification unique et d’un certain type. Elle est ancrée dans le document en précisant le début et la fin de la séquence qu’elle annote (si la séquence peut être discontinue, par exemple, pour annoter des verbes à particules, l’ancre précise les bornes de chaque segment de la séquence). Chaque annotation contient un ensemble d’attributs qui précise les informations apportées par l’annotation. Ces attributs peuvent avoir pour valeur une chaîne particulière de caractères ou un ensemble de références sur d’autres annotations.

Les annotations relatives à un document du corpus sont décrites par la classe Document et regroupées dans un objet de cette classe propre au document. L’objet est aussi identifié univoquement et rattaché au corpus auquel le document appartient. Un ensemble d’annotations spécifie certaines informations propres au document (ex. l’auteur du document, sa date de création…).

Enfin le corpus est un objet de la classe Collection. Il comprend les références des documents qui le composent et un ensemble d’annotations pour décrire les informations qui ne sont pas localisées au niveau du document mais au niveau du corpus, des informations statistiques telles que le nombre d’occurences d’un bigramme par exemple.

Les tâches de TAL consistent en majorité à ajouter une nouvelle catégorie d’annotations au document ou au corpus. A l’exception des tâches d’annotation les plus “simples” comme la segmentation en mots ou en phrases qui peuvent être effectuées à partir du document brut, les systèmes doivent s’appuyer sur un ensemble d’annotations d’entrée pour calculer et apposer leur propres annotations. Ces annotations produites seront, ensuite, utilisées à leur tour comme annotations d’entrée pour d’autres tâches. Les valeurs des attributs des annotations d’entrée servent de connaissances au processus d’inférence du système dont la décision détermine l’ajout et les valeurs d’une nouvelle annotation ou, au contraire l’inaction.

Supposons un système dont la tâche est de segmenter un document en phrases. Les annotations d’entrée de notre système sont les annotations marquant le début et la fin du document ainsi que l’ensemble des mots. Nous représentons les annotations sous le format XML pour simplifier l’exemple. Le processus d’inférence de notre système se réduit à l’application de deux règles logiques sur l’ensemble des séquences continues correspondant aux mots du document :
– Règle 1 : Si la séquence commence au début du document et finit par un mot suivi d’un point alors la séquence est une phrase.
– Règle 2 : Si la séquence commence après un point et finit par un mot suivi d’un point alors la séquence est une phrase.

Le processus d’inférence de notre système jouet segmente correctement notre document en insérant les balises de début et de fin de phrase aux positions attendues dans le document. Mais nous avons tacitement supposé que les annotations d’entrée et les règles du processus d’inférence sont, non seulement correctes, mais aussi suffisantes. Deux conditions qui sont rarement réunies lorsque nous appliquons un système de TAL sur un document. Les sections suivantes tentent d’en éclaircir les raisons en présentant le problème comme un problème d’apprentissage [Cornuéjols & Miclet, 2002].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 Introduction
1.1 Du document brut au document annoté
1.1.1 Définition de l’annotation
1.1.2 Représentation d’une annotation
1.2 L’annotation, un processus incrémental imparfait
1.2.1 Le processus d’inférence pour l’annotation
1.2.2 L’imperfection des annotations d’entrée
1.2.3 Comment structurer des annotations imparfaites ?
1.3 Problématique et contexte de la thèse
1.3.1 Problématique de thèse : un système de résolution des anaphores reposant sur des annotations imparfaites
1.3.2 Contexte de la thèse : le projet ALVIS
Chapitre 2 La résolution des anaphores pronominales
2.1 L’anaphore
2.1.1 Définition
2.1.2 Les types d’anaphores
2.1.3 Limitation à l’anaphore pronominale de rang 3 .
2.1.4 Algorithme général pour la résolution automatique des anaphores
2.1.5 Mesures d’évaluation
2.2 Les systèmes de résolution automatique d’anaphores .
2.2.1 Les systèmes exploitant des connaissances linguistiques complexes
2.2.2 Les systèmes reposant sur des indices de surface
2.2.3 Le système MARS
2.3 Conclusion
Chapitre 3 L’inférence à partir d’informations imparfaites
3.1 Des informations imprécises
3.2 Des informations incertaines et manquantes
3.3 L’inférence symbolique
3.3.1 Raisonnement révisable
3.3.2 Révision des hypothèses
3.3.3 Abandon de l’inférence symbolique pour le TAL
3.4 L’inférence numérique
3.4.1 Les théories pour la représentation de l’incertitude
3.4.2 Le choix du cadre théorique des probabilités
3.4.3 Raisonner sur des informations probabilisées
3.5 Conclusion
Chapitre 4 Conclusion