L’annotation manuelle de corpus occupe aujourd’hui une place importante en Traitement Automatique des Langues (TAL). S’agissant d’une activité humaine, il est tentant de s’en remettre aux méthodes de gestion de projet et au simple bon sens pour résoudre les problèmes qu’elle pose. Nous allons cependant montrer dans cette thèse que cette activité peut être, au moins en partie, formalisée, puis outillée, ce qui permet d’en réduire les aléas et d’en assurer la qualité.
Cette thèse a été effectuée à l’INIST-CNRS (Institut de l’Information Scientifique et Technique), à Nancy et au LIPN (Laboratoire d’Informatique de Paris Nord), à Villetaneuse. Elle a été financée dans le cadre de Quæro , un programme collaboratif franco-allemand privé-public portant sur le traitement automatique de contenus numériques multimédias multilingues. Elle a été encadrée scientifiquement par Adeline Nazarenko, au LIPN, et administrativement, à l’INIST-CNRS, par Claire François.
On assiste en effet depuis les années 90 à un regain d’intérêt pour les corpus dans le domaine du TAL, en particulier les corpus annotés. Ce renouveau est poussé par la pression des besoins applicatifs, et est dû à la fois aux progrès réalisés en termes de matériel (capacité de stockage et de traitement), au développement des techniques d’apprentissage (aussi bien symboliques que statistiques) qui utilisent des corpus d’entrainement, et au succès des campagnes d’évaluation (dont celles du programme Quæro), campagnes qui nécessitent des corpus de référence.
De la qualité des corpus annotés manuellement dépend assez directement la qualité des outils créés à partir de ces corpus ou de l’évaluation qui les utilise. Ces corpus annotés doivent donc offrir la meilleure qualité d’annotation possible, ce qui implique de faire intervenir des experts humains dans le processus d’annotation, que ce soit pour annoter directement le corpus ou pour corriger une annotation réalisée automatiquement. Cette phase manuelle est extrêmement fastidieuse et nécessite un travail de longue haleine, de qualité si possible constante. En outre, le coût de développement manuel de ressources linguistiques en général, et de corpus annotés en particulier, est notoirement élevé. En fonction d’un besoin applicatif donné, il faut donc trouver un équilibre entre la qualité attendue, le coût de l’annotation et le volume à annoter.
Le corpus arboré de l’anglais de l’Université de Pennsylvanie, plus connu sous le nom de Penn Treebank, a été créé entre 1989 et 1992, pour la partie morpho syntaxique (part-of-speech tagging), et jusqu’en 1994 pour la partie syntaxe (bracketing) de la première version.
Le Penn Treebank comprend, en novembre 1992, 4,8 millions de tokens en anglais américain provenant de neuf sources différentes, dont le Brown corpus ré-annoté. Tous ces tokens ont été annotés en morpho-syntaxe, et une partie en a été annotée en syntaxe (presque trois millions de tokens). Tous les tokens de cette dernière partie sont donc annotés par une catégorie morpho-syntaxique et compris dans un ensemble plus large, qui est lui-même annoté en catégories syntaxiques. Dans les deux cas, une annotation automatique (pré-annotation) a précédé une correction manuelle. Les annotateurs ont utilisé pour cela l’éditeur Emacs enrichi d’un package spécifique à chacune des tâches.
Le jeu de catégories morpho-syntaxiques utilisé comprend 36 catégories principales et 12 catégories pour la ponctuation et les symboles. A la différence du corpus arboré du français (Abeillé et al., 2003), les catégories du Penn Treebank ne sont pas explicitement hiérarchisées. La phase d’apprentissage des annotateurs pour la partie morpho-syntaxique a été de moins d’un mois, à raison de 15 heures par semaine. Après un mois, leur vitesse de correction a dépassé les 3 000 mots à l’heure.
Le jeu de catégories syntaxiques comprend lui une quinzaine de catégories. La phase d’apprentissage a été sensiblement plus longue pour la partie syntaxe (environ deux mois), la vitesse d’annotation des annotateurs passant de 375 mots par heure après trois semaines à 475 mots par heure après six semaines. Ces performances ont encore été améliorées en réduisant la structure syntaxique à une structure plus plate, puis en permettant aux annotateurs de ne pas distinguer entre arguments et circonstants dans les cas ambigus. Au final, le plus rapide d’entre eux annotait plus de 1 500 mots par heure.
Le corpus arboré du tchèque, ou Prague Dependency Treebank (PDT) a été créé entre 1996 et 2004 (Böhmová et al., 2001). Construit à partir du corpus national du tchèque (Czech National Corpus), il présente une structure à trois niveaux : morphologique, analytique (syntaxe de dépendance), et ce que ses créateurs appellent tectogrammatical (sens linguistique annoté à l’aide de la description fonctionnelle générative ou Functional Generative Description).
La Version 1.0 du corpus arboré du tchèque inclut l’annotation manuelle des niveaux morphologique (1,8 millions de tokens) et analytique. Fait rare, nous disposons, pour ce corpus, d’informations détaillées sur son coût exact. Il a nécessité cinq ans de travail et a impliqué 22 personnes (dont au maximum 17 en parallèle) . Le coût final de ce corpus a été évalué à environ 600 000 dollars.
Le corpus GENIA (Kim et al., 2003), aujourd’hui en version 3.0, comprend 2 000 titres et résumés de la base MEDLINE (soit plus de 400 000 mots) annotés sémantiquement en biologie (près de 100 000 annotations). Ce corpus est disponible et se présente sous format XML. Le corpus GENIA a été créé explicitement pour la fouille de texte et est présenté comme une référence (gold standard) dans le domaine de la biologie.
L’annotation du corpus a été réalisée manuellement par deux experts du domaine, qui ont utilisé pour cela les descripteurs de l’ontologie GENIA. Au final, GENIA contient 9 372 phrases et son annotation a nécessité cinq annotateurs à temps partiel, un coordinateur sénior et un coordinateur junior pendant un an et demi (Kim et al., 2008).
Le coût est généralement évalué en fonction du temps nécessaire pour obtenir l’annotation et du nombre de personnes impliquées, voire en fonction du nombre d’interactions nécessaires avec le système d’aide à l’annotation (Felt et al., 2010). Cependant, une telle définition est limitative, car elle ne tient pas compte de la ré utilisabilité dudit corpus. Or, cette ré-utilisabilité dépend de la qualité, en termes de cohérence et de fiabilité, du corpus produit. Ainsi, Cohen et al. (2005) ont montré, dans le domaine biomédical, que la ré-utilisation d’un corpus dépend avant tout de la cohérence de l’annotation par rapport à une documentation (qui doit être disponible), de la maintenance du corpus et de sa disponibilité dans un format « standard ».
|
Table des matières
1 Introduction
I État de l’art
2 Formes et types d’annotations
3 Outils et techniques pour l’annotation
II Méthodologie proposée
4 Organiser une campagne d’annotation
5 Conduire une campagne d’annotation
6 Analyser la complexité d’une campagne d’annotation
III Outiller le gestionnaire
7 Pré-annoter ou ne pas ?
8 Évaluer l’annotation manuelle
9 Processus et outils des campagnes d’annotation
Conclusion
Télécharger le rapport complet