De la complexité de l’annotation manuelle: méthodologie, biais et recommandations

Les ressources langagières constituent une des bases fondamentales du Traitement Automatique des Langues (T.A.L.) et de la Linguistique Computationnelle (L.C.). Ces ressources sont de plusieurs sortes : des productions textuelles, des ressources de synthèse (lexique, dictionnaires, réseaux de connaissances…), des outils de traitement, etc. C’est à partir de ces ressources que les chercheurs et utilisateurs travaillent, soit pour étudier un phénomène linguistique, soit pour créer de nouveaux outils ou applications. Si certaines tâches du T.A.L. et de la L.C. peuvent s’appuyer uniquement sur des productions textuelles brutes, d’autres nécessitent des ressources enrichies, ou annotées.

Par ressources textuelles brutes, nous entendons des textes sur lesquels aucun traitement n’a été effectué, laissés et utilisés dans l’état dans lequel ils ont été récupérés. Les ressources enrichies, quant à elles, contiennent des méta-informations sur les données, obtenues soit manuellement, soit automatiquement. Ces méta-informations peuvent être, entre autres, des renseignements sur la structure des documents ou un ajout interprétatif, appelé aussi annotation, sur une donnée. Les annotations, selon le Centre National de Ressources Textuelles et Lexicales (CNRTL), sont des « remarques manuscrites notées en marge d’un texte». Eshkol-Taravella (2015) distingue trois types d’annotation :
— l’ajout de gloses ponctuelles sur un document;
— une annotation au niveau du document, par exemple les méta-données du document;
— une annotation intratextuelle, pour rajouter des informations.

Le dernier type d’annotation constitue l’objet principal de notre mémoire.

Si le corpus annoté est de taille suffisamment importante et représentatif de la langue ou du phénomène, le corpus peut constituer ce que nous nommons corpus de référence, ou gold standard. Grâce à ce dernier, nous pouvons alors étudier un phénomène linguistique. Ainsi, il sera possible d’observer sa fréquence d’apparition, les éventuelles conditions dans lesquelles il a plus de chance de survenir ou encore la structure du phénomène. L’évaluation des sorties d’un système (par exemple, à base de règles symboliques) pour l’analyse de tels phénomènes est permise par ces mêmes corpus de référence. Ces corpus servent d’étalon afin de comparer différents systèmes et leur performance. À l’heure actuelle, sont clairement florissantes les méthodes d’apprentissage. Ces méthodes d’apprentissage ont dans la plupart des cas besoin de données annotées. Il faut suffisamment de données, et l’entraînement d’un système pour détecter ou analyser ces phénomènes devient alors possible.

L’établissement de corpus de référence est donc primordial : la fabrication d’applications et d’outils du T.A.L. en dépend. Certaines applications peuvent s’accommoder de données bruitées, toutefois les erreurs systématiques demeurent problématiques. Si la base se révèle de qualité insuffisante, le reste de la chaîne de traitement est susceptible de s’en trouver altéré et engendre des potentielles dégradations de la qualité. Par exemple, les outils entraînés sur cette base peuvent apprendre des erreurs, et cela peut se répercuter en cascade quand plusieurs traitements sont effectués. Cela devient alors un effet « plafond de verre » (Manning, 2011) : au final, la mauvaise qualité de l’annotation initiale empêche de dépasser un certain seuil, quelle que soit la méthode utilisée. La construction de ces gold standard demeure une tâche non triviale, par leur importance et la délicate question que pose l’établissement d’une référence (Artstein & Poesio, 2008 ; Bayerl & Paul, 2011) : l’annotation reste un processus souvent largement subjectif et qui peut dépendre du contexte. Il est même des cas où une telle référence est impossible ou inatteignable. La création automatique de ces ressources s’avère souvent impossible, et nous avons alors recours à de l’annotation manuelle, réalisée par des humains. Or, le processus d’annotation s’avère délicat : les tâches se révèlent parfois complexes, requérant davantage d’interprétation, et quelques fois un degré de subjectivité notable. Un usage généralement admis consiste à procéder à une annotation multiple, c’est-àdire faire annoter les mêmes données par plusieurs annotateurs. De leurs annotations est ensuite établie une annotation de référence, si leur accord est jugé satisfaisant. Mais l’enrichissement collaboratif des données soulève de nombreux questionnements théoriques et pratiques (Fort, 2016 ; Mathet & Widlöcher, 2016) : notamment, la modélisation informatique d’un phénomène n’est pas toujours aisée, ou un bon accord entre les annotateurs n’est pas forcément gage de validité des annotations. L’annotation manuelle implique aussi des coûts temporels et financiers parfois importants (Böhmová et al., 2003 ; Martı́nez Alonso et al., 2016). Se pose la question suivante : comment obtenir une référence fiable ? Nous pouvons étendre cette question en nous interrogeant sur la manière de le faire avec peu de données disponibles, dans le cas de contraintes financières ou temporelles limitantes. En effet, nous avons besoin de garantir la fiabilité de ces annotations, tout en limitant les coûts. Cette interrogation amène des réflexions sur le processus d’annotation, sur la manière dont sont réalisées les campagnes d’annotation, ainsi que des questions plus concrètes, concernant notamment les aspects techniques de l’annotation.

Méthodologie des campagnes d’annotation 

Nous réalisons souvent l’annotation multiple au travers d’une ou plusieurs campagnes d’annotation. Le déroulement d’une campagne s’effectue en plusieurs étapes, notamment la préparation (ce qui est lié à une première approche du phénomène et de la tâche demandée), puis l’annotation d’un corpus de textes, réalisée par plusieurs annotateurs grâce à un outil et à un guide d’annotation, et contrôlée par une évaluation régulière. Enfin, l’exploitation des résultats est rendue possible au moyen de l’établissement d’une référence et de la diffusion de celle-ci. La construction de données de référence doit donc faire l’objet d’une attention accrue, notamment lors de campagnes d’annotation manuelle qui concentrent de nombreuses et épineuses difficultés. Ces dernières impliquent de multiples aspects, déjà étudiés dans la littérature mais souvent de manière séparée. Dans cette thèse, nous prenons le parti de les appréhender dans leur ensemble.

Dans le cadre du processus d’annotation, nous souhaitons mener un examen critique des conditions dans lesquelles est produite l’annotation. Nous nous interrogeons plus particulièrement sur ce qui peut perturber ce processus et, de ce fait, avoir des conséquences négatives sur la fiabilité des annotations. Pour ce faire, nous nous appuierons sur des campagnes en environnement contrôlé, que nous avons menées. Nous avons notamment fait le choix d’avoir des tâches d’annotations qui soient à la fois simples, interprétatives et ne requérant aucun entraînement particulier. Durant ces campagnes, nous avons tenu au maximum à être vigilante sur les phénomènes perturbateurs extérieurs. Nous nous sommes aussi interrogée sur la procédure appliquée et les améliorations futures que nous pourrions y apporter.

Biais d’annotation et recommandations 

Dans cette optique, l’apport du travail présenté dans ce mémoire réside en l’introduction d’une définition et d’une classification des biais d’annotation. Pour poursuivre cette étude, nous nous interrogeons sur la méthode d’identification et d’observation de biais susceptibles de perturber l’annotation. Nous cherchons à poser les bases d’une méthode d’analyse à travers des exemples de campagnes dédiées à l’examen de certains biais. Les biais étudiés dans ce mémoire sont de deux ordres. D’une part, nous étudions l’organisation des items au sein d’une campagne, et plus particulièrement l’ordre de présentation à l’annotateur, ainsi qu’au cas où des items proches par leur contenu surviennent dans le corpus. D’autre part, nous nous intéressons aux modalités de la tâche d’annotation, au travers de la possibilité du retour arrière. Nous nous interrogeons aussi au rapport entre l’accord des annotateurs et la validité des annotations. Étant implicites, les biais sont difficile à repérer et même décelés, leur traitement n’est pas aisé, voire impossible dans certains cas. La référence ainsi produite ne reflétera peut-être pas la « vérité » du phénomène. Les gestionnaires de campagne doivent donc faire preuve d’une attention active pour contrôler les biais qui peuvent survenir. C’est pour cette raison, en complément de la méthode présentée, que nous désirons présenter des recommandations, afin d’aider les gestionnaires à être vigilants à certains aspects du processus. Ces recommandations s’inscrivent dans la perspective de fournir un guide des bonnes pratiques, afin de garantir la fiabilité des annotations.

Mener une campagne d’annotation 

Appréhender le phénomène à annoter

Perception de l’objet étudié

Avant toute chose, les responsables de campagne se doivent de définir clairement et explicitement le but recherché de la campagne : est-ce pour étudier un phénomène linguistique? pour en proposer un corpus de référence ? pour évaluer un système ? ou encore pour entraîner un système ? Cette spécification de l’objectif permet de fixer le cadre et entraîne certaines décisions. Il est important de bien avoir conscience de l’objectif final pour éviter des changements radicaux qui rendent caducs des choix déjà effectués et qui nécessitent de ré-annoter.

Une des premières étapes d’une campagne d’annotation est de se positionner par rapport à un modèle linguistique — même si Leech (1997) souligne qu’un schéma d’annotation doit idéalement être théoriquement neutre. Selon le modèle, l’objet étudié ne sera pas perçu de la même manière, et cela impacte de manière profonde l’annotation. Cet impact se ressent autant sur le type que sur la tâche d’annotation, et se répercutera ensuite fortement sur les besoins et le choix de l’outil. Ainsi, si nous prenons comme exemple la tâche d’annotation de la coréférence, les unités à repérer et à catégoriser ne seront pas les mêmes selon le modèle choisi. Cette diversité des modèles est bien illustrée dans l’état de l’art réalisé par (Ogrodniczuk et al., 2014, Chap. 3) et présentant les corpus produits pour cette tâche.  Cette décision peut néanmoins vite devenir un problème insoluble, car il est souvent difficile de s’abstraire totalement de toute théorie, voire impossible selon le phénomène. Par exemple, si pour l’annotation des entités nommées, la manière d’appréhender le phénomène est relativement stable selon les campagnes (malgré des divergences au niveau de la caractérisation), il n’en est pas de même pour l’annotation des relations rhétoriques, qui dépend de la perception de l’organisation du discours et des théories qui l’entourent.

Modélisation du phénomène : préparer une première version du guide d’annotation 

La modélisation du phénomène dépend, en premier lieu, du modèle adopté et des spécificités du phénomène. Il convient alors d’adapter la tâche, les consignes d’annotations et, le cas échéant, les catégories pour rendre compte du phénomène le plus précisément possible. Bien que certains choix découlent de décisions ultérieures ou des fonctionnalités de l’outil d’annotation, nous évoquons dans ce paragraphe certains points que le rédacteur du guide doit prendre en considération, et cela dès la première version du guide. Ici, nous distinguons deux types de recommandations : celles ayant trait au fond de la tâche, et celles sur la manière d’écrire le guide. Une des premières questions touche à la forme que l’annotation et la tâche devraient prendre ; autrement dit : que faisons-nous annoter aux annotateurs ? Nous distinguons ici ce qui a trait, d’une part, à l’ancrage des éléments à annoter, d’une autre à la caractérisation de ces objets. Pour l’ancrage des objets, nous proposons la classification suivante :

Unités déjà définies : Les unités sont déjà délimitées, l’annotateur doit alors les caractériser.
Ancrage minimal : L’annotateur marque une position dans le flux textuel.
Segmentation : L’annotateur doit paver le texte.
Unitizing : L’annotateur doit repérer dans le texte les unités ; il peut aussi caractériser ces mêmes unités.
Mise en relation : L’annotateur doit relier deux (ou plus) unités entre elles .

En plus de cette classification d’ancrage, le responsable de campagne doit aussi considérer d’autres paramètres d’ancrage : la taille (ou les tailles) des unités à repérer. Sont-elles de longueur fixe (token, phrase, paragraphe…) ou variable? Les chevauchements et les structures enchâssées sont-ils autorisés ? À la question de l’ancrage des unités s’ajoute une réflexion concernant la caractérisation de ces objets : quelles catégories sont les plus pertinentes pour la campagne ? Le jeu d’étiquette peut être fermé, c’est-à-dire avoir un ensemble de catégories déjà défini en amont et qui ne changera pas, ou ouvert, et qui pourra évoluer au fil des annotations. Le type de catégories est aussi un paramètre auquel il faut réfléchir : catégories binaires (présence ou non du phénomène, positif ou négatif, etc.), nominales (spectre de catégories plus large), scalaires (échelle de valeur), etc.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Méthodologie des campagnes d’annotation
Biais d’annotation et recommandations
Présentation du plan
I État de l’art
1 Mener une campagne d’annotation
1.1 Appréhender le phénomène à annoter
1.1.1 Perception de l’objet étudié
1.1.2 Modélisation du phénomène : préparer une première version du guide d’annotation
1.1.3 Prendre la complexité en compte
1.2 Constituer le corpus de textes à annoter
1.2.1 Sélection des textes
1.2.2 Sources possibles des textes et corpus déjà disponibles
1.3 Choisir l’outil d’annotation
1.3.1 Outils existants
1.3.2 Critères à considérer pour le choix de l’outil d’annotation
1.4 Choisir et accompagner les annotateurs
1.4.1 Quelle expertise ?
1.4.2 Nombre d’annotateurs
1.4.3 Accompagner les annotateurs
1.4.4 Rester à l’écoute des annotateurs
1.5 Évaluer les annotations
1.5.1 Mesurer l’accord inter-annotateurs
1.5.2 Mieux appréhender l’accord inter-annotateurs
1.6 Établir une référence
1.6.1 Méthodes pour établir une référence
1.6.2 Problèmes liés à ces méthodes
1.7 Diffuser le corpus
1.7.1 Formats des annotations
1.7.2 Mettre à disposition le corpus
1.8 Animer une campagne
1.8.1 Des projets parfois de (très) longue haleine
1.8.2 L’annotation manuelle, à quel prix ?
1.8.3 Conjuguer éthique, réglementation et recherche
1.9 Conclusion
2 Typologie des différents types d’annotation
2.1 Comment aborder une tâche complexe ?
2.1.1 Tout annoter simultanément
2.1.2 Décomposition en plusieurs tâches d’annotation
2.2 Illustration pour chaque type d’ancrage
2.2.1 Unités déjà définies
2.2.2 Ancrage avec position minimale
2.2.3 Segmentation
2.2.4 Unitizing
2.2.5 Mise en relation
2.3 Deux exemples ciblés
2.3.1 Entités nommées
2.3.2 Coréférence
2.3.3 Un manque d’harmonisation
2.4 Conclusion
II Étude des biais et expérimentations
3 Biais d’annotation
3.1 Vers une première classification des biais
3.1.1 Classification thématique
3.1.2 Classification temporelle
3.2 Méthodologie des campagnes d’annotation « Portraits » et « Erreurs »
3.2.1 Comment étudier un biais d’annotation ?
3.2.2 Nos hypothèses et nos attentes initiales vis-à-vis des expériences
3.2.3 Un outil transversal : la consensualité
3.3 Conclusion
4 Campagne d’annotations « Portraits »
4.1 Présentation de la campagne
4.1.1 Constitution du corpus
4.1.2 Biais concernant l’estimation de l’âge
4.1.3 Scénarios
4.1.4 Déroulement de la campagne d’annotation
4.1.5 Une première approche des annotations récoltées : comparaison avec la référence
4.2 Analyse des consensualités
4.2.1 Rang de consensualité versus rang de performance
4.2.2 Retirer les annotateurs les moins consensuels
4.2.3 Distinguer les consensualités initiale et dynamique
4.2.4 Tester l’homogénéité de la consensualité
4.3 Influence de l’ordre des items
4.3.1 Avec un accès à la référence
4.3.2 Détecter un biais sans un accès à la référence
4.4 Résultats complémentaires
4.5 Conclusion
5 Campagne d’annotation « Erreurs »
5.1 Typologie des erreurs et corpus disponibles
5.1.1 Typologie des erreurs
5.1.2 Corpus d’erreurs de français disponibles
5.2 Présentation de la campagne
5.2.1 Objet annoté et liens entre les items
5.2.2 Modalité d’interaction et de saisie : le retour arrière
5.2.3 Modalité de présentation : ordre de présentation
5.2.4 Déroulement de la campagne
5.2.5 Première approche des résultats
5.3 Traiter deux cohortes hétérogènes ?
5.3.1 Étude des scores
5.3.2 Comment traiter une telle disparité ?
5.3.3 Réflexions et discussions : motivation et volition des annotateurs
5.4 Utiliser la consensualité pour une annotation catégorielle binaire
5.4.1 Adaptation des formules
5.4.2 Étude globale de la consensualité et de l’imperfection
5.4.3 Consensualité des phrases
5.5 Retour arrière possible et paires
5.5.1 La possibilité du retour arrière influence-t-elle les annotations ?
5.5.2 Paires d’énoncés
5.6 Résultats complémentaires
5.6.1 Niveau d’expertise attribué par les annotateurs
5.6.2 Taux de réponses correctes par énoncé
5.6.3 Outil non adapté pour l’analyse des biais ?
5.7 Conclusion
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *