Définitions
Il n’existe pas de définition unique pour désigner les entités nommées. Ainsi, nous pouvons trouver dans la littérature des définitions variées suivant la période et le point de vue adoptés. Pour plus de détails concernant les différentes approches de définition des entités nommées nous renvoyons le lecteur à la thèse de Maud Ehrmann [Ehrmann, 2008] portant sur ce sujet. Nous abordons ici la question d’un point de vue plus général. L’évolution de la définition des entities nommées et son impact seront discutés à travers l’étude de l’historique des campagnes d’évaluation.
La REN s’inscrit parmi les tâches du TAL qui visent le traitement sémantique du texte. Elle a pour but d’identifier les éléments porteurs de sens et de les classer en fonction de catégories sémantiques bien définies. Parmi les catégories les plus utilisées dans le traitement des textes journalistiques et médiatiques, nous pouvons citer, les Personnes, les Lieux et les Organisations, auxquelles s’ajoutent les Quantités et les Expressions temporelles. Aujourd’hui, la reconnaissance d’entités nommées est également utilisée pour le traitement des données dans des domaines spécifiques tels que la biologie [Fukuda et al., 1998] et la médecine [Bodenreider et Zweigenbaum, 2000], ainsi, dans ces cas les catégories sémantiques visées concernent plutôt les Gènes, les Protéines, les Maladies, etc. Même s’il semble y avoir un accord sur le fait que les entités nommées sont des éléments riches sémantiquement qui désignent des référents uniques. Des cas de désaccords peuvent être observés concernant leur nature, leurs catégories et les règles d’annotations à adopter pour les traiter. Pour mieux comprendre les enjeux relatifs à la tâche de REN, nous commençons par parcourir son historique à travers les principales campagnes d’évaluation américaines et internationales.
Historique des campagnes d’évaluation en reconnaissance d’entités nommées
Les campagnes d’évaluation, (appelées aussi evaluation conferences en anglais) sont des événements qui permettent d’encourager la recherche dans un domaine particulier. Elles offrent la possibilité de réunir différents acteurs autour d’une problématique, afin qu’ils puissent proposer des solutions permettant de la résoudre. Elles permettent aussi de fournir des données, des outils d’évaluation et de mesurer la maturité de la technologie. Des nombreuses campagnes d’évaluation ont été financées dans le but d’encourager la recherche en extraction d’informations et en compréhension de textes. La tendance a commencé aux États-Unis avec les campagnes MUC (Messages Understinding Conference), puis des campagnes d’évaluation similaires ont été organisées un peu partout dans le monde. Nous parcourons ici brièvement l’historique des principales campagnes d’évaluation qui se sont intéressées à la problématique de la REN, afin de mieux comprendre les raisons de son succès, puis nous nous arrêterons sur les modifications ayant touché à la définition de la tâche et aux méthodes utilisées pour son évaluation.
Les campagnes d’évaluation MUC
L’histoire des campagnes d’évaluation en extraction d’informations a commencé avec les campagnes MUC (Message Understanding Conference) en 1987. Ces campagnes se sont déroulées entre 1987 et 1997. Elles ont été financées par la DARPA (Defense Advanced Research Project Agency) dans le but d’encourager et de promouvoir l’analyse automatique des messages militaires contenant des informations textuelles. La série de conférences MUC a permis de définir un programme de recherche et de développement qui a aidé les chercheurs et les développeurs à mieux comprendre les enjeux de la tâche. Cela a aussi été l’occasion de mettre en place et de développer des procédures et des métriques d’évaluation nécessaires pour évaluer cette technologie. C’est aussi durant les cycles de cette conférence que la tâche de REN a vu le jour. Nous pouvons distinguer trois phases différentes dans le déroulement de la conférence MUC selon la nature de la tâche visée.
MUC-1 et MUC-2 : phase exploratoire
Cette première phase se caractérise par l’utilisation exclusive de données provenant des messages de la marine américaine (US Navy), et par l’absence de tâches et de procédures d’évaluation bien définies.
MUC-1 (1987) : la première édition a été une phase exploratoire dont le but était de faire un état de l’art des systèmes de compréhension de textes et de population de base de connaissances. Lors de cette première édition les participants choisissaient le format des sorties de leurs systèmes, aucune évaluation formelle n’ayant été mise en place. Cette conférence a le mérite d’avoir réuni des chercheurs et des développeurs pour discuter de la nature des informations utiles à extraire à partir des messages de la marine américaine et de développer les premières approches pour aborder une telle problématique.
MUC-2 (1989) : durant cette deuxième édition, les participants ont exigé d’avoir une définition de la tâche d’extraction précise avec un format bien défini afin de pouvoir, par la suite, évaluer la qualité des systèmes abordant une même tâche. Cette tâche consistait à repérer des événements dans des textes et à remplir, pour chaque événement, un formulaire (template). Chaque formulaire contenait des champs relatifs à un incident (l’opération) qui étaitent les acteurs, la date, l’heure, le lieu et les résultats (d’autres informations à extraire existaient mais n’étaient pas bien définies).
MUC-3, MUC-4 et MUC-5 : remplir des formulaires
Cette deuxième phase des campagnes MUC s’est distinguée de la précédente par l’utilisation de données plus diversifiés et par l’adoption d’une tâche axée sur la compréhension du texte pour remplir des formulaires (Fill in Template). Des procédures d’évaluation automatisées ont été mises en place et de nouvelles métriques d’évaluation fondées sur le taux d’erreur ont été introduites.
MUC-3 (1991) : la troisième édition de la série MUC s’est distinguée des deux versions précédentes essentiellement par l’utilisation d’une plus grande variété de données. Cette fois les données ne se limitaient plus aux messages de la marine américaine, elles incluaient une diversité d’articles journalistiques portant sur les activités terroristes en Amérique latine. Ceci avait permis d’avoir plus de données pour les tests et pour l’entraînement des systèmes. La tâche consistait à détecter les événements se référant à des actes terroristes en Amérique latine et il y avait dix-huit champs à remplir par formulaire. Ainsi, cette tâche est devenue un peu plus complexe, avec plus d’informations à extraire (dix-huit champs par formulaire) et des données plus riches et plus diversifiées à analyser. Il est important de remarquer aussi que les informations à extraire nécessitaient plus d’analyse et de compréhension du texte ce qui a augmenté la complexité de la tâche [Sundheim, 1991]. Voilà une liste non exhaustive des informations à extraire :
• déterminer si c’est un acte criminel ou terroriste ;
• déterminer si les informations (dans le texte) sont précises ou vagues ;
• déterminer s’il s’agit d’une menace ou d’un véritable acte ;
• déterminer la cause de l’acte ;
• déterminer l’origine des acteurs ;
• déterminer le lieu, la cible, la date, les instruments utilisés, etc.
MUC-3 s’est aussi distingué par la mise en place d’une vraie procédure d’évaluation automatisée qui consistait à comparer les formulaires remplis par les systèmes aux formulaires de référence remplis manuellement, puis, ensuite, à comptabiliser les bonnes et les mauvaises réponses pour calculer le rappel et la précision pour chaque système. Il s’est avéré, durant cette campagne, que l’utilisation de deux métriques d’évaluation (P et R) créait une certaine confusion quant à la classification des systèmes, du fait que, dans certains cas, il était difficile de décider quel système avait de meilleures performances par rapport aux autres. MUC-4 (1992) : la même tâche que celle de MUC-3 a été proposée dans MUC4, avec, toutefois, quelques améliorations apportées aux définitions de certains slots (champs à remplir dans le formulaire), qui, étant très générales, étaient à l’origine de nombreux cas de confusion. Ainsi, des définitions plus précises des slots ont été mises en place et le nombre des slots à extraire est passé de dixhuit (dans MUC-3) à vingt-quatre (dans MUC-4) [Sundheim, 1992]. MUC-4 s’est distingué des conférences précédentes par son utilisation d’une nouvelle métrique d’évaluation la « F-mesure » qui était définie comme la moyenne harmonique entre P et R [Chinchor et Sundheim, 1993]. La F-mesure a donné la possibilité de classer les systèmes de REN selon une mesure unique. MUC-5 (1993) : durant cette cinquième édition, il y avait deux types d’événements à traiter : les coentreprises internationales et la fabrication de circuits électroniques, et ce, dans deux langues, l’anglais et le japonais. Contrairement aux autres conférences où il n’y avait qu’un seul type de formulaire, dans MUC5, il y en avait onze avec un total de quarante-sept types de champs distincts [Chinchor et Sundheim, 1993]. Ainsi, la tâche avait encore gagné en complexité par rapport aux éditions précédentes.
MUC-6 et MUC-7 : entités nommées
Durant les cinq premières campagnes (MUC-1 à MUC-5) qui se sont déroulées entre 1987 et 1993, la tâche mise en place a consisté à extraire des informations se trouvant dans des documents textuels afin de remplir des formulaires. Même si les performances obtenues par les systèmes étaient encourageantes, 57 % pour le rappel et 64 % pour la précision sur l’ensemble des données dans MUC-5, la tâche de remplissage des formulaires n’a pas cessé de gagner en complexité d’une campagne à l’autre. Elle nécessitait des niveaux d’analyse et de compréhension de textes de plus en plus avancés. En effet, pour remplir un formulaire, le système doit effectuer des traitements à plusieurs niveaux : détecter les entités, catégoriser les entités détectées, extraire les événements, repérer les relations pouvant exister entre les entités ou entre les entités et les événements et déterminer la nature des relations. La complexité de cette tâche rend les diagnostics et la compréhension des provenances des erreurs très difficiles, puisque tous les modules sont étroitement liés les uns aux autres.
MUC-6 (1995) : les objectifs dans MUC-6 (1995) étaient d’améliorer les performances des systèmes d’extraction d’informations. L’hypothèse était que ceci n’était possible que si l’on améliorait l’analyse sémantique effectuée par les systèmes. Ainsi, une nouvelle tâche de coréférence fut introduite pour encourager l’amélioration du traitement sémantique. Elle a consisté à marquer des relations comme l’anaphore, la métonymie, et d’autres relations.
Mais, comme il s’agissait de l’avant-dernière édition de la série, il y avait dans MUC-6 une volonté de prouver que la technologie d’extraction d’informations existante était exploitable rapidement avec des performances élevées et qu’elle pouvait être indépendante du domaine. Pour atteindre ce but, l’idée était d’identifier, parmi la technologie développée, la brique (le composant) qui satisfaisait au mieux ces critères. C’est dans cette logique que la tâche (Named Entity) de reconnaissance d’entités nommées a été introduite pour la première fois durant MUC-6. La tâche de la REN a consisté à utiliser des marqueurs SGML pour identifier des noms propres dans les textes (noms de personnes, noms d’organisations ou noms de lieux), des expressions temporelles et des expressions numériques (monétaires ou pourcentages) [Sundheim, 1996]. Trois classes d’entités ont été définies comme suit :
• ENAMEX : (Personnes, Organisations, Lieux) limité aux noms propres et acronymes ;
• NUMEX : limité aux expressions monétaires et de pourcentages. Toute expression qui n’utilise pas des termes monétaires ou des pourcentages n’est pas annotée ;
• TIMEX : il inclut seulement les expressions temporelles absolues donnant une information précise sur l’heure ou la date. Les expressions relatives ne sont pas annotées.
|
Table des matières
Introduction générale
I Cadre et états de l’art
1 Historique des campagnes d’évaluation en reconnaissance d’entités nommées
1.1 Introduction
1.2 Définitions
1.3 Historique des campagnes d’évaluation en reconnaissance d’entités nommées
1.3.1 Les campagnes d’évaluation MUC
1.3.2 Les campagnes d’évaluation ACE
1.3.3 Autres campagnes d’évaluation en extraction d’entités nommées
1.3.4 Les campagnes d’évaluation de la REN en langue française
1.4 Applications
1.4.1 Quelques applications indirectes
1.4.2 Quelques applications directes
1.5 Conclusion
2 Historique et état de l’art en évaluation de la reconnaissance automatique de la parole
2.1 Introduction
2.2 Définition
2.3 La reconnaissance automatique de la parole : évolution et maturité vues à travers les principales campagnes d’évaluation
2.3.1 La reconnaissance de mots isolés et les premières métriques d’évaluation
2.3.2 La campagne Resource Management et la reconnaissance de la parole continue
2.3.3 La tâche WSJ/NAB et la reconnaissance de la parole continue à grand vocabulaire
2.3.4 La campagne ATIS et la reconnaissance de la parole spontanée
2.3.5 L’évaluation de la reconnaissance multilingue en Europe : le projet SQALE
2.3.6 La reconnaissance de la parole dans les données radiophoniques
2.3.7 La reconnaissance de la parole spontanée et conversationnelle
2.3.8 Maturité de la technologie
2.4 De la reconnaissance automatique de la parole au traitement automatique de la parole
2.5 Problématique
2.5.1 Introduction
2.5.2 Le WER et l’estimation des performances en traitement automatique de la parole
2.6 État de l’art des mesures d’évaluation de la qualité des transcriptions automatiques
2.6.1 Discussion
2.7 Conclusion
II Définition et évaluation des entités nommées structurées et compositionnelles
3 Les enjeux de la modélisation de la tâche de reconnaissance d’entités nommées
3.1 Introduction
3.2 La modélisation de la tâche de reconnaissance d’entités nommées
3.2.1 La complexité de la définition des typologies
3.2.2 Règles d’annotations et ambiguïtés linguistiques
3.3 Les entités nommées structurées et compositionnelles
3.3.1 Définitions
3.3.2 Typologies
3.3.3 Les annotations et la gestion des exceptions
3.3.4 La structure des entités structurées et compositionnelles
3.4 Les données
3.4.1 Le corpus ETAPE
3.4.2 Le corpus QUAERO
3.5 Conclusion
4 Nouvelle métrique pour l’évaluation des entités structurées et compositionnelles
4.1 Introduction
4.2 Processus d’évaluation de la tâche de reconnaissance d’entités nommées
4.2.1 Constitution des données de test
4.2.2 Mesures de performance
4.3 Les mesures d’évaluation des systèmes de REN : points forts et points faibles
4.4 Les métriques actuelles et l’évaluation des entités nommées structurées et compositionnelles
4.5 Entity Tree Error Rate : ETER
4.5.1 Objectifs
4.5.2 Alignement
4.5.3 Mesure du taux d’erreur
4.6 Analyses comparatives entre SER et ETER
4.6.1 Analyses fondées sur des exemples ciblés
4.7 Analyses comparatives fondées sur des données réelles
4.8 Impact du changement du paramètre alpha sur l’interprétation du taux d’erreur
4.9 Discussion
4.10 Conclusion
III Évaluation en contexte applicatif
5 Estimation de la qualité de la transcription automatique pour l’extraction d’entités nommées
5.1 Introduction
5.2 L’origine des erreurs des systèmes de RAP
5.2.1 La robustesse au bruit
5.2.2 La variabilité dans le signal de parole
5.2.3 Les difficultés inhérentes à la langue parlée
5.2.4 Les enjeux en analyse d’erreurs de transcription automatique de la parole
5.3 Le WER et l’évaluation de la qualité des transcriptions automatiques pour la REN
5.3.1 Interprétation des résultats de la campagne ETAPE
5.3.2 Interprétation des résultats de la campagne QUAERO
5.3.3 Discussion
5.3.4 Impact des erreurs de RAP sur les systèmes de REN
5.3.5 Insertion et suppression de mots versus insertion et suppression d’entités
5.4 Les approches utilisées pour la reconnaissance d’entités nommées
5.4.1 Les approches orientées connaissances
5.4.2 Les approches orientées données
5.5 Mesure proposée
5.5.1 Contraintes et propositions
5.5.2 Méthodologie
5.5.3 La mesure ATENE
5.6 Méthodologie de validation
5.6.1 Description des données des campagnes d’évaluation ETAPE et QUAERO
5.6.2 Les modèles statistiques et la sélection des traits
5.6.3 Méthodologie de comparaison des mesures
5.7 Comparaison des mesures d’évaluation de la qualité des transcriptions automatiques pour la REN
5.7.1 Évaluation de l’impact des sorties de RAP sur les performances globales des systèmes de REN
5.7.2 Évaluation de l’impact des sorties de RAP sur les erreurs commises par les systèmes de REN
5.8 Discussion
5.9 Conclusion
Conclusion