Reconnaissance des entités nommées dans des documents multimodaux

Contexte

L’accès à l’information numérique est devenu une activité de notre quotidien. S’exprimer via un blog ou partager ses vidéos sur un réseau social sont devenu des activités courantes. Cela est rendu possible par le développement continu des technologies de l’information et des réseaux qui procure un accès toujours plusaisé et rapide à l’information. De ce fait, la masse d’information stockée est devenu colossale et continue de s’accroître exponentiellement. Différents modes de communication sont utilisés afin de véhiculer l’information. Cela regroupe par exemple la vidéo, la parole et l’écrit. Dans ce milieu hétérogène, l’enjeu est donc de faciliter un accès rapide et pertinent à l’information désirée, sans que l’utilisateur soit perdu face à la quantité d’information qui lui est proposée. Plusieurs applications du Traitement Automatique des Langues Naturelles (TALN) s’intéressent à développer des méthodes et des outils pour répondre à ce défi, comme par exemple l’extraction d’information, la recherche d’information, l’indexation et la traduction automatique. Dans ces différents domaines, la tâche de Reconnaissance des Entités Nommées (REN) joue un rôle transversal.

Le concept d’entité nommée est apparu au milieu des années 90 comme étant une sous-tâche de l’activité d’extraction d’information. Elle consiste à identifier certains objets textuels tels que les noms de personne, d’organisation et de lieu. Le matériel textuel exploité était de langue anglaise et concernait des dépêches de presse écrite ciblées sur un domaine spécifique. Au fil des années, les recherches concernant ces objets linguistiques se sont focalisées sur des problématiques de plus en plus complexes comme la désambiguïsation et l’annotation enrichie mais aussi sur leur reconnaissance dans des contextes différents (autre langue et autre modalité). Le déploiement d’Internet a engendré une mutation en profondeur des sources d’information. Les messages publiés sur les réseaux sociaux tels que Twitter et Facebook ainsi que les flux de vidéo et d’audio gagne de plus en plus de terrain sur les sources d’information traditionnelles telles que les articles journalistiques publiés par les agences de presse. Le traitement des entités nommées se heurte désormais à des nouvelles difficultés inhérentes aux caractéristiques de la modalité ou du type de texte à traiter.

Définitions et approche historique

Le concept d’entité nommée est apparue dans les années 90 à l’occasion de conférence d’évaluation MUC (Message Understanding Conference) (Grishman et Sundheim 1996). Ces conférences avaient pour but de promouvoir la recherche en extraction d’information. Les tâches proposées consistaient à remplir de façon automatique des formulaires concernant des événements. Dans ce cadre, certains objets textuels, ayant une importance applicative particulière dans plusieurs domaines du TALN, ont été regroupés sous le nom d’entités nommées. La reconnaissance de ces dernières est donc considérée comme une sous-tâche à part entière de l’extraction d’information. D’un point de vue définitoire, la notion d’entité nommée a évolué au fil du temps, que ce soit au niveau de ce qu’elle signifie ou au niveau des typologies qu’elle peut couvrir. La plupart des définitions proposées sont plus énumératives que linguistiques. Les typologies adoptées sont proposées au regard du besoin applicatif. Peu de travaux ont tenté une « définition linguistique ». Nous nous référons notamment ici aux travaux d’Ehrmann (2008) qui propose une définition et une caractérisation des entités nommées prenant en compte la dimension linguistique et son application en TALN. Dans la suite de cette section, nous présentons certaines définitions et typologies présentes dans divers guides des campagnes d’évaluation et travaux.

Les conférences MUC ont été organisées entre les années 1987 et 1998. La tâche de reconnaissance d’entités nommées (REN) a été créée pour la première fois lors de la campagne d’évaluation MUC-6 (1995) :

« … la tâche d’entités nommées consiste essentiellement à identifier les noms de toutes les personnes, les organisations et les localisations géographiques dans un texte » .

Les entités nommées sont donc implicitement définies en évoquant une simple énumération de ce qu’elles peuvent représenter. Le thème du corpus journalistique utilisé, portant sur les mouvements de dirigeants, a influencé indirectement l’adoption de 7 catégories réparties en 3 types :
– Enamex : pour les noms de personne, d’organisation et de lieu (Person, Organization et Location) ;
– Timex : pour les expressions temporelles (Date et Time) ;
– Numex : pour les expressions numériques, de monnaie et de pourcentage (Money et Percent).

Les campagnes d’évaluation ESTER (Évaluation des Systèmes de Transcription d’Émissions Radiophoniques) visaient à la mesure des performances des systèmes de transcription d’émissions radiophoniques pour le français. Deux campagnes ont été organisées dans le cadre du projet EVALDA (Évaluation des technologies de la langue en français) : ESTER 1 (2003-2005) (Le Meur et al. 2004) et ESTER 2 (2006-2008) (Galliano et al. 2009). L’évaluation s’intéresse, entre autres, à l’extraction d’entités nommées. Ces dernières ont été définies comme suit :

« Même s’il n’existe pas de définition standard, on peut dire que les entités nommées sont des types d’unités lexicales particuliers qui font référence à une entité du monde concret dans certains domaines spécifiques notamment humains, sociaux, politiques, économiques ou géographiques et qui ont un nom (typiquement un nom propre ou un acronyme). » (Le Meur et al. 2004) .

Cette définition met en avant la particularité référentielle des entités nommées. La référence est le lien qui existe entre une expression linguistique et l’élément du réel auquel elle renvoie. Les entités nommées sont classées en 7 catégories principales, elles-mêmes divisées en souscatégories :
– Personnes : humain réel ou fictif, animal réel ou fictif ;
– Fonctions : politique, militaire, administrative, religieuse, aristocratique ;
– Lieux : géographique naturel, région administrative, axe de circulation, adresse (adresse postale, téléphone et fax, adresse électronique), construction humaine ;
– Organisations : politique, éducative, commerciale, non commerciale, média divertissement, géo-socio-administrative ;
– Production humaine : moyen de transport, récompense, œuvre artistique, production documentaire ;
– Date et heure : date (date absolue, date relative), heure ;
– Montant : âge, durée, température, longueur, surface et aire, volume, poids, vitesse, autre, valeur monétaire.

L’étiquette « Incertain » est utilisée pour annoter les entités n’appartenant à aucune des catégories énumérées ci-dessus. Il est à noter que seuls les 7 catégories principales ont été prises en compte dans la campagne d’évaluation.

La campagne ETAPE (Évaluations en Traitement Automatique de la Parole) (2011-2012) avait pour objectif de mesurer les performances des technologies vocales appliquées à l’analyse des flux télévisés en langue française. Cette campagne s’inscrit dans la continuité des campagnes ESTER. En ce qui concerne la définition des entités nommées, celle d’ Ehrmann (2008) a été utilisée :

« Étant donnés un modèle applicatif et un corpus, on appelle entité nommée toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus. » (Ehrmann 2008) .

Indices

Les indices permettent d’aider à la reconnaissance et la catégorisation des entités nommées. McDonald (1996) distingue deux types d’indices : internes et externes. Les premiers se rapportent à ce qui permet de discerner une entité nommée en se basant seulement sur les formes composant cette dernière. Les secondes en revanche s’intéressent à ce qui apparaît dans le contexte immédiat (formes situées à gauche et à droite de l’entité nommée) ou à partir d’un contexte plus large tel que le document ou le corpus.

Indices internes

Les principaux indices internes utilisés pour la reconnaissance des entités nommées sont :
– informations graphiques : la majuscule est une marque typographique qui sert à débuter chacune des formes composant une entité nommée. McDonald (1996) et Mikheev (1999) s’appuient seulement sur cet indice pour l’identification et la délimitation des entités nommées pour l’anglais : chaque mot (ou séquence de mots) ne se produisant pas dans une position ambiguë (par exemple : début d’une phrase, titre capitalisé) et dont la première lettre porte une majuscule est considéré comme entité nommée. En revanche, la majuscule ne permet pas généralement d’aider à la catégorisation des entités nommées sauf pour les acronymes (une seule forme contenant plusieurs majuscules) qui font référence, dans la plupart des cas mais pas toujours à des organisations ou des personnes.
– informations concernant la ponctuation et les caractères spéciaux et numériques: les signes graphiques peuvent être utilisés dans les acronymes et les noms des organisations et des produits. Par exemple, « I.B.M », « C&A », « O’Conner », etc. En revanche, les caractères numériques permettent d’aider à l’identification et à la catégorisation de certaines entités telles que les dates, les pourcentages et les noms des organisations. Par exemple, 2010, 3 Suisses, Élisabeth II, etc.
– informations morpho-syntaxiques : consiste à exploiter les résultat d’un étiquetage morpho-syntaxique, décrivant pour chaque mot sa catégorie grammaticale (nom propre, verbe, conjonction, etc.), afin d’élaborer des règles plus généralisatrices pour la délimitation et la catégorisation des entités nommées. Par exemple, si un mot est étiqueté en tant que nom propre alors il est fort probable qu’il fasse partie d’une entité nommée. Un étiqueteur morpho-syntaxique orienté données (Béchet et Charton 2010) ou connaissances (Vangelis et al. 1998) est utilisé afin d’étiqueter le texte.
– informations morphologiques : consiste à exploiter les informations morphologiques telles que le genre, le nombre, la forme canonique, les affixes. Par exemple, sachant que « Maria », « Marinela » et « Maricica » sont des prénoms féminins d’origines romaines, le mot « Mariana » peut être affecté à la même catégorie en se basant sur la partie commune du préfixe « Mari ». La même chose pour les suffixes, par exemple, « -escu » est un indicateur fort pour les anthroponymes en roumain, de même « -wski » en polonais, « -ovic » et « -ivic » en croato-serbe et « -son » en anglais (Silviu et David 1999).
– informations issues de lexiques : consiste à une simple interrogation des listes de noms propres et de mots clefs les plus courants. Ces listes sont préparées a priori manuellement ou automatiquement en utilisant des techniques d’apprentissage. Ces informations permettent dans la plupart des cas de catégoriser la forme à annoter. Par exemple, « Microsoft Inc », « la Bourse de Paris », « Lionel Jospin », etc.

Indices externes

Les indices externes se rapportent au contexte d’apparition de l’entité nommée (McDonald 1996). Ils sont nécessaires lorsque les indices internes sont ambigus pour ne pas aboutir à des erreurs de classification. Par exemple, « Washington » est à la fois une personne, une ville et un état américain. Des listes de mots déclencheurs peuvent être utilisées pour aider à catégoriser les entités nommées. Ces listes contiennent les mots qui sont susceptibles d’apparaître dans le contexte. Par exemple, un nom de personne est souvent accompagné d’un titre, d’un grade permettant d’indiquer des propriétés spécifiques. Par exemple, « Monsieur Washington », « Mme Denise », « l’entraîneur Aimé Jacquet », etc. D’autres indices externes peuvent aider à la délimitation et à la catégorisation tels que :

– la position du mot dans la phrase, par exemple, s’il est capitalisé et s’il ne se produit pas au début de la phrase alors il a une forte chance d’être une entité nommée.
– les informations concernant les autres occurrences de l’entité nommée potentielle dans le document ou dans le corpus. Par exemple, si le mot « Paris » se produit dans un contexte ambigu alors qu’une autre occurrence de ce mot dans le même texte est étiqueté comme un nom de lieu, alors la première occurrence peut être aussi considérée comme un nom de lieu.
– les meta-informations, par exemple, les balises XML et HTML pour la reconnaissance des entités nommées dans les documents structurés.

Malgré la présence d’indices internes et externes, la reconnaissance des entités nommées n’est pas une tâche facile. Cela est dûe notamment à la présence de plusieurs phénomènes d’ambiguïté.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I État de l’art
1 Reconnaissance d’entités nommées : présentation générale
1.1 Définitions et approche historique
1.2 Indices
1.2.1 Indices internes
1.2.2 Indices externes
1.3 Ambiguïtés
1.3.1 Ambiguïtés graphiques
1.3.2 Ambiguïtés sémantiques
1.3.3 Ambiguïtés liées à la délimitation
1.4 Mesures d’évaluation
1.5 Réconnaissance des entités nommées
1.5.1 Approches orientées connaissances
1.5.2 Approches orientées données
1.5.3 Approches hybrides
Conclusion
2 Reconnaissance d’entités nommées et modalité
2.1 La modalité écrite
2.1.1 Reconnaissance d’entités nommées à partir de textes bien formés
2.1.2 Reconnaissance d’entités nommées à partir de textes bruités : SMS et messages issus de réseaux sociaux
2.2 La modalité orale
2.3 La modalité manuscrite
2.4 La modalité vidéo
Conclusion
3 Reconnaissance d’entités nommées et multilinguisme
3.1 Adaptation des systèmes orientés connaissances
3.2 Adaptation des systèmes orientés données
3.2.1 Utilisation de ressources encyclopédiques
3.2.2 Utilisation de corpus comparables multilingues et de corpus parallèles
II Contributions
4 Reconnaissance d’entités nommées dans les transcriptions de la parole
4.1 Description des corpus et mesures de performance
4.1.1 Schéma d’annotation Quæro
4.1.2 Présentation des corpus
4.1.3 Mesures de performance
4.2 REN comme étant un problème d’étiquetage de séquences
4.3 REN suivant une taxonomie hiérarchique et compositionnelle
4.3.1 Problème de classification multi-étiquettes
4.3.2 Méthode proposée
4.4 Expérimentations
4.4.1 Évaluation sur les transcriptions manuelles
4.4.2 Évaluation sur les transcriptions automatiques
4.5 Discussion
4.6 Conclusion
5 Intégration de la reconnaissance des entités nommées au processus de reconnaissance de la parole
5.1 Présentation des corpus et des mesures de performance
5.1.1 Schéma d’annotation ESTER 2
5.1.2 Corpus ESTER 2
5.1.3 Mesures de performance
5.2 Intégration de la REN au système de transcription
5.2.1 Système de transcription automatique de la parole du LIUM
5.2.2 Système de reconnaissance des entités nommées LIA _NE
5.2.3 Couplage de la REN au processus de transcription
5.3 Expérimentations et résultats
5.3.1 Détermination de la taille optimale du vocabulaire
5.3.2 Évaluation des performances du système SRAP_REN sur le corpus de test
5.3.3 Analyse des erreurs
5.3.4 Prise en compte des entités nommées multi-mots dans le lexique
5.4 Conclusion
Conclusion générale

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *