Etude des schémas contextuels des entités nommées

Télécharger le fichier pdf d’un mémoire de fin d’études

Quelques repères historiques

L’échec des tentatives de traduction automatique n’a pas empêché l’apparition dans les années 50 d’idées fondamentales qui constituent des repères historiques (Yvon, 2007).

Le distributionnalisme

Le distributionnalisme représente un des fondements de la grammaire générative laaquelle tente de caractériser la connaissance de la langue permettant l’acte effectif du locuteur-auditeur. Zellig Harris9 et Leonard Bloomfield10 publient leurs travaux les plus importants sur la linguistique distributionnaliste entre 1951 et 1954.

L’intelligence artificielle

Les figures les plus marquantes de l’époque, dont John Mc Carthy11, Marvin Minsky12, Allen Newell13, Herbert Simon14 établissent en 1956 l’idée que tout aspect de l’intelligence humaine peut être décrit de façon suffisamment précise pour qu’une machine le simule. Ils envisagent les possibilités de créer des programmes d’ordinateurs qui se comportent intelligemment, et en particulier qui soient capables d’utiliser le langage.

Grammaire universelle

Noam Chomsky15 publie en 1957 ses premiers travaux importants sur la syntaxe des langues naturelles, et sur les relations entre grammaires formelles et grammaires naturelles. Sa démarche consiste à mettre en évidence les propriétés communes à tous les langages humains pour en dégager un modèle de grammaire universelle.

Le système ELIZA( (Yvon, 2007))

Développé en 1966 au MIT (Massachusetts Institute of Technology) par les élèves de M. Minsky, ELIZA simule un dialogue entre un psychiatre et son patient. Les résultats assez spectaculaires ont mené les chercheurs à relancer la compréhension automatique du langage.

Le système SHRDLU (Yvon, 2007)

Réalisé en 1972 par Terry Winograd, SHRDLU fut le premier logiciel capable de dialoguer en anglais avec un robot, dans le cadre d’un micro-monde (quelques blocs de couleurs et de formes variées). Ce logiciel montre que les diverses sources de connaissances par rapport à la structure des phrases, à leur sens et à ce qu’elles désignent dans le monde, doivent et peuvent interagir avec les modules d’analyse et de raisonnement. La plupart de ces systèmes ne fonctionnent toutefois que dans des contextes de communication extrêmement restreints.

Approches par le contexte sémantique:

Dans les années 70, de nouvelles approches qui relèguent le rôle de la syntaxe au second plan pour se baser sur la sémantiques ont été dévelopées. L’importance du contexte et le rôle essentiel d’une bonne connaissance du domaine traité pour comprendre un texte est ainsi mis en avant. Au lieu de se limiter au seul sens objectif, la signification subjective est considérée comme étant étroitement dépendante d’informations implicites qui font partie des connaissances générales communes aux interlocuteurs.

Notion de connaissances

M. Minsky a procédé à l’élaboration d’un cadre général de représentation des connaissances (frames). Parallèlement, les diverses connaissances nécessaires dans un système interprétant le langage naturel sont identifiées clairement. Les recherches ne se limitent plus à l’interprétation de phrases seules pour aborder le traitement d’unités plus importantes comme les récits et les dialogues.

Les premiers formalismes et leur évolution

 Les modèles syntaxiques se développent et deviennent de plus en plus raffinés. Des algorithmes d’analyse grammaticale performants sont proposés pour analyser les grammaires les plus simples (grammaires régulières et algébriques). Ces formalismes ont cependant été jugés insuffisants pour le traitement du langage naturel et pour cette raison sous-estimés pendant un long moment.
 Au milieu des années 70, divers travaux théoriques, en particulier ceux de Ronald Kaplan et de Martin Kay, réhabilitent ces formalismes dans le cadre du traitement de la morphologie et de la phonologie des langues naturelles.
 Au milieu de la recrudescence des travaux sur la syntaxe, de nouveaux formalismes de description grammaticale ont émergé. Ils étendent de manière informatiquement gérable les grammaires algébriques. Les plus connus sont les réseaux de transition augmentés (abréviation anglaise ATN), et les grammaires d’unification.

Description des connaissances

Quelles que soient les théories et les propositions issues de l’intelligence artificielle jusqu’au début des années 80, la difficile tâche liée à la description préalable des connaissances sur la langue et sur le monde était incontournable. Il a alors fallu des travaux parallèles sur la formalisation des mécanismes d’acquisition automatique des connaissances sous forme de règles de grammaire ou de connaissances sémantiques.
Aujourd’hui, le champ du traitement du langage naturel est un champ de recherche très actif. Des applications industrielles ont déjà été réalisées, lesquelles témoignent de l’importance des avancées accomplies et en même temps des progrès qu’il reste encore à accomplir. Avant de passer à l’étude des différents aspects techniques du TALN, il nous semble essentiel de présenter tout d’abord le formalisme utilisé pour décrire un langage. Chaque langage a ses règles, ses balises, ses interdits, ses particularités structurelles qui le différencient d’autres langages. Ce formalisme a un nom, que le contexte soit naturel ou formel : la grammaire qui est indissociable de tout langage structuré.

Grammaires génératives

Une grammaire définit comment générer des phrases dans un langage. On peut voir en elle une sorte de balise syntaxique qui gouverne non seulement la production mais aussi la validation syntaxique des phrases. Pour étudier les innombrables langages irréguliers, on peut les classer en fonction du type de grammaire qui permet de les générer. Pour reconnaître les mots d’un langage, des automates sont utilisés. La grammaire n’est pas censée valider la sémantique (c’est à dire le sens) d’une phrase. Une phrase jugée comme étant syntaxiquement correcte n’ a pas forcément une sémantique acceptable. Une phrase syntaxiquement invalide peut être sémantiquement comprise, si l’invalidation ne repose que sur une petite faute d’orthographe.

Les grammaires contextuelles

Il s’agit des langages contextuels, en anglais context-sensitive. Toute règle comprend un non-terminal entouré de deux mots qui décrivent le contexte dans lequel la variable peut être remplacée. Les langages produits sont exactement ceux reconnus par une machine de Turing non déterministe à mémoire linéairement bornée, appelés couramment automates linéairement bornés. Les règles sont de la forme : aAb → awb où A ϵ Ɲ, a, b, w ∈ (Ʃ Ս Ɲ)* , w différent de ?.

Les grammaires algébriques

Il s’agit des langages algébriques ou hors contexte en anglais context-free. Le contexte des règles est vide, à condition que le membre droit ne soit pas є (le mot vide). Les symboles non terminaux sont traités indépendamment de la place où ils apparaissent. Les langages produits sont ceux reconnus par un automate à pile. Les règles sont de la forme: A → w, où A ∈ Ɲ, w ∈ (Ʃ Ս Ɲ)*.

Le caractère implicite du langage naturel

L’humain est naturellement doté de par ses expériences, son vécu, son instruction, sa culture, ses connaissances générales, de connaissances d’arrière-plan qui lui permettent de comprendre les éléments implicites, les métaphores et les figures de style dans un énoncé naturel. L’homme peut lire entre les lignes et comprendre les non-dits. La machine ne dispose pas automatiquement de cette connaissance d’arrière-plan. Il faut la pourvoir de bases de connaissance additionnelles qui lui donneraient accès à un savoir sur un domaine particulier ou sur le monde en général. Mais cette connaissance statique ne serait pas encore suffisante car le contexte d’un énoncé requiert en plus une connaissance dynamique.
Au vu de ces difficultés, il semble évident d’admettre que la compréhension d’un énoncé en langage naturel par une machine ne peut être concrétisée via un traitement simpliste. Effectivement, plusieurs étapes doivent être traversées explicitement et systématiquement, contrairement à la démarche humaine, laquelle repose plus sur la spontanéité spirituelle. La sous-section suivante va nous en révéler les détails.

Les niveaux de traitement

Pour parvenir à une compréhension complète d’un énoncé en langage naturel, une série de modules doivent être mis en oeuvre dont chacun requiert des connaissances et des mécanismes différents. Ils peuvent être vus comme les composants de la machinerie cognitive mobilisée dans la compréhension du langage. Chaque module représente un niveau de traitement et plus on monte en niveau, plus les difficultés s’accumulent pour les raisons que nous venons de voir dans la sous-section précédente. Ces niveaux sont les suivants, en commençant par le niveau le plus bas et le plus facile.

La segmentation de l’énoncé

Les unités lexicales (tokens) qui constituent l’énoncé sont délimitées sans tenir compte de leurs propriétés.

Le traitement lexical

Il s’agit d’identifier les composants lexicaux en passant des tokens aux mots, avec leurs propriétés respectives, en tant qu’unités linguistiques.

Le traitement syntaxique

Le niveau syntaxique est le niveau conceptuel concerné par le calcul de la validité de certaines séquences de mots, les séquences grammaticales ou bien-formées. Toutes les suites de mots ne forment pas des phrases acceptables. La description des contraintes caractéristiques d’une langue donnée se fait par le biais d’une grammaire. Les modèles et formalismes grammaticaux proposés dans le cadre du traitement automatique du langage sont particulièrement nombreux et variés. La grammaire d’unification, une classe particulière de modèles en fait partie.

Le traitement pragmatique

Alors que la sémantique se préoccupe du sens des énoncés, la pragmatique porte sur les attitudes (vérité, désirabilité, probabilité) que les locuteurs adoptent vis à vis des énoncés et sur les opérations logiques que ces attitudes déclenchent. Le niveau pragmatique est parfaitement dissociable du niveau sémantique. Il existe une distinction très importante, basée sur la notion d’inférence logique.
La séquentialité de ces traitements est une idéalisation. Dans la pratique, il est préférable de concevoir ces niveaux de traitement comme des processus coopératifs, qui échangent de l’information dans les deux sens (à la fois des niveaux « bas » vers les niveaux « hauts », et en sens inverse) : il est ainsi souvent nécessaire de faire appel à des informations sémantiques pour trouver la « bonne » structure syntaxique d’une phrase.
Il est difficile de concevoir un outil de haut niveau qui soit performant, sauf si son domaine d’opération est (strictement) restreint à un sous-domaine particulier. En même temps, il faut reconnaître qu’il n’est pas toujours indispensable d’avoir une compréhension complète des énoncés et que l’automatisation peut se limiter à un niveau intermédiaire.

Le traitement documentaire

Les applications conçues pour faciliter le traitement par l’humain des immenses ressources disponibles en langage naturel sont les applications les plus immédiates du TALN.

La traduction automatique

Cette application reste un enjeu économique et politique de première importance. Même si la traduction complète indépendante du domaine n’ a pas encore vu le jour, voici quelques exemples d’utilisation possible de traducteurs automatiques :
 La préparation de l’intervention manuelle d’un traducteur.
 Dictionnaires bilingues pour l’aide à la traduction dans certains environnements de travail.
 L’utilisation d’un traducteur pour la recherche documentaire, ou pour le filtrage manuel de document .
 Traduction automatique des pages html.

La recherche de documents

 Les nombreux outils de recherche documentaire sur la toile utilisent des techniques du TALN. Ils traitent quotidiennement des millions de requêtes mais leurs performances témoignent du chemin qu’il reste encore à parcourir dans ce domaine.
 Les outils de recherche d’adresses potentiellement intéressantes à partir de profil d’ utilisateurs se prolifèrent également de plus en plus sur la toile.
 La surveillance automatique des publications dans des domaines donnés n’est pas non plus en reste.
 Le routage, classement où l’indexation automatique de documents électroniques sont des variantes applicatives du paradigme de la recherche documentaire. Les outils disponibles sur la toile reposent sur des techniques qui sont essentiellement statistiques, et ne font appel qu’aux outils de « bas-niveau » du TALN : segmentation et lemmatisation.

Problème de définition des entités nommées

Les entités nommées se trouvant à la croisée de la linguistique et du traitement automatique, trouver une définition selon les normes de la linguistique sans omettre le côté pragmatique de l’automatisme est un exercice difficile. Autant il est simple de leur donner une définition intuitive, autant il est ardu de leur attribuer une définition rigoureuse et systématique. D’après (M. Cori, 2002), il serait impossible de définir un champ unifié qui, tout en englobant les applications industrielles, soit scientifiquement fondé. Pour l’heure, il n’existe aucune véritable assise théorique dans la littérature pour les entités nommées, et pour reprendre les mots de Maud Ehrmann, auteur d’une thèse sur les entités nommées: « Il semblerait qu’il s’agisse d’un des premiers retours à l’envoyeur du TAL vis-à-vis de la théorie linguistique, amenée aujourd’hui à considérer un objet qu’elle n’avait nullement défini auparavant (Ehrmann, 2008).
Dans la majorité des travaux sur les entités nommées, la définition prend la forme d’une énumération des éléments pouvant être considérés comme tels, dont voici quelques échantillons : « …tous les éléments du langage qui font référence à une entité unique et concrète, appartenant à un domaine spécifique (ie. humain, économique, géographique, etc.) …noms propres au sens classique, noms propres dans un sens élargi mais aussi expressions de temps et de quantité »

Appréhension des entités nommées

Une fois repérées, il reste encore au moins un problème sur le chemin de la reconnaissance d’entités nommées. Une entité nommée peut, par exemple, être combinée avec une autre entité nommée pour ne former qu’une seule entité. Laquelle prendre alors ? Comment les appréhender ? Comment les annoter ? L’appréhension des entités nommées est liée aux trois types de difficultés (Ehrmann, 2008) qui vont être définis dans les paragraphes suivants.

Combinaison de plusieurs entités nommées

Deux entités nommées peuvent se présenter sous la forme d’une coordination, c’est souvent le cas lorsqu’un couple est mentionné dans un texte. Il y a alors deux possibilités : l’ellipse partielle ou l’ellipse totale.
 Exemple de l’ellipse partielle: Bill and Hillary Clinton flew to Chicago together last month. Dans cet exemple, il y a trois syntagmes: Bill (Clinton), Hillary Clinton et le couple Bill and Hillary Clinton. Même si le nom Clinton ne suit pas directement le prénom Bill, les deux informations (prénom et nom) pour identifier la première personne sont présentes.
 Exemple de l’ellipse complète: M. et Mme Chirac en thalasso à Biarritz. Dans cet exemple, il y a également trois syntagmes même si les identités concrètes sont effacées : M. (Chirac) et Mme (Chirac). Les titres M. et Mme (unis par la coordination et) permettent de détecter la présence d’un couple (troisième syntagme) dont le nom est Chirac.
Les interprétations divergent quant à la considération des syntagmes. Doit-on considérer qu’il s’agit d’une ou de plusieurs entités nommées ?
 MUC-6 préconise l’annotation séparée de deux entités coordonnées.
 MUC-7 reconsidère cette option et repart avec l’annotation conjointe.
 ESTER opte pour l’annotation séparée et propose de restituer les patronymes omis.

Considération des atours des entités nommées

Lorsqu’un syntagme est composé de plusieurs éléments dont une entité nommée, doit-on prendre en compte ces autres éléments ? Autrement dit : est-ce qu’on doit considérer uniquement l’entité nommée ou est-ce qu’il faut annoter le syntagme dans son intégralité?
Prenons quelques exemples : la candidate Ségolène Royale, le Président François Hollande, le Palais Bourbon, Benoît XVI, le cardiologue Dupont. Ici encore, les avis divergent :
 MUC estime que les titres et les noms de rôle ne doivent pas être annotés avec l’entité nommée, mais que les indicateurs générationnels doivent l’être (XVI dans Benoît XVI).
 ESTER suggère que seule l’entité doit être prise en compte dans l’étiquette .
 A. Rebotier fait une distinction entre les titres et les qualifications externes au nom. Le titre doit faire partie intégrante d’une entité nommée mais pas les qualifications.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

CHAPITRE 1 CONTEXTE GENERAL ET GENERALITES
1.1 Introduction
1.2 Le Web sémantique
1.2.1 Principe du Web sémantique
1.2.2 L’architecture du Web sémantique
1.2.3 Ontologie
1.3 La fouille de données
1.3.1 Généralités
1.3.2 Fouille de données et intelligence artificielle
1.3.3 Mode de fonctionnement global
1.3.4 L’apprentissage machine
1.3.5 Les réseaux de neurones
1.3.6 Les réseaux bayésiens
1.3.7 Les modèles markoviens
1.3.8 Arbre de décision
1.4 Traitement automatique du langage naturel
1.4.1 Généralités
1.4.2 Historique
1.4.3 Grammaires génératives
1.4.4 Les difficultés liées au TALN
1.4.5 Les niveaux de traitement
1.4.6 Les applications du TALN
1.5 Conclusion
CHAPITRE 2 ETAT DE L’ART DES APPLICATIONS NERD
2.1 Introduction
2.2 Entités nommées
2.2.1 Origine : les conférences MUC
2.2.2 Problème de définition des entités nommées
2.2.3 Reconnaissance d’entités nommées dans un texte
2.2.4 Appréhension des entités nommées
2.2.5 Polysémies et homonymie
2.3 Les applications qui traitent des entités nommées
2.3.1 Les applications NER pour la reconnaissance d’entités nommées
2.3.2 Les méthodes de désambiguïsation d’entités nommées
2.3.3 Méthode associant reconnaissance et désambiguïsation
2.3.4 Les méthodes de résolution de coréférence
2.4 Méthode traitant des entités émergentes
2.4.1 Problématique générale des entités émergentes
2.4.2 Problématique traitée par l’approche NED-EE
2.4.3 Approche NED-EE
2.5 Récapitulation des défis à surmonter en matière de liaison d’entités nommées
2.5.1L’inexistence d’une définition standard du problème
2.5.2 L’absence de guide d’annotation
2.5.3 L’inexistence de Benchmark standard
2.5.4 L’opacité des systèmes bout-en-bout (end-to-end)
2.6 Analyse linguistique des articles d’actualité
2.6.1 Définition de l’actualité
2.6.2 Cadre de production
2.6.3 Exemple d’agence de presse : l’ats
2.6.4 Caractéristiques générales des articles d’actualité
2.6.5 Étude des particularités linguistiques et grammaticales des articles d’actualité
2.6.6 Hypothèses
2.7 Conclusion
CHAPITRE 3 SPECIFICATION INTUITIVE DU PROJET
3.1 Introduction
3.2 Terminologie
3.2.1 Mention
3.2.2 Entité
3.2.3 Entité nommée
3.2.4 Entité émergente
3.2.5 Récapitulation
3.2.6 NERD (Named Entity Recognition and Disambiguation)
3.3 Cadre d’étude
3.3.1 Origine du projet
3.3.2 Définition de l’objectif
3.3.3 Limitation du projet
3.3.4 Choix du champ d’expérimentation
3.4 Orientation de l’approche
3.4.1 L’idée clé de l’approche
3.4.2 Une première esquisse grossière de l’approche
3.4 Méthodologie
3.4.1 Etude de l’état de l’art
3.4.2 Analyse linguistique du champ d’application
3.4.3 Analyse libre
3.5 Particularités et innovations
3.6 Conclusion
CHAPITRE 4 MODELISATION DE L’APPROCHE
4.1 Introduction
4.2 Etude des schémas contextuels des entités nommées
4.2.1 Repérage des contextes sémantiques
4.2.2 Normalisation des structures morphosyntaxiques
4.3 Grammaire formelle des schémas contextuels
4.3.1 L’alphabet des terminaux
4.3.2 L’alphabet des non-terminaux
4.3.3 Les règles de production
4.3.4 Le langage des schémas contextuels Lnews
4.3.5 Le langage des schémas irréguliers Lirr
4.3.6 Utilité de la grammaire Gnews
4.4 Classification sémantique des schémas contextuels
4.4.1 Nécessité de la classification sémantique
4.4.2 Normalisation des schémas
4.4.3 Apprentissage d’un nouveau schéma
4.5 Désambiguïsation des entités nommées
4.5.1 Représentation conceptuelle d’un article d’actualité
4.5.2 Résolution de coréférence
4.5.3 La normalisation des contextes
4.5.4 Ontologie des articles d’actualité
4.5.5 Désambiguïsation
4.6 Modélisation
4.6.1 Modélisation de l’étiquetage d’entités nommées
4.6.2 Modélisation de l’étiquetage général
4.6.3 Modélisation de l’extraction des schémas contextuels
4.6.4 Modélisation de la classification sémantique
4.6.5 Modélisation de la désambiguïsation
4.7 Conclusion
CHAPITRE 5 PROTOTYPAGE AVEC AIDA-FOR-NEWS
5.1 Introduction
5.2 Cheminement du conceptuel vers le réel
5.2.1 L’affinement de l’architecture conceptuelle
5.2.2 La spécification du modèle de données
5.2.3 L’’affectation des données aux tâches
5.2.4 Sélection des outils adéquats
5.2.5 L’implémentation
5.2.6 Vérification de l’intégrité et de la cohérence de l’ensemble
5.2.7 Evaluation de la performance en termes de rappel et de précision
5.2.8 Tests ad-hoc
5.3 Architecture modulaire
5.3.1 La phase de préparation des données
5.3.2 La classification des schémas contextuels
5.3.3 La phase de désambiguïsation
5.4 Schéma explicatif de AIDA-for-News
5.5 Exemple de désambiguïsation d’une entité émergente
5.6 Evaluation interne du système
5.6.1 Les critères de vérification des résultats de la désambiguïsation
5.6.2 Les prémisses
5.6.3 Environnement de test
5.6.4 Outil d’évaluation
5.6.5 Récapitulation des résultats
5.6.6 Interprétation et explication
5.7 Evaluation comparative avec les systèmes AIDA, Babelfy et Tagme
5.7.1 Benchmarking
5.7.2 Les systèmes de référence pour la comparaison
5.7.3 Résultats de l’évaluation comparative
5.8 Conclusion
CONCLUSION ET PERSPECTIVES
ANNEXES
Annexe I : Publications de notoriété nationale et internationale
A1.1 A grammar-based method for the identification and the disambiguation of emerging entities in news articles
A1.2 Approche cognitive pour la désambiguïsation d’entités nommées dans les articles d’actualité
Annexe II : Ensemble d’entraînement
REFERENCES