Télécharger le fichier pdf d’un mémoire de fin d’études
Extraction d’information : vue d’ensemble du domaine
Extraction d’information
L’extraction d’information peut ˆetre d´efinie de fa¸con g´en´erale comme l’extrac-tion d’informations structur´ees `a partir de textes en langue naturelle, donc non structur´es. Cette tˆache recouvre le plus souvent l’identification automatique de certaines entit´es, relations ou ev´enements d´efinis dans les textes, et est li´ee aux domaines du traitement automatique des langues et de l’intelligence artificielle. Son but est plus globalement de faciliter l’acc`es a` l’information `a un lecteur hu-main parmi une masse importante de documents textuels disponibles au format ´electronique et de trouver les informations sp´ecifiques dont il a besoin. Le domaine de l’extraction d’information diff`ere du domaine de la recherche d’information, qui vise a` retrouver un ensemble de documents pertinents en rapport avec une requˆete donn´ee, et laisser le lecteur chercher l’information voulue dans les docu-ments retourn´es. Dans le cas de l’extraction d’information, on cherche a` fournir directement au lecteur cette information, extraite automatiquement du texte, ce qui est plus ambitieux et plus difficile. L’´etape de recherche d’information est par contre compl´ementaire et peut venir en amont du processus d’extraction pour fournir a` ce processus un ensemble de documents pertinents par rapport a` une th´ematique donn´ee.
EXTRACTION D’INFORMATION : VUE D’ENSEMBLE DU DOMAINE
L’information extraite est en g´en´eral structur´ee pour ˆetre fournie `a un syst`eme de visualisation afin d’ˆetre pr´esent´ee `a un utilisateur ou stock´ee dans une base de donn´ees qui peut ˆetre interrog´ee par des requˆetes formelles (par exemple une base de donn´ees relationnelle).
Le domaine de l’extraction d’information s’est d´evelopp´ `a la fin des ann´ees quatre-vingt et au d´ebut des ann´ees quatre-vingt-dix avec les conf´erences MUC (Message Understanding Conferences), un ensemble de campagnes d’´evaluation d´edi´ees a` l’extraction d’information, qui ont d´efini les diff´erentes tˆaches du do-maine ainsi que les protocoles et les m´etriques pour l’´evaluation de ces tˆaches. La derni`ere conf´erence MUC a et´ organis´ee en 1998, avant que d’autres campagnes sur l’extraction d’information suivent, comme les campagnes ACE (Automatic Content Extraction), puis les campagnes TAC (Text Analysis Conference). Une tˆache arch´etypique de l’extraction d’information est le remplissage automatique d’un formulaire (ou template) qui r´esume les informations cl´es contenues dans un texte en fonction des centres d’int´erˆet fix´es par un utilisateur. Dans cette section, nous pr´esentons un panorama g´en´eral de l’extraction d’information qui s’appuie en partie sur des ´etats de l’art existant dans ce domaine [Chang et al., 2006; Cowie and Lehnert, 1996; Cunningham, 2005; Grishman, 1997; McCallum, 2005; Mooney and Bunescu, 2005; Sarawagi, 2008; Sim˜oes et al., 2009; Turmo et al., 2006; Uren et al., 2006]. Plus pr´ecis´ement, nous pr´esentons a` la section 2.2 le contexte de l’extrac-tion d’information, en indiquant quelles sont ses applications ainsi que les types de documents sur lesquels elle porte. Dans la section 2.3, nous pr´esentons les diff´erentes tˆaches de l’extraction d’information. La section 2.4 pr´esente les prin-cipes g´en´eriques des diff´erentes approches utilis´ees pour ces diff´erentes tˆaches et nous d´etaillons l’utilisation de ces m´ethodes appliqu´ees aux diff´erentes tˆaches de l’extraction d’information dans les sections 2.5, 2.6, 2.7 et 2.8. Enfin, nous d´etaillons les sp´ecificit´es de la probl´ematique d’extraction d’information que nous traitons dans cette th`ese et les grandes lignes de la m´ethode utilis´ee dans la sec-tion 2.9.
Le contexte de l’extraction d’information
Contextes d’utilisation
Il existe, dans diff´erents domaines, des syst`emes int´egrant des composantes utilisant l’extraction d’information. Si une part importante de ces syst`emes a et´ d´evelopp´ee dans un contexte de veille, par exemple pour des organisations gouvernementales, une part significative a et´ consacr´ee `a d’autres applications. [Sarawagi, 2008] recense quatre types d’usage pour les syst`emes d’extraction d’in-formation :
Les applications pour les entreprises Ces applications sont le plus souvent utilis´ees dans un contexte de veille : une entreprise cherche par exemple a` s’informer de la fa¸con dont elle est per¸cue ou comment elle se situe vis-a`-vis de ses concurrents. Les domaines d’utilisation de ces applications sont le suivi d’´ev´enements d’actualit´e, le suivi de clients, la normalisation de donn´ees (suppression d’´eventuels doublons dans une base de donn´ees) et enfin le suivi de petites annonces. Les documents utilis´es sont principale-ment des d´epˆeches de presse.
La gestion des donn´ees personnelles Il s’agit de syst`emes permettant d’or-ganiser les documents d’un utilisateur en fonction des informations qu’ils contiennent. Ils permettent d’´etablir des liens entre les contenus de diff´erents documents. Contrairement aux moteurs de recherche internes qui permettent d’indexer du contenu provenant de diff´erents types de documents (courriels, fichiers textes, etc.), ce type de syst`emes se concentrent plus sur l’organisa-tion et la synchronisation de contenus venant de plusieurs sources.
Les applications scientifiques Il s’agit de syst`emes utilis´es pour aider les cher-cheurs en leur pr´esentant des informations synth´etiques extraites d’articles scientifiques. Par exemple, dans le domaine de la bioinformatique, ces syst`emes peuvent utiliser les articles pr´esents dans des bases de donn´ees bibliogra-phiques afin de d´etecter des noms de g`enes/prot´eines et relever les interac-tions mentionn´ees entre ces el´ements.
Les applications orient´ees Web Il s’agit de sites Web utilisant comme source d’information le contenu d’autres pages Web. Les informations issues de ces contenus sont centralis´ees et structur´ees en fonction d’un besoin donn´e. Les domaines d’utilisation sont la cr´eation de bases de donn´ees de citations (ou d’opinions d’utilisateurs), la centralisation d’´ev´enements concernant une communaut´e (par exemple le regroupement des informations concernant des conf´erences scientifiques), la cr´eation de comparateurs de prix, la cr´eation de publicit´es cibl´ees.
D’autres exemples d’applications sont pr´esent´es dans [Cunningham, 2005; Mc-Callum, 2005].
Les types de documents utilis´es
Les documents utilis´es pour l’extraction d’information sont tr`es vari´es en fonc-tion du domaine d’application du processus d’extraction : il peut s’agir d’´ecrits journalistiques (articles, d´epˆeches de presse), d’articles scientifiques ou rapports sp´ecialis´es (par exemple pour l’extraction d’information dans le domaine m´edical), d’´ecrits narratifs (romans, textes anciens) ou de correspondances entre personnes (courriel, sms, forums), etc. Plus g´en´eralement, il s’agit d’utiliser les textes bruts pour d´etecter les informations pertinentes pour l’application vis´ee.
La plupart des syst`emes utilisent des documents de mˆeme nature (par exemple seulement des textes journalistiques, articles et d´epˆeches de presse), mais dans une perspective g´en´erique, il conviendrait de pouvoir traiter des documents de natures diff´erentes. Les organisateurs de la campagne d’´evaluation sur le peuplement de base de connaissances TAC-KBP ont d’ailleurs propos´e dans cette optique d’uti-liser un corpus compos´e de documents de diff´erentes natures (articles de presse, pages Web, etc.).
Le contenu des textes bruts auquel nous nous int´eressons pour extraire des informations est exprim´ en langage naturel `a travers de phrases, propositions, etc. N´eanmoins, ce contenu n’est pas toujours exclusivement compos´e de phrases et peut dans certains cas contenir des m´etadonn´ees sur la mise en forme ou la structure du document (ou des informations). On parle alors de documents semi-structur´es.
Les m´etadonn´ees apportent au lecteur des connaissances suppl´ementaires sur le contenu du texte brut. Une illustration de document semi-structur´e est pr´esent´ee dans l’extrait ci-dessous, il s’agit d’une adresse d´ecrite selon les m´etadonn´ees nom, rue, ville et code postal :
Nom : Laboratoire Vision et Ing´enierie des Contenus
Rue : 18 route du Panorama
Code postal : 92265
Ville : Fontenay-aux-Roses
Afin d’extraire des informations a` partir de documents semi-structur´es de ce type, les syst`emes doivent tirer partie des m´etadonn´ees pr´esentes mais aussi des indices de mise en forme ou de positionnement des informations. Par exemple pour extraire des adresses, il est important de noter que le code postal est le plus souvent mentionn´ avant le nom de la ville dans une adresse. De plus, les retours a` la ligne indiquent que l’on change de type d’information (le destinataire et le code postal ne sont pas sur la mˆeme ligne).
Sous un autre angle, lorsque le contenu du texte brut ne contient pas de m´etadonn´ees, les documents sont dits non-structur´es. Les documents sont alors exclusivement compos´es de phrases en langage naturel. Notons cependant que certains documents non-structur´es ont une structure qui peut ˆetre exploit´ee pour extraire des informations. Par exemple, si l’on consid`ere les d´epˆeches de presse, les phrases sont g´en´eralement regroup´ees en paragraphes ; elles contiennent le plus souvent un titre, etc. Afin d’extraire les informations a` partir de textes non-structur´es, les approches utilis´ees sont diff´erentes de celles appliqu´ees aux documents semi-structur´es : les indices de mise en forme des informations ne jouent pas en effet de rˆole pr´epond´erant puisque les informations sont diss´emin´ees dans des phrases.
Les tˆaches en extraction d’information
Pr´esentation des tˆaches
En fonction de la nature de l’information extraite, plusieurs tˆaches diff´erentes ont et´ d´efinies dans le domaine de l’extraction d’information. Nous pr´esentons ici une vue g´en´erale des cinq tˆaches g´en´eralement retenues [Cunningham, 1997, 2005; Turmo et al., 2006]. Ces tˆaches seront pr´esent´ees plus en d´etail dans la suite de ce chapitre.
– La reconnaissance des entit´es nomm´ees (NER named entity recognition) : cette tˆache concerne l’identification de certaines entit´es sp´ecifiques dans les textes, en leur associant un type d´efini. Ces entit´es peuvent ˆetre relative-ment g´en´erales, comme les dates, les noms d’organisations, de lieux, ou d´ependantes du domaine, par exemple des montants mon´etaires dans le do-maine financier, des noms de prot´eines ou de m´edicaments dans le domaine m´edical. Dans le domaine d’application de cette th`ese, la surveillance des ev´enements sismiques, ces entit´es seront en particulier la magnitude, les coordonn´ees g´eographiques de l’´ev´enement etc. ;
– La r´esolution de la cor´ef´erence (Coreference Resolution) : cette tˆache corres-pond `a l’association de plusieurs mentions ou occurrences d’entit´es r´ef´erant a` la mˆeme entit´. Cette tˆache inclut la mise en correspondance de noms d’entit´es en prenant en compte leurs variations possibles et la mise en cor-respondance des pronoms reprenant des entit´es dans les textes (r´esolution d’anaphores pronominales). La r´esolution de cor´ef´erence d’entit´es est aussi appel´ suivi d’entit´ (Entity Tracking ), par exemple dans le cadre des cam-pagnes ACE ;
– L’identification des attributs associ´es aux entit´es (template element construc-tion) : cette tˆache a pour objet d’associer des informations compl´ementaires aux entit´es nomm´ees, en essayant d’extraire les mentions explicites de pro-pri´et´es associ´ees aux entit´es. Par exemple, les personnes peuvent se voir associer des alias, des titres, etc ;
– L’identification des relations entre les entit´es nomm´ees (template relation construction) : cette tˆache consiste `a extraire des relations existant entre deux entit´es dans un texte ;
– l’identification d’´ev´enements (scenario template construction) : cette tˆache consiste `a remplir automatiquement une structure d’information repr´esent´ee sous la forme d’un formulaire (template), associant diff´erents el´ements d’in-formation a` un ev´enement donn´e. Par exemple, pour un ev´enement d’ac-quisition entre deux entreprises, la structure d’information contiendra les noms des deux entreprises (l’entreprise qui ach`ete et celle qui est achet´ee), la date, le montant financier etc.
Dans cette s´eparation entre les diff´erentes tˆaches, chaque tˆache de la liste uti-lise les r´esultats des tˆaches pr´ec´edentes : par exemple, on a besoin de reconnaˆıtre les entit´es sp´ecifiques pour faire la cor´ef´erence entre entit´es. De mˆeme, on a besoin d’avoir des relations entre entit´es pour construire des structures d’information plus complexes. N´eanmoins, les fronti`eres entre les diff´erentes tˆaches sont par-fois t´enues. Par exemple, les tˆaches d’identification d’attributs pour des entit´es et d’extraction de relations entre entit´es sont tr`es similaires. En effet, entre un nom de personne et un nom d’entreprise, on peut imaginer avoir une relation travaille pour, qu’on chercherait a` extraire des textes dans un cadre d’extraction de relations. Or, cette relation ´etant statique, on pourrait, en consid´erant une orientation particuli`ere sur la relation, la voir comme la d´efinition d’un attribut est employ´ de associ´e aux personnes. Ces deux tˆaches concernent donc l’identifi-cation de relations entre les entit´es. La diff´erence que l’on peut faire est que pour l’identification d’attributs, ces relations sont de nature attributive (la date de nais-sance est une relation attributive entre une entit´ de type Personne et une entit´ de type Date) alors que dans le cadre de l’extraction de relations pour la construc-tion de templates, ces relations peuvent ˆetre de nature ev´enementielle (une ac-quisition entre entreprises est une relation ev´enementielle entre deux entit´es de type Organisation). Une autre fa¸con de voir la diff´erence entre ces relations est de consid´erer que les relations attributives sont en g´en´eral des relations valides ind´ependamment du domaine consid´er´e, alors que les relations ev´enementielles sont relatives au domaine. La forme que peut prendre l’expression de ces rela-tions peut ˆetre diff´erente selon leur nature, mais les approches pour faire cette extraction restent similaires et dans le reste de ce travail, nous pr´esenterons les deux tˆaches comme une seule tˆache d’extraction de relations.
De la mˆeme fa¸con, la construction de templates peut ˆetre vue comme une g´en´eralisation de l’extraction de relations entre entit´es, en consid´erant que le formulaire d´ecrivant un ev´enement est une relation n-aire entre plusieurs entit´es. On parle parfois d’extraction de relations complexes [McDonald et al., 2005].
Architecture type
Nous avons d´ecrit pr´ec´edemment les diff´erentes tˆaches en mati`ere d’extrac-tion d’information. Afin de d´etecter les informations pertinentes contenues dans un document les syst`emes d’extraction d’information s’appuient sur des connais-sances linguistiques obtenues en appliquant diff´erents traitements : par exemple d´eterminer la cat´egorie morpho-syntaxique associ´ee `a un mot. L’ensemble de ces traitements linguistiques s’inscrivent dans une architecture type des syst`emes d’extraction d’information que nous d´ecrivons ici.
Plus globalement, les syst`emes appliquent diff´erents traitements linguistiques au niveau des mots ou des phrases (niveau local) d’un document. Par la suite, les r´esultats de ces premiers traitements sont agr´eg´es (ou combin´es) pour rep´erer des informations exprim´ees au-del`a d’une seule phrase ou au niveau du document dans son ensemble : par exemple une relation s´emantique entre deux entit´es nomm´ees peut ˆetre exprim´ee sur plusieurs phrases.
[Grishman, 1997] r´esume le processus d’extraction d’information en trois temps : premi`erement, la d´etection des faits a` travers les traitements linguistiques au ni-veau local ; deuxi`emement, le regroupement des faits identifi´es avec des faits exis-tants (´eventuellement la cr´eation de nouveaux faits) ; enfin, les informations li´ees aux faits pertinents sont transform´ees pour correspondre au format des templates.
Les syst`emes d’extraction d’information sont le plus souvent des syst`emes mo-dulaires dont les architectures sont tr`es h´et´erog`enes. L’int´erˆet des syst`emes mo-dulaires est qu’ils permettent d’effectuer certaines tˆaches de fa¸con ind´ependante. D’autre part, les modules peuvent, de fa¸con naturelle, ˆetre appliqu´es en cascade, afin qu’un module utilise comme entr´ee la sortie du module pr´ec´edent [Hobbs, 1993]. Une part importante de ces syst`emes s’appuie sur un ensemble de compo-sants qui sont responsables de traitements plus ou moins elabor´es et sur lesquels nous nous appuyons pour mettre en avant une architecture commune.
|
Table des matières
1 Introduction
1.1 Motivations et objectifs
1.2 Organisation du document
2 Extraction d’information : vue d’ensemble du domaine
2.1 Extraction d’information
2.2 Le contexte de l’extraction d’information
2.2.1 Contextes d’utilisation
2.2.2 Les types de documents utilis´es
2.3 Les tˆaches en extraction d’information
2.3.1 Pr´esentation des tˆaches
2.3.2 Architecture type
2.4 Approches pour l’extraction d’information
2.4.1 Approches symboliques
2.4.2 Approches statistiques
2.4.2.1 M´ethodes supervis´ees
2.4.2.2 M´ethodes semi-supervis´ees
2.4.2.3 M´ethodes non supervis´ees
2.5 Reconnaissance des entit´es nomm´ees
2.5.1 Pr´esentation du probl`eme
2.5.2 Les approches pour la d´etection des entit´es nomm´ees
2.5.2.1 Utilisation de r`egles
2.5.2.2 Utilisation d’apprentissage statistique
2.6 Cor´ef´erence entre entit´es nomm´ees
2.6.1 Pr´esentation du probl`eme
2.6.2 Les approches pour la r´esolution de cor´ef´erence
2.6.2.1 Utilisation d’approches linguistiques
2.6.2.2 Utilisation d’approches statistiques
2.7 Extraction de relations entre entit´es nomm´ees
2.7.1 Pr´esentation du probl`eme
2.7.2 Les approches pour l’extraction de relations entre entit´es nomm´ees
2.7.2.1 Approches `a base de patrons
2.7.2.2 Approches `a base de classifieurs statistiques
2.8 Construction des templates sur les ´ev´enements
2.8.1 Pr´esentation du probl`eme
2.8.2 Les approches pour la construction de templates
2.9 Notre probl´ematique d’extraction d’information
3 La segmentation des textes en évènements
3.1 Introduction
3.1.1 Qu’est-ce qu’un ´ev´enement ?
3.1.2 Les informations discursives et les ´ev´enements
3.2 Segmentation des textes et extraction d’information
3.3 La segmentation en ´ev´enements `a partir d’indices temporels
3.4 Mod`ele discursif sous-jacent `a la segmentation ´ev´enementielle
3.5 Mod`eles de segmentation ´ev´enementielle
3.5.1 Une segmentation fond´ee sur les temps verbaux: le mod`ele HMM
3.5.2 ´Elargissement des indices temporels: le mod`ele CRF
3.5.3 Mod`ele MaxEnt
3.5.4 Approches heuristiques
3.6 Pr´e-traitement des documents
3.7 ´Evaluation des m´ethodes de segmentation
3.7.1 Les corpus d’´evaluation
3.7.2 ´Evaluation intrins`eque de la segmentation en ´ev´enements
3.7.3 ´Evaluation de la segmentation pour l’extraction d’information
3.8 Conclusions
4 Le rattachement des entit´es aux ´ev´enements
4.1 Introduction
4.1.1 Bases de donn´ees et templates
4.1.2 Les relations complexes
4.2 Graphes d’entit´es nomm´ees
4.3 Application du rattachement `a l’extraction des ´ev´enements
4.3.1 Construction du graphe d’entit´es
4.3.2 S´election des entit´es et remplissage des templates
4.4 Application et ´evaluation de l’approche de rattachement
4.4.1 Construction du graphe d’entit´es
4.4.2 S´election des entit´es et remplissage des templates
4.4.3 Impact de la segmentation sur le rattachement
4.4.4 Analyse d’erreurs
4.5 Conclusions
5 Peuplement de bases de connaissances
5.1 Introduction
5.2 Le peuplement de bases de connaissances
5.3 Lien entre peuplement de KB et question-r´eponse
5.4 Vue d’ensemble de l’approche pour l’extraction de relations
5.4.1 Apprentissage des patrons de relations
5.4.2 Filtrage pour l’apprentissage des patrons de relations
5.4.3 Extraction des relations
5.4.4 Am´elioration par l’utilisation d’un filtrage g´en´erique de relations
5.5 La campagne d’´evaluation TAC-KBP
5.5.1 TAC-KBP 2009 – 2010
5.5.2 TAC-KBP 2011
5.6 ´Evaluation de l’approche dans le cadre de TAC-KBP
5.6.1 Les donn´ees
5.6.2 M´etriques d’´evaluation TAC-KBP 2010
5.6.3 ´Evaluation de l’apprentissage des patrons
5.6.4 ´Evaluation de l’extraction des relations
5.6.4.1 Recherche des phrases candidates
5.6.4.2 Extraction de relations
5.6.5 Vue d’ensemble des r´esultats pour TAC-KBP 2011
5.7 Aper¸cu des syst`emes utilis´es pour TAC-KBP
5.8 Discussion sur les r´esultats de TAC-KBP
5.9 Conclusions
6 Conclusion
6.1 Bilan des r´esultats
6.2 Analyse de notre contribution
6.3 Perspectives
Liste des publications
References
Télécharger le rapport complet