La société de l’information dans laquelle nous vivons a fait des documents sous forme électronique et de la maîtrise de l’information qu’ils contiennent un enjeu majeur dans des secteurs aussi variés que la politique, l’économie, la culture, la défense… Toutefois, l’accès à cette information est rendu malaisé par deux facteurs. D’abord, ces documents électroniques sont actuellement si nombreux qu’aucun humain ne peut en avoir une idée claire, et encore moins en maîtriser le contenu – d’autant plus que le volume des textes continue d’augmenter de plus en plus vite. Ensuite, l’absence presque généralisée d’organisation au sein de cette profusion de textes ne facilite pas l’accès à une information précise.
Le domaine de la gestion de l’information textuelle, qui se penche précisément sur cette problématique, tente d’y remédier par des approches automatiques. Les différentes disciplines qui le composent se consacrent donc à élaborer des stratégies permettant de repérer la présence d’un ou plusieurs éléments d’information à l’intérieur de textes. Les disciplines les plus représentatives – car elles sont également les plus exigeantes – sont celles de question-réponse et d’extraction d’information. Toutes deux cherchent en effet l’identification précise d’une information dans les textes, soit parce qu’elle répond à une question posée, soit parce qu’elle correspond à un type informationnel prédéfini. La détermination précise de l’information recherchée constitue la grande difficulté de ces tâches.
Du fait de la grande activité du domaine, les méthodes mises en œuvre dans ce cadre sont multiples. Toutefois, les systèmes existants ont en commun une approche centrée sur l’étude de la nature de l’information désirée, c’est-à-dire la question en question-réponse et le type informationnel en extraction d’information. Ils effectuent ensuite une comparaison de cette information avec le contenu des textes, puis un calcul de distance entre information désirée et information obtenue. De ce fait, l’examen des documents est secondaire. D’autre part, la supériorité des systèmes qui intègrent les éléments d’analyse linguistique les plus complexes a été constatée (Ferret et al., 2002a). Cependant, aucune approche n’a poussé le raisonnement jusqu’à se fonder entièrement sur des outils linguistiques.
Le problème de la gestion de l’information
Notre thème de recherche a pour objet d’élaborer une méthode de construction de structure informationnelle à partir d’une base documentaire. Cette structure doit être capable de fournir un accès à la réponse d’une question posée relative au contenu des documents. De nombreuses recherches ont été menées depuis les débuts du traitement automatique des documents qui poursuivent un objectif semblable : trouver une information précise dans des textes. Notamment, les techniques d’extraction d’information et de question-réponse appartiennent aux deux disciplines les plus exigeantes en ce qui concerne l’identification de l’information recherchée.
Malgré leurs spécificités, ces deux disciplines possèdent en commun différentes caractéristiques. Premièrement, toutes deux cherchent à identifier l’information recherchée grâce à des répertoires – préalablement constitués ou non – capables de repérer toutes les formes sous lesquelles l’information recherchée peut se présenter. L’extraction d’information constitue donc des ensembles de patrons ou de cadres capables de retrouver un type informationnel sous un très grand nombre d’aspects. De leur côté, les approches de question-réponse travaillent en expansion de la requête proposée et fournissent pour les données qui s’y trouvent un maximum d’actualisations différentes.
Analyser un texte pour en extraire l’information
Un bref historique
C’est après la seconde guerre mondiale et plus précisément avec l’accroissement des tensions Est-Ouest que les systèmes d’extraction automatique d’information ont fait leur apparition. Les militaires désiraient en effet collecter un maximum d’informations géopolitiques dans les documents publics ou secrets qu’ils avaient à leur disposition, mais dont la masse ne permettait pas une lecture humaine complète. La fin de la guerre froide puis la chute du bloc communiste a mis fin à cette mainmise militaire sur le domaine de l’extraction d’information, avec l’organisation, dès 1987, de la conférence MUC (Message Understanding Conference).
Cette conférence, dont le thème est la compréhension automatique de textes et l’extraction de leur information, a progressivement créé un consensus sur la définition de ces domaines (Appelt, 1999). Elle a formellement défini la notion d’extraction d’information et sert actuellement de référence dans cette matière. Les publications qui lui sont attachées constituent l’état de la recherche du domaine. Elle est organisée selon le principe de la compétition entre les systèmes participants qui doivent donc se plier à ses critères de travail et d’évaluation (Chinchor, 1992). Notamment, il s’agit de présenter un système dont le résultat soit une structure hiérarchique d’attributs-valeurs couramment appelée formulaire (template) et d’accepter l’évaluation et la publication des résultats dudit système. Cette évaluation s’effectue sur la base de corpus de taille moyenne pour obtenir les formulaires de référence à l’idéal. Ces textes sont au nombre de 1 300, contenant environ 400 000 mots pour un vocabulaire de 18 000 mots. Les textes contiennent 12 phrases composées en moyenne de 27 mots (Chinchor et al., 1994).
Des diverses applications présentées pour concourir, les conférences MUC successives ont dégagé différentes tâches générales vers lesquelles ces systèmes tendaient. En fonction de leur objectif – la plupart de ces systèmes ne traitent pas l’intégralité des tâches recensées par MUC –, les systèmes sont évalués en fonction de leur capacité à résoudre ces tâches :
• Reconnaissance d’entités nommées. Relevé des noms propres et identification de l’entité qu’ils recouvrent à l’intérieur du texte (personnes, sociétés, lieux…).
• Construction de formulaires élémentaires. L’identification des entités nommées peut ne pas suffire. En effet, il y a des cas où la même entité peut se présenter sous plusieurs formes différentes, qu’il faut identifier l’une à l’autre, ou inversement deux entités distinctes peuvent être désignées de la même manière, et il s’agit alors de distinguer ces individus (Joconde, Mona Lisa). Certains attributs peuvent être pris en compte (titre, nationalité…).
• Mise en relation des formulaires. Construction de relations entre les éléments des formulaires identifiés lors de la construction de formulaires élémentaires (par exemple une relation invention entre un chercheur et sa découverte). Il s’agit d’une tâche capitale en extraction d’information mais elle ne peut être entièrement réalisée car le nombre de relations entre les différents éléments du monde est infini.
• Traitement de la coréférence. Identification des expressions faisant référence à une même entité et mise en rapport de ces expressions équivalentes.
• Élaboration d’un scénario global. Mise en commun des éléments d’information collectés précédemment en une seule structure, le formulaire (événement, entité, relation, attribut…).
Approches visant les documents structurés et semi-structurés
On pourrait s’étonner de notre intérêt pour les approches des textes structurés ou semi-structurés. En effet, nous travaillons sur une encyclopédie dont le texte est libre. Toutefois, puisqu’une certaine quantité d’information est balisée – et donc partiellement structurée – et identifiée selon une définition de type de document (Document Type Definition, DTD) XML, il nous a semblé pertinent de ne pas rejeter a priori les méthodes qui permettent de traiter le texte structuré.
L’analyse des pages web par WrapperInduction
Avec Wrapper Induction (Kushmerick et al.,1997), nous nous intéressons à un système d’extraction d’information destiné à traiter des données structurées dans des tableaux et à en identifier les éléments en conservant leur cohérence avec les autres composants d’un même tableau. Ce système est typiquement voué à gérer des pages Web. De ce fait, son domaine d’application peut s’ouvrir à une extraction combinée autant qu’à une extraction simple, pour autant que les textes qui lui sont présentés soient résolument structurés. Ce système repose sur l’utilisation de wrappers, c’est-à-dire de procédures logicielles spécifiques à un type de structure de ressource informationnelle, et qui traduisent la réponse à une requête donnée en un nouveau canevas d’information simple ou combinée selon la structure de base du document et le sujet de l’information sélectionné. Ce canevas identifie et, le cas échéant, combine les différents éléments d’une information de sujet prédéterminé.
Toutefois les wrappers sont généralement construits manuellement. L’originalité de Kushmerick et al. (1997) réside donc dans la proposition d’une méthode inductive qui permet d’apprendre automatiquement l’organisation de documents dont l’information, combinée ou non, a été préalablement étiquetée. De la sorte, une information pourra être extraite de documents présentant une information de même nature et une structure de même type que celles des documents qui ont servi à générer le wrapper.
Ces wrappersreposent sur la génération de règlesHLRT (pourHead Left Right Tail), dont le principe consiste à identifier les bornes gauche et droite de chaque élément d’information. La détermination de la structure d’en-tête et de fin de page permet en outre de ne pas limiter le nombre des canevas informatifs dans la page. En effet, aussi longtemps que la structure de fin de page n’est pas détectée, un canevas informationnel complet est susceptible d’être suivi par un autre, délimité lui aussi par les mêmes bornes.
|
Table des matières
Résumé
Abstract
Remerciements
Indications typographiques
Introduction
1. Gestion de l’information
2. Les outils d’analyse textuelle
3. Les ressources lexico-sémantiques
4. Ajustement des dictionnaires
5. Enrichissement des documents
6. Interrogation des documents
7. Évaluation de la méthode
Conclusion
Annexes
A. Méthode de stockage de l’information
B. Typologie des questions de TREC-8
C. Résultats de l’interrogation
Index
Glossaire
Bibliographie
Télécharger le rapport complet