Résumer un texte consiste à réduire ce texte en un nombre limité de mots. Le texte ainsi réduit doit rester fidèle aux informations et idées du texte original, et dans la mesure du possible rendre compte du style et de l’intention de l’auteur. Cette discipline, quoique très ancienne, est mal formalisée. Le processus de résumé est en effet dépendant à la fois du type de texte à résumer et de l’utilisation qui en sera faite. Ainsi, un résumé de type rapport d’activités sera dans la forme comme dans le fond radicalement différent d’un résumé d’une oeuvre littéraire, d’un résumé d’ouvrage scientifique, d’un résumé de dépêches ou d’une revue de presse.
Les premiers systèmes de résumé automatique étaient dédiés au résumé mono document. Cependant, l’explosion de la masse documentaire disponible en ligne et la numérisation de tous types de documents ont conduit les acteurs du TAL à se pencher sur la problématique du résumé multi-documents, c’est-à-dire du résumé des informations contenues dans plusieurs documents. Celui-ci peut en effet être vu comme une couche entre des systèmes de recherche d’information qui renvoient à un utilisateur les documents les plus pertinents par rapport à sa requête, et la prise de connaissance par l’utilisateur des informations contenues dans ces documents. Dans le cadre de tâches comme la veille d’information, la lecture de multiples documents peut se révéler fastidieuse. Un bon système de résumé automatique multi-documents est alors une aide précieuse pour des analystes en quête d’efficacité. La campagne d’évaluation de « Text Analysis Conference » organisée par le « National Institute of Science and Technology » témoigne de l’intérêt porté au résumé automatique multi-documents.
Malgré le nombre conséquent de travaux sur le domaine et de campagnes d’évaluation telles que TAC, soutenue par le gouvernement américain, résumer au mieux un ou plusieurs textes automatiquement reste un problème ouvert. Synthétiser plusieurs documents donne plus d’importance à un aspect linguistique : la redondance. Une même information aura une probabilité plus élevée d’être énoncée à plusieurs reprises dans plusieurs documents traitant d’un même sujet, que dans un document unique. Cela engendre un risque plus important de sélectionner deux informations identiques pour les intégrer à un résumé automatique, mais permet également d’identifier les informations les plus importantes, celles-ci faisant l’objet de reprises dans les documents à synthétiser. Ce constat a fait naître une série d’approches qui tentent de modéliser au mieux le phénomène, mais n’apportent selon nous que des solutions partielles. Si certaines d’entre elles détectent la redondance et s’en servent à des fins de sélection d’information tout en éliminant le risque de voir apparaître les mêmes éléments plusieurs fois au sein du résumé (par exemple Barzilay et McKeown (2005)), elles sont dépendantes de traitements linguistiques poussés qui en réduisent la portée applicative.
Ces domaines suscitent un intérêt particulier de la part des industriels. Le premier leur permet de suivre via le résumé de ressources ouvertes en ligne, telles que les blogs ou les forums, les opinions des participants à ces ressources vis-à-vis de leur produit ou de leur image. Le second, étudié depuis les débuts du résumé automatique (Edmundson, 1969), aide les veilleurs d’information à se tenir au courant des dernières informations concernant un sujet précis, ou à obtenir une synthèse des différents événements de la journée. Le troisième s’adresse aux industriels disposant de masses de données textuelles trop importantes pour en prendre connaissance rapidement, et propose des solutions de visualisation des informations et d’accès au contenu.
Le résumé indicatif d’un document est une présentation abrégée d’un document dans laquelle doivent figurer le ou les thèmes de ce document. Il doit également indiquer la structure du texte, sans détailler l’argumentation. La norme française NF Z 44-004 définit le résumé indicatif comme « un mode de description externe […] à utiliser essentiellement pour des textes […] trop détaillés pour permettre la rédaction d’un résumé informatif, par exemple : articles monographiques, synthèse bibliographique. Le résumé indicatif renseigne le lecteur sur les thèmes étudiés. Il s’apparente à une table des matières. Il peut cependant s’enrichir de parties informatives mettant en évidence des éléments significatifs. »(Normes françaises, 1984).
D’après (Aït El Mekki et Nazarenko, 2004), l’index de fin de livre, outil traditionnel d’accès à l’information, s’apparente aux résumés indicatifs.
Toujours selon la norme française NF Z 44-004, le résumé informatif est une « représentation abrégée du document, renseignant sur les informations quantitatives ou qualitatives apportées par l’auteur. Ce résumé doit constituer un texte autonome d’une logique rigoureuse. Il forme avec le titre du document un ensemble qui, en principe, ne doit pas être redondant. Les informations retenues pour le résumé sont généralement présentées selon leur ordre d’apparition dans le document. Cet ordre facilite l’exploitation du résumé par le lecteur habitué au plan des articles publiés dans sa spécialité. Généralement, les documents scientifiques et techniques exposent séquentiellement le but de l’étude dans l’introduction, le matériel et les méthodes utilisées, les résultats obtenus, une discussion ou une conclusion évaluant la signification et la pertinence de l’apport. Cependant, en ne négligeant aucune phase du cheminement, les diverses parties du document pourront figurer de façon inégale dans le résumé en fonction de l’importance ou de la nouveauté de l’information. »(Normes françaises, 1984).
Le résumé synthétique constitue une synthèse de différents documents. Celui-ci existe sous plusieurs formes : résumé critique comme notamment les états de l’art, résumé informatif où l’on cherchera à extraire les informations principales réparties dans plusieurs documents…
La synthèse est le type de résumé traité dans cette thèse. Nous nous intéressons en effet ici au résumé multi-documents, qui peut s’apparenter à la définition de la synthèse selon le TLF (Trésor de la Langue Française) : « Opération consistant à rassembler des éléments de connaissance sur un sujet, une discipline et à donner une vue générale, une idée d’ensemble de ce sujet ».
L’extrait est une forme particulière de résumé. Il consiste non pas en une reformulation d’un ou plusieurs textes d’origine, mais en une compilation de morceaux extraits des textes d’origine. Les revues de presse sont une sorte de résumé par extraction. Le résumé par extraction n’est pas courant pour ce qui concerne les résumés construits manuellement. C’est en revanche un procédé largement utilisé dans les systèmes de résumé automatique (Mani et Maybury, 1999).
|
Table des matières
Introduction
Problématique
Apports
Plan de thèse
1. État de l’art du résumé automatique
1.1. Types de résumés visés dans la thèse
1.1.1. Le résumé indicatif
1.1.2. Le résumé informatif
1.1.3. Le résumé synthétique
1.1.4. L’Extrait
1.2. Domaines d’application et enjeux du résumé automatique
1.3. Méthodes d’analyse de surface
1.4. Résumé et apprentissage
1.5. Minimiser la redondance tout en maximisant la pertinence
1.6. Méthodes à base de graphe
1.7. Résumé automatique et structure rhétorique
1.8. Extraction et fusion d’information
1.9. Post-traitements
1.9.1. Compression de phrases
1.9.2. Réordonnancement
1.10. Conclusion
2. L’Evaluation de résumés informatifs
2.1. ROUGE
2.1.1. ROUGE-n
2.1.2. ROUGE-L
2.1.3. ROUGE-SUn
2.2. BE-HM
2.3. Evaluation de résumés et théorie de l’information
2.4. La méthode Pyramide
2.5. Évaluation de la forme
2.6. Conclusion
Conclusion
Télécharger le rapport complet