Le médium
Le médium est le support du document. Nous comprenons document au sens d’un objet créé intentionnellement par une entité dans le but d’être interprété par une autre entité. Son support pourra être une image, un son, une vidéo, un texte, etc. Dans ce travail nous nous restreignons naturellement aux documents numérisés car ce sont eux que nous pourrons analyser automatiquement. En ce qui concerne la granularité, nous parlerons de document pour désigner un et un seul texte, même si, de manière générale, un document peut être un ensemble de textes ou une partie d’un texte. Le sens commun de résumé concerne habituellement les documents écrits. Cependant il est possible de résumer d’autres média tels des enregistrements audio [Hori & Furui, 2001, Inoue et al., 2004] ou vidéos (notamment pour les vidéos sportives : football [Ekin et al., 2003], base-ball [Chang et al., 2002], tennis [Coldefy et al., 2004]), ou des images (comme [Carson et al., 2002, Fei-Fei et al., 2003] ou comme étape intermédiaire dans le processus de résumé vidéo). Le principe général reste le même : extraire du document une information jugée importante pour produire un document de plus petite taille. Dans notre approche et dans le reste de ce travail nous nous intéressons uniquement au résumé de textes.
La langue
La plupart des informations utilisées pour produire le résumé (2.3) dépendent de la langue dans laquelle est rédigé le document source. Il est donc généralement nécessaire de se constituer un ensemble de ressources linguistiques pour chaque langue utilisée dans les documents à résumer. Ces ressources peuvent être constituées de marqueurs lexicaux (2.3.1.2), d’informations sur l’importance du positionnement des phrases ou paragraphes dans le texte (2.3.1.3), de fonctions lexicales (2.3.2.1), de concepts organisés sous la forme d’ontologies (2.3.2.2), de règles sur la grammaire de la langue (2.3.3.5), etc. Le résumé multi-langue devient alors possible en fonction de la disponibilité de ces ressources dans les langues choisies.
La taille
La taille du résumé influe grandement sur le contenu informationnel du résultat. Cette taille peut être déterminée par un pourcentage de la taille du texte original ou par une taille fixe. Dans le premier cas, les valeurs classiques s’échelonnent entre 1 % et 30 %, avec une valeur d’environ 10 % pour les résumés d’articles. Dans le cas des résumés multidocuments, la taille ne peut être déterminée à partir d’un pourcentage du texte source, une taille fixe sera alors préférée. Selon les techniques de résumé utilisées dans les différentes approches du domaine, la configuration du paramètre de la taille peut être assez restreinte. Par exemple dans [Knight & Marcu, 2000], un des deux modèles utilise une technique déterministe et non paramétrable de compression de phrases, ce qui aboutit à une unique taille de compression pour un ensemble de phrases donné.
Le résumé par reformulation
Nous appelons résumé par reformulation (ou abstract) un texte de taille plus petite que le document auquel il se réfère, et dont le sens se veut être le plus proche possible de celui du document, sans pour autant utiliser des phrases ou des portions du document initial. Les approches tentant d’aborder le résumé par un tel processus de production comme [McKeown & Radev, 1995, Radev & McKeown, 1998, Aone et al., 1998, McKeown et al., 1999, White et al., 2001, Daumé III et al., 2002] utilisent des structures de données intermédiaires avant la production du résumé, dans lesquelles sont extraites des informations du ou des document source telles les différents événements (section 2.2.6.1) ou les structures de type prédicat – arguments (section 2.2.6.1). Les structures de données une fois nourries par ces informations sont fournies en entrée à des outils de génération de langue (comme FUF/SURGE de [Elhadad & Robin, 1996]) qui génèrent des phrases grammaticalement correctes dans la langue désirée. Les événements Les structures de données utilisées sont généralement des patrons [Radev & McKeown, 1998, White et al., 2001]. Un patron correspond à un type d’événement particulier et contient un ensemble de champs, caractéristiques de l’événement correspondant, chacun nécessitant une valeur extraite du texte. Par exemple, un patron de type catastrophe est présenté en figure 2.1. Ces valeurs sont généralement extraites par des techniques classiques d’extraction d’information, comme celles basées sur l’utilisation des marqueurs lexicaux [Mani & Wilson, 2000]. Une fois le ou les patrons remplis, une phrase peut être assez facilement générée à partir des champs. Pour l’exemple précédent, la phrase suivante pourrait être générée automatiquement : La tornade de la semaine dernière qui a eu lieu en Floride a fait 40 morts et a coûté 100 millions de dollars. Pour chaque type d’événement, un patron différent doit être manuellement créé. Le type des documents analysables par de telles approches restent alors limité par les types de patron créés. Les structures prédicat – arguments Elles sont utilisées pour « représenter les actions par le biais de prédicats et les objets par les arguments des prédicats concernés. Les relations entre un prédicat et ses arguments sont exprimées par le biais de rôles thématiques qui sont assignés aux arguments du prédicat » [Pugeault, 1995]. Sans pousser jusqu’à l’extraction du rôle thématique, l’information de relation entre prédicat et argument peut être utilisée dans le résumé automatique. Par exemple l’approche de [McKeown et al., 1999] consiste à identifier les thèmes (2.3.3.1) principaux d’une série de documents traitant du même événement. Chaque thème est représenté par un ensemble de paragraphes, chacun provenant d’un document différent. Puis des phrases de ces paragraphes sont identifiés les différents prédicats et arguments. Les phrases partageant les mêmes prédicats et arguments vont alors être fusionnées, grâce à FUF/SURGE, moyennant un ajustement des informations pour convenir au format d’entrée de cet outil.
Fréquence des termes
De nombreuses approches, comme [Luhn, 1958, Barzilay & Elhadad, 1997],[Goldstein et al., 2000, Boguraev & Neff, 2000, Lin & Hovy, 2002, Radev et al., 2004], [Erkan & Radev, 2004], utilisent la fréquence des termes comme critère d’importance. La formule la plus utilisée est la propriété tf × idf, définie par Salton [Salton & Yang, 1973], qui exprime qu’un terme est d’autant plus important qu’il est à la fois fréquent dans le document analysé et peu fréquent dans le corpus de documents analysé. Une fois les termes les plus importants déterminés, le résumé consiste généralement à conserver les phrases contenant le plus de ces termes. Cependant certaines approches travaillent à des niveaux de granularité inférieurs à la phrase. Par exemple [Ishikawa et al., 2002] utilise un catégoriseur SVM (Support Vector Machine) pour sélectionner les constituants à conserver pour le résumé final. Le catégoriseur est entraîné sur un corpus de phrases et un ensemble d’attributs extraits des phrases. Ces attributs sont essentiellement de surface : genre de l’article, nombre de phrases dans l’article, position des phrases, présence des conjonctions de coordination, des démonstratifs, fréquence des termes, etc. Les constituants extraits sont ensuite rassemblés dans leur ordre original. Les deux approches suivantes descendent au niveau des mots pour composer le résumé final. [Oka & Ueda, 2001] créent un graphe acyclique orienté à partir du texte source, les sommets sont des mots ou des séquences de mots et les arrêtes des relations entre les mots. Les relations se voient attribuer un score (basé sur le produit tf × idf des mots des sommets de l’arc de cette relation). Un sous-graphe est ensuite extrait, il représente la relation principale du texte. Quelques relations sont incluses dans le graphe afin d’ajouter des détails. Les mots présents dans le sous-graphe résultant sont ensuite mis bout à bout, dans le même ordre que dans le texte source, pour former une phrase résumé. [Wan et al., 2003] se concentrent sur la production de phrases titre. Les auteurs se soucient du contexte dans lequel les mots extraits se trouvent afin de ne pas rassembler des mots hors-contexte. La technique utilisée se base sur la décomposition en valeurs singulières pour tenir compte de la distribution des mots et des phrases afin de regrouper les phrases touchant au même thème. Un apprentissage automatique est préalablement effectué sur un corpus de documents, en se basant sur la correspondance entre les mots utilisés dans le titre du document et ceux utilisés dans le corps du document. Ces trois techniques ne produisent que de courts résumés dont la cohérence grammaticale est mise en cause car la concaténation de constituants ou de mots pris dans le texte a peu de chances d’être grammaticale.
La coréférence
La coréférence est la référence dans une expression au même référent dans une autre expression. Il est bien question d’entités ici aussi, et il est aussi possible de dresser des chaînes appelées chaînes de coréférence utilisées de manière similaire aux chaînes lexicales. Des approches comme [Baldwin & Morton, 1998, Azzam et al., 1999, Harabagiu et al., 2003] utilisent les chaînes de coréférence pour le résumé automatique. Un type de coréférence particulier est l’anaphore. Une anaphore est un « procédé consistant à rappeler un mot ou un groupe de mots précédemment énoncé par un terme grammatical » [TLF2007]. Ce groupe de mots désigne une entité. Si cette entité vient à être supprimée du document, ses référents (les termes grammaticaux) perdent leur sens et une incohérence sémantique profonde est engendrée. La résolution des anaphores a pour but de lier les entités à leur(s) référent(s), afin de mettre en place un système visant à éviter ce genre de problème. On pourra par exemple empêcher la suppression de l’entité référée, ou alors la supprimer avec ses référents, ou encore la supprimer et remplacer ses référents par l’entité même.
Structure rhétorique
Elle est déterminée par les relations rhétoriques présentes au sein du document. Ces relations sont étudiées par les auteurs de [Mann & Thompson, 1987] qui proposent une théorie, la Rhetorical Structure Theory (RST), dans laquelle ils élaborent une typologie précise des relations, basée sur un modèle en termes de noyau et de satellite, et sur la spécification des interactions que ces relations établissent entre les éléments en présence. Leur étude ouvre la voie à une étude computationnelle des relations rhétoriques. Cette « RST propose une explication de la cohérence des textes15. [. . . ] Le but de la RST est de décrire les textes, plutôt que les processus qui sous-tendent leur création et leur interprétation. Elle postule un ensemble de possibilités de structures — divers types de « blocs de construction » — dont on peut observer les occurrences dans les textes. Ces « blocs » se situent à deux niveaux, le principal ayant trait à la « nucléarité » et aux « relations » (souvent appelées relations de cohérence dans la littérature linguistique). » Nous ne présentons pas ici le second niveau de structures, les schémas, car ils ne sont pas utilisés en résumé automatique. Le noyau d’une relation étant par définition plus important que le satellite, une technique de résumé peut consister à conserver uniquement les noyaux dans le document cible. La principale difficulté est de déterminer correctement la structure rhétorique (SR). La principale approche visant cet objectif est celle de [Marcu, 1998], dans laquelle l’auteur utilise une combinaison d’heuristiques standard pour aider au choix de la bonne SR du texte source, au niveau inter-phrase et intra-phrase. Les sept métriques suivantes sont utilisées :
– groupement par thème : pour deux nœuds frères de l’arbre de la SR, leurs feuilles doivent correspondre au mieux avec les frontières de changement de thèmes ;
– utilisation des marqueurs : si des marqueurs sont présents dans le texte source, la SR doit les vérifier au mieux ;
– groupement rhétorique par thème : identique à la première métrique si ce n’est que la comparaison se fait avec les noyaux des relations et non les feuilles ;
– poids des branches situées à droite : sont préférés les arbres dont les branches droites sont plus importantes, car ce sont habituellement ces branches qui contiennent les ajouts de l’auteur (moins importants et donc supprimables) ;
– similarité avec le titre : sont préférés les arbres dont les unités saillantes (noyaux) sont les plus similaires au titre du texte ;
– position des phrases : les phrases en début ou fin de paragraphe/document sont habituellement considérées comme plus importantes ; une mesure de similarité, du même type que pour la métrique précédente, est alors effectuée ;
– connexion des entités : l’information sur les relations entre les mots est prise en compte, par exemple avec les chaînes lexicales. Selon le poids de chaque métrique utilisée dans l’heuristique, le traitement est plus efficace pour différents genres de documents, ce qui tend à renforcer l’idée qu’un corpus ayant un genre donné, comme unité d’évaluation n’est pas discriminant. L’auteur n’est pas parvenu à trouver une solution fonctionnant pour tout genre de texte. Il aurait pu se préoccuper de rechercher des intervalles de valeurs pour calibrer son système, mais il n’a malheureusement pas poussé la discussion jusque là. Une fois la SR déterminée, un ordre partiel entre les différents satellites est établi, les satellites plus proches de la racine se voient attribuer une importance plus grande. Les satellites sont ensuite supprimés, des moins importants aux plus importants selon la taille du résumé désirée. La cohérence est assez bien conservée dans les cas où l’analyse de la SR est correcte, cependant cet objectif n’est que très partiellement atteint. Une relation rhétorique peut aussi bien lier des constituants, que des phrases ou des paragraphes. Les deux dernières relations que nous allons maintenant aborder se situent exclusivement à l’échelle des constituants.
Les modèles de résumé automatique des logiciels commerciaux
Avant de terminer ce chapitre, nous présentons maintenant un rapide aperçu de quelques solutions commerciales de résumé automatique. Comme nous avons pu le voir dans les précédentes sections, la qualité des résumés automatiques produits à l’heure actuelle ne peut satisfaire à tout type d’application. Par exemple, obtenir des résumés par reformulation est quasiment innaccessible aujourd’hui, ou encore conserver la cohérence des différentes structures du texte n’est pas toujours réalisable. Les logiciels commerciaux doivent proposer des solutions robustes afin de justifier leur prix d’achat, ils ne peuvent alors s’autoriser à s’aventurer dans des techniques peu fiables. Ainsi, tous les résumeurs automatiques commerciaux pour lesquels nous avons pu obtenir des informations sur leur fonctionnement se cantonnent au résumé par extraction de phrases, évitant alors toute reformulation et toute modification de phrase.
La compression syntaxique de phrases
Compresser des phrases en supprimant des constituants revient à élaguer l’arbre syntagmatique des phrases, car les nœuds internes de ce dernier sont des constituants. D’autres types de compression syntaxique peuvent théoriquement exister, considérant d’autres opérations sur l’arbre syntagmatique, comme la fusion de branches par exemple. De telles approches peuvent être complémentaires à celles qui élaguent l’arbre syntagmatique, mais elles ne font pas l’objet de notre travail. Il est maintenant question de compression syntaxique, car basée sur une structure syntaxique. La granularité du constituant, comme unité syntaxique, étant la plus répandue,nous généralisons notre définition de compression syntaxique au principe de suppression de constituants, vérifiant aussi la définition 3.2, et la définissons ainsi :
Définition 3.3 Une phrase P0 est une compression syntaxique d’une phrase P si l’arbre syntagmatique de P0 est un arbre de même racine et un sous-graphe de l’arbre syntagmatique de P. Conserver la même racine permet de conserver le cœur de la phrase, c’est-à-dire le couple sujet – prédicat, lesquels se placent en fils directs de la racine et sont indispensables à la cohérence syntaxique. Cette nouvelle définition n’autorise plus que la suppression de constituants, plutôt que de mots, augmentant alors les chances de produire des phrases syntaxiquement cohérentes. Cependant, la cohérence grammaticale n’est pas toujours garantie par cette contrainte de granularité dans la phrase. Par exemple si dans la phrase Jean envoie une lettre à Marie sont effacés les deux compléments du verbe, qui sont bien des constituants, alors la phrase devient agrammaticale. Les approches actuelles en compression syntaxique de phrases ont pour base commune la définition 3.3. Les différences se situent alors sur les méthodes de choix des constituants à supprimer.
|
Table des matières
Table des figures
Liste des tableaux
1 Introduction
1.1 Problématique
1.2 Contributions de cette thèse
Un modèle computationnel compatible avec le résumé par compression syntaxique
Un logiciel semi-automatique et automatique de compressions de phrases
Un protocole d’évaluation adapté à la compression semiautomatique et automatique de phrases
1.3 Organisation de la thèse
2 Le résumé automatique de textes : panorama du domaine et état de l’art
2.1 Introduction
2.2 La diversité des résumés
2.2.1 La source
2.2.1.1 Le médium
2.2.1.2 Le nombre de documents sources
2.2.1.3 La langue
2.2.1.4 Le domaine
2.2.1.5 Le genre
2.2.2 La cible
2.2.2.1 Le thème
2.2.2.2 Les événements
2.2.2.3 Période temporelle ou spatiale
2.2.2.4 Le style
2.2.2.5 La taille
2.2.2.6 Les éléments saillants
2.2.3 La granularité des segments textuels analysés
2.2.4 Le type d’information analysée
2.2.5 La profondeur d’analyse
2.2.6 Le processus de production
2.2.6.1 Le résumé par reformulation
2.2.6.2 Le résumé par extraction
2.3 Les informations extraites pour la production du résumé
2.3.1 Analyse en surface
2.3.1.1 Fréquence des termes
2.3.1.2 Marqueurs lexicaux de segments textuels
2.3.1.3 Position de segments textuels dans le texte
2.3.1.4 Nature des constituants
2.3.2 Analyse des entités nommées
2.3.2.1 La similarité lexicale
2.3.2.2 La similarité thématique
2.3.2.3 La coréférence
2.3.3 Analyse de la structure du texte et de la phrase
2.3.3.1 Structure thématique
2.3.3.2 Structure événementielle
2.3.3.3 Structure rhétorique
2.3.3.4 Structure des rôles thématiques des phrases
2.3.3.5 Structure syntaxique des phrases
2.4 Les modèles de résumé automatique des logiciels commerciaux
2.5 Conclusion
3 La compression de phrases par élagage de l’arbre syntagmatique
3.1 Introduction
3.1.1 La compression de phrases
3.1.2 La compression syntaxique de phrases
3.1.3 Nos objectifs
3.1.4 Notre compression syntaxique de phrase
3.2 Une classification des éléments effaçables
3.2.1 Le gouvernement syntaxique
3.2.1.1 Tête gouvernante et constituant gouverné
3.2.2 La classification des éléments effaçables
3.2.2.1 Le spécifieur
3.2.2.2 Le complément
L’argument
Le complément dans le T LF i
Le complément dans le Bescherelle
3.2.2.3 L’adjoint
3.2.2.4 L’adverbe et le pronom en tant que têtes syntaxiques
L’adverbe en tant que tête
Le pronom en tant que tête
3.2.2.5 Les constituants gouvernés par I0
Spécifieur et compléments de I0
Adjoints de I0
3.2.2.6 Le modifieur
3.2.2.7 Notre classification
Le modifieur
Le complément
Les autres têtes lexicales
Le système de règles structurelles adapté
Récapitulatif
Illustration de notre compression basée sur les modifieurs et compléments
Conclusion
3.3 Exploitation de traits linguistiques dans notre compression de phrases
3.3.1 Exploitation de la sous-catégorisation
3.3.1.1 Des grammaires universelles aux ressources lexicales
3.3.1.2 La sous-catégorisation dans le Lefff
3.3.1.3 Les compléments obligatoires dans le Lefff
Informations de sous-catégorisation partielles
3.3.2 Les fonctions lexicales
3.3.3 Les autres traits linguistiques exploitables
3.3.3.1 Les phrasèmes complets
3.3.3.2 L’article
3.3.3.3 Les éléments incidents
3.3.3.4 Le modifieur du nom détaché
3.3.3.5 La position des constituants dans la phrase
3.3.3.6 La négation et l’interrogation
3.4 Esquisse d’un modèle computationnel
3.4.1 Nos objets linguistiques
3.4.2 Notre algorithme de compression syntaxique
3.5 L’influence du genre de texte sur l’importance des modifieurs et compléments
3.6 Les limites de la localisation du contenu important
3.7 Conclusion
4 Conception du compresseur de phrases
4.1 Introduction
4.2 Architecture
4.2.1 Première étape : analyse syntaxique
4.2.2 Seconde étape : sélection des constituants
4.2.3 Troisième étape : compression de phrases
4.3 Analyse syntaxique
4.3.1 SYGMART : un outil de manipulation d’éléments structurés
4.3.1.1 Caractéristiques du modèle d’analyse syntaxique de SYGFRAN
4.3.1.2 OPALE : le module de décomposition morphologique
4.3.1.3 TELESI : le module de transformation d’éléments structurés
Exemple de rendu
Le réseau de grammaires
Exemple de grammaire TELESI
4.3.1.4 AGATE : le module de linéarisation d’éléments structurés
4.3.2 SYGFRAN : l’analyseur syntaxique
4.3.2.1 La grammaire de SYGFRAN
L’attachement des compléments
L’attachement des modifieurs
Les variables syntaxiques
4.3.2.2 La couverture syntaxique de SYGFRAN
Syntaxe ambiguë
Analyse partielle
4.3.2.3 Caractéristiques techniques de SYGFRAN
Modèle d’analyse syntaxique
Volume d’informations
Complexité de l’analyse
Pourcentage de couverture syntaxique
4.4 Le compresseur de phrases COLIN
4.4.1 Les règles de compression de COLIN
4.4.1.1 Grammaires de post-traitement à SYGMART
Choix arbitraires
Corrections de l’analyse
Construction syntaxique des verbes
Gestion des formes contractées et composées
4.4.1.2 Grammaires de résolution des anaphores
4.4.1.3 Grammaires de sélection des constituants
Définition des modifieurs et compléments
Sélection des modifieurs et compléments
Verrous sur l’effacement
4.4.1.4 Grammaires de préparation à la linéarisation
Délimitation des constituants
Encadrement des constituants
Aplatissement de l’arbre
4.4.1.5 Grammaire de linéarisation
4.4.2 Interface Web de COLIN
4.4.2.1 L’interaction dans le résumé automatique
4.4.2.2 L’interaction dans COLIN
La sélection des constituants
Des couleurs pour l’importance
L’inclusion des constituants
Exemple de capture d’écran de l’interface de COLIN
Le fonctionnement technique de l’interface Web de COLIN
4.5 Conclusion
5 Évaluation de notre approche sur la compression syntaxique des phrases
5.1 Introduction
5.2 L’évaluation de résumés
5.2.1 Évaluation automatique
5.2.1.1 ROUGE
5.2.2 Évaluation manuelle
5.3 Protocole d’évaluation de COLIN
5.3.1 Protocole d’évaluation de l’aide apportée par l’interaction dans COLIN
5.3.2 Protocole d’évaluation de la qualité des compressions produites par COLIN
5.3.2.1 Constitution d’un corpus de documents adéquat pour l’évaluation
La cohérence discursive
Le genre des textes
La taille des textes
5.3.2.2 La notation des compressions
Les types de compression
La présentation des compressions à noter
La notation du contenu et de la cohérence
5.3.3 Le système d’évaluation
5.3.3.1 Le système informatique
5.3.3.2 Les étapes de l’évaluation
Première étape : compression des documents
Seconde étape : notation des paragraphes compressés
Captures d’écran
5.4 L’expérimentation
5.4.1 Le corpus de l’évaluation
5.4.1.1 Présentation
5.4.1.2 Prétraitement à l’évaluation
Intégration des cas syntaxiques des phrases du corpus
Étiquetage morphologique du corpus
Balises de sous-analyse syntaxique
Règles transformationnelles ad hoc
5.4.2 Résultats, discussion et bilan
5.4.2.1 Participation
Utilisateurs
Compressions
Notations
Compressions et notations individuelles
5.4.2.2 Résultats
Le temps de compression
Satisfaction de l’interaction avec COLIN
Le taux de compressio
La notation des compressions
Nature des mauvaises notes
5.4.2.3 Bilan
5.5 Conclusion
6 Conclusion et perspectives
6.1 Synthèse
6.2 Perspectives
6.2.1 Traitement automatique de la sous-catégorisation
6.2.2 Apprentissage sur l’interaction
6.2.3 La compression de phrases dans le résumé automatique
Les marqueurs lexicaux des fonctions rhétoriques
Le thème comme critère d’importance des constituants et phrases
Index
A Glossaire
A.1 Sigles et acronymes
A.2 Catégories des têtes lexicales et fonctionnelles de l’approche théorique
A.3 Variables de SYGFRAN et COLIN
A.4 Valeurs de SYGFRAN et COLIN
B Extraits des corpus exploités au cours de la thèse
B.1 Conte polynésien correctement analysé par SYGFRAN
B.2 Extraits du corpus d’évaluation
B.2.1 Premier document narratif, Vingt mille lieues sous les mers de Jules Verne, extrait du premier chapitre
B.2.2 Premier document scientifique, extrait du corpus de la conférence DEFT’06
B.2.3 Premier document journalistique, extrait d’un article publié sur le site internet le 27 février 2007, intitulé « Darfour : la Cour pénale internationale désigne les criminels de guerre »
C Règles SYGMART
Bibliographie
Télécharger le rapport complet