Intégration de la similarité sémantique pour le RA 

Télécharger le fichier pdf d’un mémoire de fin d’études

Les types des résumés automatiques

Les résumés automatiques et leurs méthodes peuvent être catégorisés selon différents critères Nenkova and McKeown (2012). Nous citons les plus importants et les plus utilisés dans la littérature.

Résumé générique et résumé orienté

Un résumé de texte est soit générique, soit orienté. Le résumé générique est produit en se référant uniquement au contenu du texte source, indépendamment de son contexte. En revanche, le résumé orienté est guidé par une tâche ou une requête. Dans ce cas, seule l’information en relation avec la tâche ou la requête est sélectionnée. Ce type de résumé dépend donc fortement du contexte. Ce dernier peut être défini comme un ensemble de facteurs d’entrée du système de résumé automatique (Spärck Jones, 2007). Il couvre l’audience, l’usage, le cadre spatio2.2.
Les types des résumés automatiques 9 temporel, etc.

Résumé indicatif et résumé informatif

Un résumé est soit informatif, soit indicatif. Le résumé informatif est un modèle rétréci du texte d’origine relatant le plus largement possible les informations du document. En revanche, un résumé indicatif liste les sujets les plus importants évoqués par le texte. Certains systèmes de résumés guidés (Saggion and Lapalme, 2002) génèrent un résumé indicatif du texte comme étape initiale. L’utilisateur choisit parmi les sujets proposés par le résumé ceux qui l’intéressent. Le système produit alors un résumé informatif du texte guidé par la requête de l’utilisateur.
La requête dans ce cas est l’ensemble des sujets sélectionnés à partir du résumé indicatif.

Portée du résumé

Les systèmes de résumé automatique peuvent être mono-document ou multidocument.
Les premiers produisent des résumés pour un seul document et peuvent être plus ou moins adaptés à des tailles différentes de documents : résumer un article ne pose pas tout à fait le même problème que résumer un rapport scientifique.
Le système CHORAL (García Flores et al., 2009) fondé sur l’analyseur linguistique LIMA (de Chalendar, 2014) se distingue ainsi par son efficacité sur les documents longs. Il produit des résumés de 1 à 5 pages pour un rapport de thèse. Les systèmes de résumé multi-document, plus récents, génèrent des résumés de taille ajustable d’un ensemble de documents.

Résumé abstractif et résumé extractif

Nous distinguons les méthodes extractives (Dalal and Malik, 2013) des méthodes abstractives (Genest and Lapalme, 2012). Le résumé extractif est formé de segments de texte extraits du texte source. Ces segments peuvent être des phrases, des propositions ou n’importe quelle unité textuelle. Les premiers travaux en résumé automatique se sont appuyés sur cette approche (Luhn, 1958) en exploitant la fréquence des mots. Les critères de sélection ont ensuite été enrichis en tenant compte du contenu et de la structure du texte (Edmundson, 1969) (cf. section 4.1). Ces méthodes ont été, initialement, les plus exploitées parce qu’elles évitent le problème de la génération de texte, toujours considéré comme une tâche complexe. Bien que le résumé extractif peut manquer de cohérence, il est grammaticalement correct d’où sa lisibilité par rapport aux approches par génération. Les méthodes abstractives ont été inspirées, à l’origine, des travaux en psycholinguistique cognitive et en intelligence artificielle, notamment du modèle théorique de la compréhension de van Dijk et Kintsch (Kintsch and van Dijk, 1978). Ce dernier considère le résumé d’un texte comme le produit de sa compréhension. Celle-ci est modélisée par la mise en relation sémantique des composants du texte dans une structure adaptée (par exemple un graphe de cohérence). Un résumé abstractif est le produit de la synthèse de la représentation sémantique du texte source avec des phrases générées automatiquement. Ces méthodes n’ont pas été très largement exploitées. Ceci peut être dû à la rareté des outils de génération de texte et à leur performance modeste. La majorité des travaux s’étant intéressés aux méthodes extractives, ces dernières ont connu un développement important, favorisé par des prérequis peu exigeants. Cependant, les méthodes neuronales récentes de type sequence-to-sequence (Sutskever et al., 2014) ont montré leur intérêt dans le domaine du TAL et particulièrement pour la traduction automatique (Cho et al., 2014). Ces approches ont aussi marqué un changement important dans le RA. En effet, elles ont prouvé qu’il est possible, dans une certaine mesure, de générer des résumés sans passer par une étape de compréhension profonde. Simultanément, des interrogations sur les performances maximales des techniques extractives ont été soulevés. Des travaux récents se sont intéressés à vérifier s’il existe encore une marge d’amélioration dans le paradigme du résumé extractif pour s’assurer de l’utilité des travaux en cours sur cet aspect (Schluter, 2017, Hirao et al., 2017).
L’approche consiste à générer des résumés oracle en extrayant les phrases maximisant le score d’évaluation. Des méthodes dites greedy 1 ont été utilisées ainsi que des méthodes d’optimisation globale. Dans les deux cas, il a été prouvé que les systèmes extractifs actuels sont relativement loin de la limite supérieure atteignable.
Par conséquent, contrairement à ce qui peut être pensé, la problématique du résumé par extraction n’est pas encore résolue.

Les méthodes du résumé par abstraction

Bien que nous nous intéressions surtout aux systèmes de résumé extractifs, les systèmes abstractifs partagent avec le résumé dynamique une certaine forme de modélisation du contenu des documents, même si les critères d’extraction dans le cas dynamique sont généralement sémantiquement moins profonds. Les méthodes de résumé abstractives imitent, jusqu’à un certain degré, le processus naturel accompli par l’homme pour résumer un document. Par conséquent, elles produisent des résumés plus similaires aux résumés manuels. Ce processus peut être décrit par deux étapes majeures : la compréhension du texte source et la génération du résumé (Khan and Salim, 2014). Ces deux tâches sont assez complexes. C’est pourquoi elles ont été simplifiées. La première étape vise à analyser sémantiquement le contenu du texte et à identifier les parties à exprimer dans le résumé. Elle a parfois pris la forme d’une tâche d’extraction d’information liée au domaine abordé (Genest and Lapalme, 2011, 2012) ou de regroupement des phrases du texte source (Filippova, 2010). La génération de texte est un domaine en soi. Une des approches simplifiées consiste à appliquer des techniques de génération text-to-text : utilisation de paraphrases (Madnani and Dorr, 2010) ou fusion et compression de phrases (Filippova, 2010). Une alternative consiste à induire un modèle textuel du domaine (patron) et de l’instancier lors de la génération (Cheung et al., 2013).

Les méthodes du résumé par extraction

Le point fort du résumé par extraction est qu’il évite la génération de texte.
Ceci permet d’une part, de se concentrer sur la sélection du contenu pertinent et d’autre part, d’obtenir un résumé lisible et linguistiquement correct. La cohérence n’est en revanche pas garantie. Par exemple, si le système de résumé sélectionne des phrases contenant des références (acronyme, pronom personnel, etc.) et ne sélectionne pas les phrases contenant leurs antécédents, il est fort probable que le résumé produit soit incompréhensible. Pour pallier ce problème, certains travaux considèrent le paragraphe comme unité d’extraction au lieu de la phrase (Salton et al., 1996). Ceci permet de garder la cohérence du texte source mais ne peut pas être applicable dans le cas de résumés courts. De plus, il est évident que cette méthode réduit la précision du résumé en y incluant des phrases peu importantes juste pour améliorer la cohérence. D’autres chercheurs procèdent à des étapes de pré/post-traitement du texte qui améliorent partiellement la cohérence globale du résumé, comme par exemple la résolution des références anaphoriques dans le texte source (Trandabâµ, 2011). Le processus principal dans le résumé extractif est la sélection des segments de textes (généralement les phrases) pertinents et non redondants sans dépasser une taille limite du résumé. Ce principe limite la couverture des informations apportées par le texte source. Les résumés abstractifs souffrent moins de ce problème puisque l’information peut y être reformulée

Les critères de sélection des phrases du résumé

Dans cette partie nous détaillons les critères de sélection des unités textuelles utilisés par les systèmes de résumé. Ces unités peuvent être des phrases, des Ngrammes ou n’importe quel segment du texte. Ces critères ne sont pas spécifiques d’une méthode bien déterminée mais sont applicables à tous les types de résumés extractifs qu’ils soient mono-document, multi-document ou dynamiques.

Critères liés au contenu du texte

Cet ensemble de critères s’intéresse au contenu du texte et aux informations qu’il apporte. Le contenu est analysé soit par des approches de surface, comme le calcul des fréquences d’occurrence des mots, soit par des approches sémantiques qui exploitent le sens des mots et leurs relations sémantiques, comme avec l’annotation en rôles sémantiques. Nous citons, dans ce qui suit, les critères les plus utilisés.
Fréquence d’occurrence des mots. Ce critère a été introduit initialement par Luhn (Luhn, 1958). L’idée est que les mots les plus fréquents sont les plus liés au sujet du texte. La fréquence d’occurrence des mots est largement exploitée, même dans des systèmes récents où elle est combinée à d’autres critères. Même les méthodes reposant sur l’analyse sémantique des mots utilisent la fréquence d’occurrence comme première étape pour déterminer les thèmes principaux abordés par le texte. Le point fort de ce critère est qu’il est totalement indépendant de la langue. Similarité entre les phrases. La similarité textuelle est une notion très importante en TAL comme en témoignent les évaluations SemEval par exemple. De nombreuses mesures de similarité textuelle ont ainsi été établies (Bär et al., 2015).
Dans le domaine du résumé automatique, cette similarité est d’abord exploitée pour l’élimination de la redondance mais aussi plus indirectement pour la sélection de phrases pertinentes, sans oublier la comparaison avec des résumés modèles lors de l’évaluation. Certaines méthodes de résumé s’appuient uniquement sur ce critère. Tel est le cas de l’algorithme de résumé mono-document TextRank (Mihalcea, 2004). Ce critère est par ailleurs particulièrement important dans le cas multi-document. Dans ce contexte, les documents sont généralement représentés par des vecteurs de mots pondérés avec une mesure comme TF*IDF (Term Frequency * Inverse Document Frequency) (Sammut and Webb, 2010) et regroupés selon la similarité de leurs vecteurs. Plus une phrase est similaire au barycentre du regroupement, plus elle décrit les informations caractéristiques du groupe de documents considéré (Radev et al., 2004, Neto et al., 2003) et peut être alors considérée comme représentative de ce groupe, ce qui est un critère de sélection important.

Reconnaissance d’entités nommées / Annotation en rôles sémantiques.

La reconnaissance des entités nommées dans un texte améliore le filtrage des informations pertinentes (Hassel, 2003). Elle permet aussi de répondre à des requêtes factuelles (OÙ, QUI, QUAND, etc.) dans le résumé guidé (Tan, 2011). Certains vont au-delà de cette étape et déterminent les rôles sémantiques des entités reconnues (Trandabaµ, 2011). L’entité la plus fréquente est identifiée et considérée comme entité principale. Par la suite, les phrases contenant cette entité sont sélectionnées.
Enfin, seules les phrases où l’entité principale possède un rôle sémantique fondamental (non auxiliaire) sont gardées pour le résumé. Les rôles sémantiques peuvent aussi être utilisés pour simplifier les phrases complexes, c’est-à-dire les phrases contenant deux prédicats ou plus. Le prédicat est généralement un verbe.
Dans ce cas, les prédicats pour lesquels l’entité principale a un rôle auxiliaire sont éliminés.
Ces critères mettent l’accent sur le contenu du texte et le message qu’il com14 munique. Il existe d’autres critères qui ne s’intéressent pas au contenu du texte, mais qui renferment des informations très importantes et décisives dans l’étape de sélection. Elles font l’objet du paragraphe suivant.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction 
1.1 Contexte
1.2 Les enjeux du résumé automatique
1.3 Problématique
1.4 Plan de la thèse
2 État de l’art 
2.1 Introduction
2.2 Les types des résumés automatiques
2.2.1 Résumé générique et résumé orienté
2.2.2 Résumé indicatif et résumé informatif
2.2.3 Portée du résumé
2.2.4 Résumé abstractif et résumé extractif
2.3 Les méthodes du résumé par abstraction
2.4 Les méthodes du résumé par extraction
2.4.1 Les critères de sélection des phrases du résumé
2.4.2 Exploitation et intégration des critères
2.5 Le résumé multi-document et le résumé de mise à jour
2.5.1 Résumé multi-document
2.5.2 Résumé dynamique : une dimension temporelle
2.6 L’évaluation du résumé automatique
2.6.1 ROUGE
2.6.2 PYRAMID
2.6.3 Autres méthodes d’évaluation automatique
2.7 Synthèse : tableau comparatif des travaux récents en RA
2.7.1 Résumé multi-document
2.7.2 Résumé dynamique
2.8 Conclusion
3 Intégration de la similarité sémantique pour le RA 
3.1 Introduction
3.2 Représentation et similarité sémantique de phrases
3.2.1 Que sont les word embeddings ?
3.2.2 Le framework Word2Vec
3.2.3 L’algorithme GloVe
3.2.4 Modification des word embeddings : Retrofitting
3.2.5 Calcul de la similarité de phrases à partir des word embeddings
3.3 Clustering sémantique
3.4 Sélection de phrases pour le résumé mis-à-jour
3.4.1 Formalisation du problème
3.4.2 ICSISumm pour le résumé mis-à-jour
3.4.3 Prise en compte du clustering sémantique
3.5 Conclusion
4 Évaluation de l’intégration de la similarité sémantique 
4.1 Introduction
4.2 Cadre d’évaluation
4.2.1 Méthode d’évaluation
4.2.2 Données d’évaluation
4.2.3 Étalonnage des paramètres
4.3 Limite supérieure des systèmes extractifs
4.3.1 Génération des résumés Oracle
4.3.2 Évaluation des résumés Oracle
4.4 Systèmes évalués
4.4.1 Baselines
4.4.2 Systèmes de l’état de l’art
4.4.3 Systèmes proposés
4.5 Résultats et analyse
4.5.1 Influence des paramètres
4.5.2 Évaluation intrinsèque de la similarité sémantique
4.6 Conclusion
5 Exploitation de la Structure Rhétorique pour le RA 
5.1 Introduction
5.2 La Théorie de la Structure Rhétorique (RST)
5.3 Travaux précédents sur la RST pour le résumé automatique
5.3.1 Méthodes par classement des EDUs
5.3.2 Méthodes par élagage de l’arbre RST
5.4 Application de la RST pour le résumé mis-à-jour
5.4.1 Analyseurs RST
5.4.2 Intégration de la RST dans l’ILP
5.4.3 Méthode de pondération des EDUs
5.4.4 Méthode de pondération des bigrammes
5.4.5 Évaluation du système avec les nouveaux poids
5.5 Fusion de systèmes de résumé
5.5.1 Travaux précédents
5.5.2 Limite supérieure de la fusion de systèmes
5.5.3 Méthodes de fusion utilisées
5.5.4 Mise en oeuvre de la fusion de systèmes et évaluation des résultats
5.6 Conclusion
6 Bilan et perspectives 
6.1 Bilan
6.2 Perspectives
A Annexe : Conception et implémentation
A.1 Logiciels utilisés
A.2 Ressources et données
A.3 Temps d’exécution
A.4 Diagrammes de flux de données
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *