Résumés linguistiques de données numériques

Approches pour les résumés linguistiques

La production de résumés linguistiques est abordée aujourd’hui avec les RLF d’un côté et les méthodes de GAT de l’autre. Bien que les RLF soient formellement des méthodes de génération automatique de texte, nous les distinguons des méthodes de GAT dans la suite du document car ces dernières, issues d’autres communautés de recherche, procèdent de manière très différente des RLF. Précisément, les RLF proposent des méthodes évoluées d’analyse des données basées sur des représentations linguistiques sommaires tandis qu’à l’inverse les méthodes de GAT sont peu développées sur l’extraction de données mais plus riches sur la génération linguistique. Les deux approches, détaillées dans les deux sous-sections suivantes, ont évolué de manière indépendante jusqu’en 2010 où certains articles dans la communauté floue ont souligné leur complémentarité et l’intérêt d’ajouter aux capacités linguistiques des méthodes de GAT celles d’extraction de données des RLF (Kacprzyk & Zadrozny, 2010; Bouchon-Meunier & Moyse, 2012; Ramos-Soto et al., 2016).

Résumés linguistiques flous

Les résumés linguistiques flous (RLF) ont été proposés par Yager (1982) et Zadeh (1983) puis notamment développés par Bosc et al. (1999); Kacprzyk & Zadrozny (2002); Kacprzyk et al. (2008); Castillo-Ortega et al. (2009); Ramos-Soto et al. (2016). Un RLF est un ensemble de phrases décrivant chacune un aspect particulier des données étudiées. Chaque phrase est une instance d’un schéma générique appelé « protoforme » pour lequel un degré de vérité est calculé, indiquant dans quelle mesure la phrase est en adéquation avec les données étudiées. Les deux protoformes de base des RLF proposés par Yager (1982) sont « Qx sont P » et «QRx sont P », où Q, R et P sont des sous-ensemble flous (sef) appelés respectivement quantificateur (quantifier), qualifieur (qualifier ) et résumeur (summariser) et les x sont les données prises dans un un ensemble X = {x1, …, xn} à résumer. Ces RLF sont dits « standards » car ils sont les plus couramment utilisés dans le domaine du résumé linguistique flou. Le protoforme « Qx sont P » peut par exemple être instancié en « La plupart des individus sont grands » et « QRx sont P » en « La plupart des jeunes sont grands », avec Q = La plupart, P = grand et R = jeune dans le second cas. Une extension directe de ces protoformes standards est celle proposée par Liétard (2008) avec « Q(C1 et C2 et … et C3)x sont P », par exemple « La plupart des individus sont grands et jeunes et amateurs de sport ». D’autres extensions incluent l’extraction d’information sur des dépendances floues, pour des résumés du type « La plupart des R ont des P similaires » (Bosc et al., 1998; Cubero et al., 1999), des dépendances graduelles (Rasmussen & Yager, 1999; Bosc et al., 1999), des règles graduelles floues avec des résumés de la forme « plus R est élevé, plus P est élevé » (Di-Jorio et al., 2009), les règles graduelles enrichies comme « plus R est élevé, plus P est élevé, particulièrement si S » (Oudni et al., 2013) et les règles graduelles par rapport à la moyenne « plus R est proche de la normale, plus P est élevé » (Hüllermeier, 2002). De plus, des protoformes du type « Qx sont P, et si possible R » peuvent également être évalués avec les résumés linguistiques bipolaires (Dubois & Prade, 2002; Dziedzic et al., 2013).

Approches GAT

L’autre famille d’approches destinées à la création de résumés linguistiques est basée sur les méthodes de GAT. Ces dernières s’inscrivent dans le cadre défini par Reiter & Dale (1997, 2000) qui préconisent les six étapes décrites ci-dessous pour la production automatique de texte.

1. L’extraction des données (content determination) permet d’identifier les données utiles au résumé. Elle est souvent réalisée par un moyen assez simple, e.g. une requête en base de données. Comme mentionné précédemment, les approches de GAT se concentrent plus spécifiquement sur la génération de phrases et de textes, et moins sur l’analyse des données en elles-mêmes au contraire des méthodes floues.
2. L’organisation du discours (discourse planning) a pour objet l’ordonnancement et la structuration des phrases. Cette étape vise par exemple à exprimer que la moyenne de tel attribut doit apparaître dans un premier paragraphe, puis que les informations des autres attributs doivent apparaître dans le second (Reiter, 1996).
3. L’agrégation des phrases (sentence aggregation) assure la représentation sous une forme condensée de phrases partageant certains critères. Par exemple, les phrases « Le prochain train part à 10h » et « Le prochain train est un train Corail » peuvent être représentées par « Le prochain train, qui part à 10h, est un train Corail».
4. La lexicalisation (lexicalisation) correspond au choix des mots pour exprimer les concepts identifiés. Par exemple, « Le prochain train, qui est un un train Corail, part à 10h » peut également être rendu par « Le prochain train, un Corail, quitte la gare à 10h ».
5. La lexicalisation des entités (referring expression generation) reprend le principe de lexicalisation pour des entités nommées, identifiées par des constantes dans le programme. Par exemple TRAIN_CORAIL est lexicalisé en « train corail » en français mais peut avoir d’autres représentations dans d’autres langues ou  contextes.
6. La réalisation linguistique (linguistic realisation) transforme en phrases l’ensemble des concepts obtenus à l’issue des étapes précédentes.

Différentes approches peuvent être utilisées pour chacune de ces étapes. Danlos & El Ghali (2002) par exemple utilisent un système de logique descriptive pour la phase d’extraction des données, une extension d’une théorie de la représentation du discours (SRDT) pour l’étape d’organisation du discours et la grammaire G-TAG pour les étapes de réalisation linguistique. Cette décomposition en six étapes a été utilisée dans de nombreuses applications, commerciales ou non, comme EasyText qui produit des analyses de sondages (Danlos et al., 2011) ou SumTime Mousam qui crée des bulletins à partir de prévisions météorologiques (Sripada et al., 2003). Une liste plus complète est donnée en annexe A p. 209 (voir aussi Ramos-Soto et al. (2016)).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 Résumés linguistiques flous : composantes et principes
1.1 Approches pour les résumés linguistiques
1.1.1 Résumés linguistiques flous
1.1.2 Approches GAT
1.2 Composantes des résumés linguistiques flous
1.2.1 Données
1.2.2 Variable linguistique
1.2.3 Quantificateur flou
1.2.4 Protoforme
1.2.5 Valeur de vérité
1.2.6 Exemple
1.3 RLF de séries temporelles
1.3.1 Séries univariées
1.3.2 Séries multivariées
1.4 Bilan
2 Qualité des RLF
2.1 Vocabulaire
2.1.1 Modalités
2.1.2 Quantificateurs
2.1.3 Adéquation du vocabulaire
2.2 Phrases et protoformes
2.2.1 Protoforme
2.2.2 Phrase
2.3 Degré de vérité
2.3.1 Propriétés du calcul du degré de vérité
2.3.2 Extensions du système de RLF standard
2.3.3 Extensions du paradigme flou pour le calcul du degré de vérité
2.4 Résumé
2.4.1 Propriétés sur l’ensemble du résumé
2.4.2 Propriétés des sous-groupes de phrases
2.5 Système de RLF
2.5.1 Questions / réponses
2.5.2 Génération exhaustive
2.5.3 Organisation
2.6 Conclusion
3 Cohérence d’un résumé : analyses et modèle des oppositions
3.1 1er niveau d’opposition : phrases simples et quantificateurs classiques
3.1.1 Opposition de phrases simples
3.1.2 Carré classique des oppositions
3.1.3 Carré moderne des oppositions
3.1.4 Autres structures d’opposition
3.2 2eme  niveau d’opposition : quantificateurs généralisés
3.2.1 Quantificateurs généralisés
3.2.2 Liens avec les carrés logiques
3.3 3eme  niveau d’opposition : négations floues
3.3.1 Opérateur de négation
3.3.2 Complément
3.3.3 Antonyme
3.3.4 Antonyme complément
3.3.5 Liens entre les relations classiques et les négations floues
3.4 Présentation d’un modèle général d’opposition
3.4.1 Protoformes de négation
3.4.2 Représentation des protoformes de négation
3.4.3 Le 4-cube des oppositions
3.4.4 Relations avec le carré moderne des oppositions
3.5 Propriétés de cohérence des RLF
3.5.1 Négation de la fonction de comptage
3.5.2 Propriété de dualité pour une fonction de comptage
3.5.3 Exploitation de la propriété de dualité
3.6 Conclusion
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *