Les résumés linguistiques flous (RLF)

Résumés linguistiques flous

    Les résumés linguistiques flous (RLF) ont été proposés par Yager (1982) et Zadeh (1983) puis notamment développés par Bosc et al. (1999); Kacprzyk & Zadrozny (2002); Kacprzyk et al. (2008); Castillo-Ortega et al. (2009); Ramos-Soto et al. (2016). Un RLF est un ensemble de phrases décrivant chacune un aspect particulier des données étudiées. Chaque phrase est une instance d’un schéma générique appelé « protoforme » pour lequel un degré de vérité est calculé, indiquant dans quelle mesure la phrase est en adéquation avec les données étudiées. Les deux protoformes de base des RLF proposés par Yager (1982) sont « Qx sont P » et « QRx sont P », où Q, R et P sont des sous-ensemble flous (sef) appelés respectivement quantificateur (quantifier), qualifieur (qualifier ) et résumeur (summariser) et les x sont les données prises dans un un ensemble X = {x1, …, xn} à résumer. Ces RLF sont dits « standards » car ils sont les plus couramment utilisés dans le domaine du résumé linguistique flou. Le protoforme « Qx sont P » peut par exemple être instancié en « La plupart des individus sont grands » et « QRx sont P » en « La plupart des jeunes sont grands », avec Q = La plupart, P = grand et R = jeune dans le second cas. Une extension directe de ces protoformes standards est celle proposée par Liétard (2008) avec « Q(C1 et C2 et … et C3)x sont P », par exemple « La plupart des individus sont grands et jeunes et amateurs de sport ». D’autres extensions incluent l’extraction d’information sur des dépendances floues, pour des résumés du type « La plupart des R ont des P similaires » (Bosc et al., 1998; Cubero et al., 1999), des dépendances graduelles (Rasmussen & Yager, 1999; Bosc et al., 1999), des règles graduelles floues avec des résumés de la forme « plus R est élevé, plus P est élevé » (Di-Jorio et al., 2009), les règles graduelles enrichies comme « plus R est élevé, plus P est élevé, particulièrement si S » (Oudni et al., 2013) et les règles graduelles par rapport à la moyenne « plus R est proche de la normale, plus P est élevé » (Hüllermeier, 2002). De plus, des protoformes du type « Qx sont P, et si possible R » peuvent également être évalués avec les résumés linguistiques bipolaires (Dubois & Prade, 2002; Dziedzic et al., 2013)

Approches GAT

   L’autre famille d’approches destinées à la création de résumés linguistiques est basée sur les méthodes de GAT. Ces dernières s’inscrivent dans le cadre défini par Reiter & Dale (1997, 2000) qui préconisent les six étapes décrites ci-dessous pour la production automatique de texte.
1. L’extraction des données (content determination) permet d’identifier les données utiles au résumé. Elle est souvent réalisée par un moyen assez simple, e.g. une requête en base de données. Comme mentionné précédemment, les approches de GAT se concentrent plus spécifiquement sur la génération de phrases et de textes, et moins sur l’analyse des données en elles-mêmes au contraire des méthodes floues.
2. L’organisation du discours (discourse planning) a pour objet l’ordonnancement et la structuration des phrases. Cette étape vise par exemple à exprimer que la moyenne de tel attribut doit apparaître dans un premier paragraphe, puis que les informations des autres attributs doivent apparaître dans le second (Reiter, 1996).
3. L’agrégation des phrases (sentence aggregation) assure la représentation sous une forme condensée de phrases partageant certains critères. Par exemple, les phrases « Le prochain train part à 10h » et « Le prochain train est un train Corail » peuvent être représentées par « Le prochain train, qui part à 10h, est un train Corail ».
4. La lexicalisation (lexicalisation) correspond au choix des mots pour exprimer les concepts identifiés. Par exemple, « Le prochain train, qui est un un train Corail, part à 10h » peut également être rendu par « Le prochain train, un Corail, quitte la gare à 10h ».
5. La lexicalisation des entités (referring expression generation) reprend le principe de lexicalisation pour des entités nommées, identifiées par des constantes dans le programme. Par exemple TRAIN_CORAIL est lexicalisé en « train corail » en français mais peut avoir d’autres représentations dans d’autres langues ou contextes.
6. La réalisation linguistique (linguistic realisation) transforme en phrases l’ensemble des concepts obtenus à l’issue des étapes précédentes. Différentes approches peuvent être utilisées pour chacune de ces étapes. Danlos & El Ghali (2002) par exemple utilisent un système de logique descriptive pour la phase d’extraction des données, une extension d’une théorie de la représentation du discours (SRDT) pour l’étape d’organisation du discours et la grammaire G-TAG pour les étapes de réalisation linguistique. Cette décomposition en six étapes a été utilisée dans de nombreuses applications, commerciales ou non, comme EasyText qui produit des analyses de sondages (Danlos et al., 2011) ou SumTime Mousam qui crée des bulletins à partir de prévisions météorologiques (Sripada et al., 2003). Une liste plus complète est donnée en annexe A p. 209 (voir aussi Ramos-Soto et al. (2016)).

Mesures de spécificité, d’imprécision et de flou

   Les mesures pour les modalités de variables linguistiques évaluent leur faculté à référencer précisément un élément de l’univers. Yager (1982) définit le degré de spécificité comme la somme de l’inverse du nombre d’éléments des α-coupes du sef. Le degré d’imprécision détaillé par Kacprzyk & Zadrozny (2005b) est construit comme la taille du support du sef rapporté à celle de l’univers sur lequel il est défini. Wilbik (2010, p. 78) considère le degré de flou (fuzziness), calculé comme la distance entre le sef et l’ensemble crisp le plus proche, égal à 0 lorsque le sef est inférieur à 0,5 et 1 sinon. Il est intéressant de noter que ces mesures, issues des approches RLF, sont étroitement liées à la propriété de distingabilité présentée plus haut. D’une manière générale l’objectif est d’optimiser le compromis couverture / spécificité (ou distingabilité) / nombre de modalités (Alonso et al., 2009; Gacto et al., 2011). En effet, plus la couverture d’un sef est importante, moins il est spécifique et donc moins il est distingable des autres modalités. A l’inverse, l’utilisation de sef plus spécifiques entraîne une diminution de leur couverture et donc la nécessité d’en introduire de nouveaux.

Quantificateurs

   Le concept d’interprétabilité des quantificateurs fait appel à des mesures spécifiques : certaines, comme la couverture, étendent des notions présentées ci-dessus pour les sef en général, et d’autres s’appliquent spécifiquement aux quantificateurs, indépendants ou définis dans des familles. Couverture des quantificateurs Díaz-Hermida & Bugarín (2010) proposent de mesurer la couverture d’un quantificateur relatif de manière différente de la mesure des sef d’une partition floue présentée dans la section 2.1.1, i.e. sans se baser sur la taille du support mais sur le nombre d’individus pris en compte par le quantificateur. Ainsi, un quantificateur comme La Plupart, dont le support est défini par exemple sur [0,7 ;1] a une couverture plus importante que Peu dont le support est défini sur [0 ;0,3] et qui ou, bien que les deux supports aient la même taille. Cette définition de la couverture pour un quantificateur permet donc de favoriser les phrases décrivant une quantité importante de données. Quantificateurs indépendants Un quantificateur indépendant est défini de manière autonome, contrairement aux familles de quantificateurs présentées ci-dessous. Un exemple de quantificateurs indépendants est donné dans la section 1.2.3 p. 12 et illustré sur la figure 1.3 p. 12.. Certaines études dans le domaine de la cognition apportent un éclairage utilisateur intéressant pour leur définition. Laurent et al. (2004) montrent par exemple que les quantificateurs Presque tous, La plupart, Peu, Environ la moitié / un quart / un tiers, sont spontanément utilisés par des utilisateurs à qui il est demandé de décrire des tableaux de données. On peut donc penser que leur utilisation est pertinente avec des RLF. Newstead et al. (1987) ont étudié l’impact de la taille du jeu de données sur l’interprétation des quantificateurs. Si Tous, La plupart, Beaucoup, La moitié et Aucun sont interprétés de manière constante et ne dépendent pas de la taille des données, Plusieurs, Quelques et Peu sont analysés comme représentant une proportion d’autant plus petite que le jeu de données est grand. Peu par exemple représente 26% pour un ensemble de 12 éléments mais seulement 9% pour un autre de 10 000. Famille de quantificateurs Les quantificateurs peuvent également être définis comme des instanciations de familles paramétriques (Castillo-Ortega et al., 2011a; Díaz-Hermida & Bugarín, 2010). Dans le premier article par exemple, les auteurs proposent d’utiliser un ensemble ordonné de q quantificateurs Qi non décroissants tels que Qj Qk ↔ µQj ≤ µQk : le plus grand d’entre eux est Q1 et représente ∃ et les suivants correspondent à Au moins 10%, Au moins 20%, etc. jusqu’au dernier, Qq, représentant ∀. La connaissance induite par cet ordre est mise à profit pour n’extraire que les résumés associés au quantificateur le plus précis.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 Résumés linguistiques flous : composantes et principes 
1.1 Approches pour les résumés linguistiques
1.1.1 Résumés linguistiques flous
1.1.2 Approches GAT
1.2 Composantes des résumés linguistiques flous
1.2.1 Données
1.2.2 Variable linguistique
1.2.3 Quantificateur flou
1.2.4 Protoforme
1.2.5 Valeur de vérité
1.2.6 Exemple
1.3 RLF de séries temporelles
1.3.1 Séries univariées
1.3.2 Séries multivariées
1.4 Bilan
Partie 1 Cohérence des résumés linguistiques flous 
Introduction
2 Qualité des RLF 
2.1 Vocabulaire
2.1.1 Modalités
2.1.2 Quantificateurs
2.1.3 Adéquation du vocabulaire
2.2 Phrases et protoformes
2.2.1 Protoforme
2.2.2 Phrase
2.3 Degré de vérité
2.3.1 Propriétés du calcul du degré de vérité
2.3.2 Extensions du système de RLF standard
2.3.3 Extensions du paradigme flou pour le calcul du degré de vérité
2.4 Résumé
2.4.1 Propriétés sur l’ensemble du résumé
2.4.2 Propriétés des sous-groupes de phrases
2.5 Système de RLF
2.5.1 Questions / réponses
2.5.2 Génération exhaustive
2.5.3 Organisation
2.6 Conclusion
3 Cohérence d’un résumé : analyses et modèle des oppositions 
3.1 1er niveau d’opposition : phrases simples et quantificateurs classiques
3.1.1 Opposition de phrases simples
3.1.2 Carré classique des oppositions
3.1.3 Carré moderne des oppositions
3.1.4 Autres structures d’opposition
3.2 2eme ` niveau d’opposition : quantificateurs généralisés
3.2.1 Quantificateurs généralisés
3.2.2 Liens avec les carrés logiques
3.3 3eme ` niveau d’opposition : négations floues
3.3.1 Opérateur de négation
3.3.2 Complément
3.3.3 Antonyme
3.3.4 Antonyme complément
3.3.5 Liens entre les relations classiques et les négations floues
3.4 Présentation d’un modèle général d’opposition
3.4.1 Protoformes de négation
3.4.2 Représentation des protoformes de négation
3.4.3 Le 4-cube des oppositions
3.4.4 Relations avec le carré moderne des oppositions
3.5 Propriétés de cohérence des RLF
3.5.1 Négation de la fonction de comptage
3.5.2 Propriété de dualité pour une fonction de comptage
3.5.3 Exploitation de la propriété de dualité
3.6 Conclusion
Partie 2 Résumés linguistiques de périodicité 
Introduction
4 Caractérisation de séries temporelles périodiques : un état de l’art 
4.1 Définitions
4.1.1 Séries temporelles
4.1.2 Définition des séries périodiques et de leurs variantes
4.1.3 Principes de représentations des séries temporelles
4.2 Représentations temporelles
4.2.1 Croisement avec l’axe des abscisses ou zero-crossing
4.2.2 Mesures de corrélation
4.2.3 Segmentation
4.2.4 Régression
4.3 Représentations fréquentielles
4.3.1 Représentation par estimation spectrale
4.3.2 Exploitation des représentations fréquentielles
4.4 Représentations temporo-fréquentielles
4.4.1 Représentations temps-fréquence
4.4.2 Exploitation des représentations T-F
4.5 Représentations symboliques
4.5.1 Représentation par symbolisation
4.5.2 Exploitation des séries symboliques
4.6 Autres représentations
4.6.1 Approches par graphes
4.6.2 Espace de phases
4.6.3 Approches floue
4.6.4 Méthodes hybrides
4.7 Bilan
5 Détection d’évènements périodiques : la méthode DPE 
5.1 Architecture
5.2 Regroupement
5.2.1 Formalisation
5.2.2 Le score d’érosion
5.2.3 Variantes de regroupement
5.3 Période et périodicité
5.3.1 Taille des groupes
5.3.2 Régularité des groupes
5.3.3 Degré de périodicité et période candidate
5.4 Rendu linguistique
5.4.1 Principe
5.4.2 Choix de l’unité
5.4.3 Période approchée
5.4.4 Sélection de l’adverbe
5.5 Bilan
6 Mise en œuvre de DPE 
6.1 Différentes approches pour le calcul du score d’érosion
6.1.1 Optimisations de calculs en morphologie mathématique
6.1.2 Méthode naïve
6.1.3 Méthode par niveaux
6.1.4 Méthode incrémentale
6.1.5 Méthode incrémentale par niveaux
6.2 Implémentations de DPE
6.2.1 Cadre général des implémentations de DPE
6.2.2 Algorithme naïf
6.2.3 Algorithme par niveaux
6.2.4 Algorithme incrémental
6.2.5 Algorithme incrémental par niveaux
6.3 DPE en flux
6.3.1 Méthodes d’analyses des flux de données
6.3.2 Algorithme général
6.4 Bilan
7 Expériences 
7.1 Générateur de données artificielles
7.1.1 Étape 1 : Génération des étiquettes H et L
7.1.2 Étape 2 : Génération des valeurs
7.1.3 Étape 3 : Normalisation
7.1.4 Calcul des valeurs de référence
7.1.5 Protocole expérimental
7.2 Étude expérimentale de la pertinence de la méthode DPE et de ses variantes
7.2.1 Critères de qualité
7.2.2 Résultats
7.2.3 Méthodes de regroupement
7.2.4 Évaluation de la taille des groupes
7.2.5 Tendance centrale de la taille des groupes
7.2.6 Dispersion de la taille des groupes
7.2.7 Périodicité
7.3 Étude expérimentale de la performance des méthodes de calcul du score d’érosion
7.3.1 Critères de qualité
7.3.2 Protocole
7.3.3 Résultats
7.3.4 Discussion
7.4 Application à des données réelles
7.5 Bilan
8 Contextualisation de la périodicité 
8.1 Périodicité locale
8.1.1 Définition
8.1.2 Test de significativité de la périodicité locale
8.2 Fronts de périodicité
8.3 Zones périodiques
8.3.1 Étiquetage des groupes
8.3.2 Définition des zones périodiques
8.4 Rendu linguistique
8.4.1 Protoforme utilisé
8.4.2 Rendu du degré de périodicité
8.4.3 Rendu du contexte temporel
8.5 Expériences
8.5.1 Critères de qualité
8.5.2 Protocole
8.5.3 Résultats et discussion
8.5.4 Données réelles
8.6 Bilan
Conclusion et perspectives
Bibliographie
Annexes
A Systèmes de génération de résumés linguistiques
B Exemple d’application de génération de RLF
C Étude sur les cardinalités
D Borne supérieure pour CV à partir de d
E Généralisation du score d’érosion pour des données dans R
F Théorèmes liés aux calculs incrémentaux
G Expressions moyennes pour les calculs de complexité
H Détermination de P (d = δ)
I Détail des résultats des expériences LDPE

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *