Construction semi-automatique de ressources pour la fouille d’opinion

La fouille d’opinion

Plusieurs ouvrages de référence définissent la fouille d’opinion comme l’équivalent de l’analyse de sentiment, soit le champ d’étude de l’expression des émotions humaines à travers le texte, le son ou l’image [Pang and Lee, 2008, Liu, 2012]. À notre sens, les opinions constituent en réalité une sous-partie de ces émotions, et la fouille n’est ici effectuée qu’au sein de corpus de textes, c’est pourquoi nous considérons la fouille d’opinion comme une discipline spécialisée de l’analyse de sentiment. Cette discipline, telle que nous l’entendons, est aujourd’hui associée à l’informatique décisionnelle (ou business intelligence), c’est-à-dire une aide à la décision automatisée prenant généralement la forme d’un logiciel à destination des entreprises afin d’appuyer leurs choix stratégiques. Pourtant, voilà bien longtemps que nous sondons la population en vue d’optimiser les échanges commerciaux. C’est notamment cette pratique qui a fortement contribué, au VIe siècle avant notre ère, à l’avènement de la Grèce antique en tant que puissance thalassocratique internationale. Des informateurs situés tout au long du bassin méditerranéen permettaient d’éviter aux marchands grecs des voyages vers des territoires en guerre, peu propices au commerce, ou au contraire indiquaient une région subissant une pénurie ponctuelle, synonyme d’affaires fructueuses. La notion de fouille d’opinion a évolué à travers les âges, concomitamment aux moyens de communication, et son informatisation correspond de nos jours à notre exploitation rapide et massive de l’information. De plus, il ne s’agit plus aujourd’hui de sonder une population de consommateurs passifs, mais de recueillirl’ensemble des avis et commentaires produits par ces utilisateurs lors d’enquêtes de satisfaction , ou même des interactions spontanées avec une entreprise, par le biais des réseaux sociaux notamment.

Fouille d’opinion et ressources

L’ensemble des méthodes à travers lesquelles il est possible d’analyser les contenus générés par des utilisateurs nécessitent des appuis linguistiques, que nous qualifions de façon globale sous le terme « ressource ». Ces ressources, dont la création et la maintenance constitue l’objet principal de notre travail de recherche, ne peuvent toutefois pas être décorrélées de leur utilisation, c’est pourquoi une partie substantielle de ce manuscrit ne concerne pas directement ces appuis mais leur effet observé à travers le prisme des méthodes d’extraction d’opinion. Afin d’étudier l’apport des ressources, nous procédons à un raisonnement à contrecourant de cet effet en définissant tout d’abord les éléments que nous souhaitons extraire in fine, puis les méthodes permettant de les identifier, ce qui nous oriente enfin vers les questions pertinentes quant à la construction des ressources.

Comme dans le cas de nombreuses autres applications du traitement automatique des langues, la fouille d’opinion peut bénéficier de l’apport de multiples catégories de ressources. Des lexiques, tout d’abord, tels que des listes de mots caractéristiques de la présence d’une opinion associés à une valeur indiquant la tonalité du propos de l’utilisateur, appelées « lexiques affectifs », ou des listes de termes identifiés comme des sujets fréquents de l’opinion. Les réseaux de connaissances sont également mis à contribution dans certains travaux du domaine. La couverture des expressions générées par des utilisateurs peut être ainsi améliorée en empruntant les liens de synonymie, ou de similarité sémantique au sens large. Parmi ces ressources nous comptons les dictionnaires de synonymes et d’antonymes, les bases de données construites sur le modèle d’ontologies, ou encore des modèles statistiques rapprochant des mots qui partagent des contextes lexicaux similaires, afin d’associer des éléments inconnus à un discours déjà traité. Enfin, pour la mise en utilisation de modèles probabilistes supervisés, qui prévalent actuellement dans un large éventail d’applications en traitement automatique des langues, il est nécessaire de produire des ressources annotées, c’est-à-dire l’association d’un texte et d’une étiquette précisant l’information portée par celui-ci, ce qui peut être réalisé à l’échelle du document, de la phrase ou du mot. Nous constatons cependant une étrange disproportion entre l’utilisation massive de ces ressources et le faible nombre de travaux que nous avons retrouvé dans la littérature sur le sujet de leur construction.

La maintenance des ressources spécialisées est une tâche relativement coûteuse dans la mesure où il est nécessaire de les adapter à chaque nouveau domaine à traiter. D’une part, les sujets abordés par les utilisateurs, les mots marqueurs d’opinion, ainsi que la structure des phrases contenant une opinion peuvent varier selon la thématique de chaque commentaire. Il faut alors procéder à une désambiguïsation en contexte de ces éléments. D’autre part, de nouveaux indices de l’opinion peuvent émerger d’une nouvelle thématique. Il est alors impératif de pouvoir les détecter et de les associer aux ressources existantes. Dans ce cas, il convient de mettre en œuvre différentes stratégies pour les détecter dans des contextes où les données peuvent être dégradées comme éparses. La difficulté de cette tâche est démultipliée lorsqu’il s’agit de passer à une nouvelle langue.

Compte tenu de ces difficultés, il est possible d’envisager de définir un modèle global qui pourrait prendre en compte l’ensemble de ces caractéristiques. Ce n’est toutefois pas l’objectif poursuivi dans ce travail pour lequel la qualité des ressources prime sur la quantité. Ainsi les informations extraites passeront systématiquement au crible d’un humain qui jugera de leur validité in fine. Passer d’une ressource généraliste à une ressource spécialisée peut représenter une réduction majeure de l’information, qui doit ensuite être complétée manuellement en intégrant des connaissances issues de l’analyse semi-automatique du corpus de spécialité. Cette tâche peut rapidement se révéler fastidieuse et chronophage en fonction du domaine et de la taille du corpus.

Éléments fondamentaux de l’opinion 

Termes en fouille d’opinion

Les termes en fouille d’opinion s’inspirent et se différencient des termes tels qu’ils sont définis dans d’autres domaines du traitement automatique des langues. Partant d’une notion commune, nous spécialisons la définition de terme en fouille d’opinion afin de répondre aux besoins de l’analyse de contenus générés par des utilisateurs et nous listons les difficultés que pose l’extraction de ces termes dans le cadre de l’analyse d’avis clients.

La notion de terme

Clés de la compréhension du texte
Les unités linguistiques que nous appelons termes définissent les clés de la compréhension d’un document, au sens où ceux-ci sont les éléments utiles et nécessaires pour en résumer l’essence d’une part, et permettre de relier des documents partageant des points d’intérêt similaires d’autre part. En linguistique, un terme désigne un concept, soit une chose ou une idée [Sager, 1990], indépendamment de son contexte d’occurrence [Rastier, 1995]. En terminologie, ne sont termes que les occurrences de noms et syntagmes nominaux qui définissent un concept clé dans le domaine du corpus de l’occurrence [Grefenstette, 1993], et en ce sens, l’extraction terminologique vise à construire un lexique spécialisé d’un domaine. Dans le cadre d’une application pratique de l’analyse de documents au moyen de traitement automatique du langage, résumer un texte par ses termes permet d’indexer ces documents selon une organisation reposant sur des critères lexicaux voire sémantiques. Selon une telle organisation, il est non seulement possible de comprendre rapidement le contenu d’un document seul mais aussi le contenu de l’ensemble d’un corpus.

L’extraction de termes est par conséquent fondamentale car celle-ci permet de connaître les sujets importants du corpus, ainsi que les documents partageant les mêmes sujets. Lier ces documents, c’est aussi lier leurs auteurs. Dans le cas de l’analyse de documents générés par des utilisateurs, ce sont bel et bien les communautés d’utilisateurs que nous cherchons à comprendre in fine, au travers de l’extraction des termes.

Définition dans notre cadre de travail
Si, comme nous le verrons par la suite, la fouille d’opinion partage de nombreux points communs avec les autres applications du domaine de la recherche d’information, il convient de dissocier la notion de terme (ou plus exactement de terme clé) en recherche d’information et la notion de terme en fouille d’opinion. Tandis que la première correspond à un nom ou syntagme nominal orthographiquement correct et dont la pertinence d’extraction est conditionnée par le domaine du corpus, le second correspond plus généralement aux sujets abordés par les auteurs des documents. Les termes en fouille d’opinion ne sont donc pas limités au domaine du corpus, et plus généralement ne peuvent être contenus dans un ensemble fermé et défini. Il est en réalité primordial pour une application de fouille d’opinion que les sujets abordés, qu’ils portent un jugement ou non, émergent d’eux mêmes afin de ne pas biaiser l’analyse globale en présupposant de la présence ou de l’absence de certains sujets. Autrement dit, l’objectif de ce type d’analyse est bien d’écouter et non de questionner.

Différentes formes de termes

À l’aspect ouvert de l’ensemble des termes que nous venons de décrire s’ajoute un aspect extrêmement éclectique, dans la mesure où les termes en fouille d’opinion se déclinent en de multiples catégories grammaticales et sous de multiples formes orthographiques.

Noms et syntagmes nominaux
La forme nominale est la forme la plus fréquemment considérée pour les termes en recherche d’information comme en fouille d’opinion, parmi lesquels est faite la distinction entre terme simple, soit un nom seul, et terme complexe, soit un syntagme nominal composé de plusieurs mots. Un point de difficulté majeur lors de l’extraction de termes est la question de la délimitation des termes complexes. Définir pour un terme quels mots du voisinage inclure ou exclure, afin de déterminer un contexte utile et nécessaire, n’est pas aisé. Par extension, définir une méthode permettant de délimiter un tel contexte pour chaque terme du corpus est une tâche particulièrement ardue. Il s’agit, dans l’idéal, de trouver pour chaque terme la fenêtre de mots présentant la plus grande pertinence pour l’analyse or cette pertinence est régulièrement décorrélée du simple cadre du traitement syntaxique du document mais est seulement perçue par l’analyste à la lecture des termes extraits. À titre d’exemple, dans la phrase « Je préfère la livraison des colis le week-end », nous ne comptons pas moins de six noms et syntagmes nominaux représentant des termes potentiels (« livraison », « colis », « week-end », « livraison des colis », « colis le week-end » et « livraison des colis le week-end »), parmi lesquels il n’est pas évident de sélectionner la combinaison la plus judicieuse.

Verbes et syntagmes verbaux
Du fait de la diversité des expressions employées dans des corpus générés par des utilisateurs, la notion de terme en fouille d’opinion doit être élargie afin de tenir compte de l’ensemble des occurrences possibles des sujets évoqués. Dans cette optique, nous étendons cette notion aux verbes et syntagmes verbaux, car les jugements que nous recensons portent non seulement sur des éléments substantivés mais également sur des actions qui sont exprimées par des verbes. Il est par ailleurs fréquent que la forme la plus commune d’un sujet dans un corpus soit la forme verbale et non son substantif. C’est le cas par exemple du syntagme verbal « recevoir un colis », plus naturellement rencontré que le syntagme nominal « réception d’un colis » parmi des avis rédigés à propos d’une livraison. Ignorer ces occurrences équivaut par conséquent à délaisser une partie non négligeable des documents à analyser, ce qui peut biaiser les conclusions de la fouille d’opinion sur le corpus.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 La fouille d’opinion
1.2 Mesurer la satisfaction
1.3 L’opinion dans le texte
1.4 Dictanova
1.5 Fouille d’opinion et ressources
1.6 Objectifs
1.7 Structure du manuscrit
2 Éléments fondamentaux de l’opinion
2.1 Termes en fouille d’opinion
2.1.1 La notion de terme
Clés de la compréhension du texte
Définition dans notre cadre de travail
2.1.2 Différentes formes de termes
Noms et syntagmes nominaux
Verbes et syntagmes verbaux
Expressions idiomatiques
Orthographe et uniformisation
2.2 Domaines en fouille d’opinion
2.2.1 La notion de domaine
Définition dans notre cadre de travail
Importance du domaine en fouille d’opinion
2.2.2 La notion d’entité
Les entités structurent le domaine
Hiérarchie d’entités
2.3 Fouille d’opinion en recherche d’information
2.3.1 Richesse des termes extraits
2.3.2 Méthodes de recherche d’information pour la fouille d’opinion
Extraction de termes
Association de termes
Méthode dans notre cadre de travail
2.3.3 Termes cibles de l’opinion
2.4 Subjectivèmes
2.4.1 La notion de subjectivème
La subjectivité dans le texte
2.4.2 Hétérogénéité des subjectivèmes
Catégories grammaticales
Expressions
Importance du contexte
2.5 Le couple terme–subjectivème
2.5.1 La notion d’opinion
Définition dans notre cadre de travail
Opinion sans terme
Opinion sans subjectivème
2.5.2 Orientation sémantique
Polarité
Émotion
Axiologie
2.6 Stabilité des subjectivèmes
2.6.1 Subjectivèmes stables et instables
Instabilité de la subjectivité
Instabilité de la polarité
2.6.2 À la recherche d’une stabilité
Stabilité des couples terme–subjectivème
Modélisation de la fouille d’opinion
2.7 Synthèse
3 Granularité de la fouille d’opinion
3.1 Fouille d’opinion à forte granularité
3.1.1 Travaux existants
Fouille d’opinion à l’échelle du document
Fouille d’opinion à l’échelle de la phrase
3.1.2 Polarité d’une phrase ou d’un document
Une application limitée
Une annotation accessible
3.1.3 Autres applications
3.2 Fouille d’opinion à granularité fine
3.2.1 Définition du problème
Travaux existants
Retrouver les couples terme – subjectivème
3.2.2 Une approche adaptée au résumé d’opinion
3.2.3 La modélisation ABSA
3.2.4 Limites de l’approche
Adaptabilité de la modélisation
Attribution des entités
3.3 Fouille d’opinion à granularité intermédiaire
3.3.1 Fouille d’opinion au niveau entité
Principe
Observations
3.3.2 Une approche inter-domaines
Entités et domaines
Limiter l’effort d’adaptation au domaine
3.4 Synthèse
4 Approche symbolique de la fouille d’opinion
4.1 Patrons de détection
4.1.1 Travaux existants
4.1.2 Propriétés des patrons
Définition d’un patron
Expressivité des patrons
L’importance du prétraitement
4.1.3 Représentation et reconnaissance
4.2 Fouille d’opinion à l’aide de patrons
4.2.1 Principe
Parcours d’automate et recouvrement
Lier termes et subjectivèmes
Inférence de polarité
Chaîne de traitement globale
4.2.2 Intérêts et limites
Robustesse des patrons
Déterminisme des patrons
Amélioration continue et dérive des patrons
4.3 Synthèse
5 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *