La fouille d’opinion
Plusieurs ouvrages de référence définissent la fouille d’opinion comme l’équivalent de l’analyse de sentiment, soit le champ d’étude de l’expression des émotions humaines à travers le texte, le son ou l’image [Pang and Lee, 2008, Liu, 2012]. À notre sens, les opinions constituent en réalité une sous-partie de ces émotions, et la fouille n’est ici effectuée qu’au sein de corpus de textes, c’est pourquoi nous considérons la fouille d’opinion comme une discipline spécialisée de l’analyse de sentiment. Cette discipline, telle que nous l’entendons, est aujourd’hui associée à l’informatique décisionnelle (ou business intelligence), c’est-à-dire une aide à la décision automatisée prenant généralement la forme d’un logiciel à destination des entreprises afin d’appuyer leurs choix stratégiques. Pourtant, voilà bien longtemps que nous sondons la population en vue d’optimiser les échanges commerciaux. C’est notamment cette pratique qui a fortement contribué, au VIe siècle avant notre ère, à l’avènement de la Grèce antique en tant que puissance thalassocratique internationale. Des informateurs situés tout au long du bassin méditerranéen permettaient d’éviter aux marchands grecs des voyages vers des territoires en guerre, peu propices au commerce, ou au contraire indiquaient une région subissant une pénurie ponctuelle, synonyme d’affaires fructueuses.
La notion de fouille d’opinion a évolué à travers les âges, concomitamment aux moyens de communication, et son informatisation correspond de nos jours à notre exploitation rapide et massive de l’information. De plus, il ne s’agit plus aujourd’hui de sonder une population de consommateurs passifs, mais de recueillir l’ensemble des avis et commentaires produits par ces utilisateurs lors d’enquêtes de satisfaction , ou même des interactions spontanées avec une entreprise, par le biais des réseaux sociaux notamment.
Mesurer la satisfaction
Afin de normaliser les avis recueillis et de faciliter l’analyse de ces sondages impliquant une masse de données conséquente, une première approche consiste à considérer l’opinion des consommateurs uniquement sous la forme d’une valeur numérique, telle que le NPS (Net Promoter® Score), communément admis en tant qu’indicateur quantitatif de la satisfaction.
La fiabilité d’une telle mesure, garantie par la constance de la question posée à l’utilisateur, est cependant à mettre en perspective suivant le domaine concerné. La différence de score visible entre plusieurs entreprises voire plusieurs secteurs d’activités, La manière dont est perçu le service fourni peut en réalité dépendre d’un a priori subjectif. Le bon fonctionnement des services de télécommunications, par exemple, peut être vu comme une normalité et leur dysfonctionnement vécu avec une forte insatisfaction, tandis que les services médicaux peuvent être jugés avec une plus grande clémence.
Par ailleurs, si cette approche permet d’évaluer de façon concise la satisfaction générale des utilisateurs, celle-ci n’apporte en revanche aucun enseignement quant à la source de cette satisfaction, limitant ainsi fortement le champ des possibles dans une optique d’aide à la décision. Il devient de plus en plus évident pour les entreprises soucieuses de l’avis de leurs clients qu’une valeur seule telle que le score NPS ne suffit pas à traduire réellement leurs attentes, c’est pourquoi elles se tournent vers l’analyse des contenus générés par les utilisateurs.
L’opinion dans le texte
Les alternatives à cette note de satisfaction sont multiples et offrent chacune à l’utilisateur un certain degré de liberté. Nous notons parmi celles-ci les indicateurs binaires, les réponses à choix multiples, les questions appelant un commentaire libre mais orienté sur un sujet, et les commentaires totalement libres introduits par une demande neutre .
Du point de vue des méthodes de fouille d’opinion, cette liberté d’expression est une difficulté majeure, car l’objectif est de retrouver les sujets de préoccupation des répondants au sein de textes non structurés. Cela justifie les travaux importants réalisés sur ce sujet dans le domaine du traitement automatique du langage naturel, propre à résoudre ce type d’extraction de données. En effet la nature bruitée de ces textes, caractérisée par la présence de fautes d’orthographe, intentionnelles ou non, d’erreurs de syntaxe ou encore de formatage du contenu, est un défi à plusieurs étapes de l’analyse du texte, du prétraitement (segmentation des phrases et des mots, catégorisation grammaticale et lemmatisation) à l’extraction de termes et d’opinions. Dans le cadre de notre travail, nous expérimentons uniquement nos méthodes sur des corpus d’avis issus d’enquêtes de satisfaction, éventuellement conditionnés par une question qui en oriente le contenu.
Dictanova
Cette thèse industrielle CIFRE est réalisée en partenariat avec la startup DICTANOVA , éditrice d’une suite logicielle sur le mode SaaS (Software as a Service) dont le cœur de métier est l’analyse des interactions clients. Créée en 2011 par de jeunes chercheurs issus du Laboratoire d’Informatique de Nantes Atlantique (LINA), et révélée par le Concours national d’aide à la création d’entreprises technologiques innovantes en 2012 puis par l’Award 2013 du forum de l’Industrie Européenne des Technologies du Langage, l’entreprise est imprégnée d’une forte culture scientifique universitaire, particulièrement dans le domaine du traitement automatique des langues. DICTANOVA emploie aujourd’hui 20 personnes de différents métiers et propose aux entreprises une aide à la décision reposant sur les commentaires libres ainsi que sur les mails et les dialogues provenant de chats communautaires, en suivant le principe d’écoute du consommateur. Bien qu’une valeur importante du produit réside dans l’accompagnement de l’utilisateur dans l’interprétation des résultats, la plate-forme développée par l’entreprise s’efforce de présenter de façon transparente les résultats de l’analyse de ces différents contenus. Cela se traduit dans notre travail par une forte contrainte de pertinence pour les éléments extraits par le système auquel nous contribuons.
Fouille d’opinion et ressources
L’ensemble des méthodes à travers lesquelles il est possible d’analyser les contenus générés par des utilisateurs nécessitent des appuis linguistiques, que nous qualifions de façon globale sous le terme « ressource ». Ces ressources, dont la création et la maintenance constitue l’objet principal de notre travail de recherche, ne peuvent toutefois pas être décorrélées de leur utilisation, c’est pourquoi une partie substantielle de ce manuscrit ne concerne pas directement ces appuis mais leur effet observé à travers le prisme des méthodes d’extraction d’opinion. Afin d’étudier l’apport des ressources, nous procédons à un raisonnement à contrecourant de cet effet en définissant tout d’abord les éléments que nous souhaitons extraire in fine, puis les méthodes permettant de les identifier, ce qui nous oriente enfin vers les questions pertinentes quant à la construction des ressources.
Comme dans le cas de nombreuses autres applications du traitement automatique des langues, la fouilled’opinion peut bénéficier de l’apport de multiples catégories de ressources. Des lexiques, tout d’abord, tels que des listes de mots caractéristiques de la présence d’une opinion associés à une valeur indiquant la tonalité du propos de l’utilisateur, appelées « lexiques affectifs », ou des listes de termes identifiés comme des sujets fréquents de l’opinion. Les réseaux de connaissances sont également mis à contribution dans certains travaux du domaine. La couverture des expressions générées par des utilisateurs peut être ainsi améliorée en empruntant les liens de synonymie, ou de similarité sémantique au sens large. Parmi ces ressources nous comptons les dictionnaires de synonymes et d’antonymes, les bases de données construites sur le modèle d’ontologies, ou encore des modèles statistiques rapprochant des mots qui partagent des contextes lexicaux similaires, afin d’associer des éléments inconnus à un discours déjà traité.
Enfin, pour la mise en utilisation de modèles probabilistes supervisés, qui prévalent actuellement dans un large éventail d’applications en traitement automatique des langues, il est nécessaire de produire des ressources annotées, c’est-à-dire l’association d’un texte et d’une étiquette précisant l’information portée par celui-ci, ce qui peut être réalisé à l’échelle du document, de la phrase ou du mot. Nous constatons cependant une étrange disproportion entre l’utilisation massive de ces ressources et le faible nombre de travaux que nous avons retrouvé dans la littérature sur le sujet de leur construction.
La maintenance des ressources spécialisées est une tâche relativement coûteuse dans la mesure où il est nécessaire de les adapter à chaque nouveau domaine à traiter. D’une part, les sujets abordés par les utilisateurs, les mots marqueurs d’opinion, ainsi que la structure des phrases contenant une opinion peuvent varier selon la thématique de chaque commentaire. Il faut alors procéder à une désambiguïsation en contexte de ces éléments. D’autre part, de nouveaux indices de l’opinion peuvent émerger d’une nouvelle thématique. Il est alors impératif de pouvoir les détecter et de les associer aux ressources existantes. Dans ce cas, il convient de mettre en œuvre différentes stratégies pour les détecter dans des contextes où les données peuvent être dégradées comme éparses. La difficulté de cette tâche est démultipliée lorsqu’il s’agit de passer à une nouvelle langue.
|
Table des matières
INTRODUCTION
1 Introduction
1.1 La fouille d’opinion
1.2 Mesurer la satisfaction
1.3 L’opinion dans le texte
1.4 Dictanova
1.5 Fouille d’opinion et ressources
1.6 Objectifs
1.7 Structure du manuscrit
2 Éléments fondamentaux de l’opinion
2.1 Termes en fouille d’opinion
2.1.1 La notion de terme
Clés de la compréhension du texte
Définition dans notre cadre de travail
2.1.2 Différentes formes de termes
Noms et syntagmes nominaux
Verbes et syntagmes verbaux
Expressions idiomatiques
Orthographe et uniformisation
2.2 Domaines en fouille d’opinion
2.2.1 La notion de domaine
Définition dans notre cadre de travail
Importance du domaine en fouille d’opinion
2.2.2 La notion d’entité
Les entités structurent le domaine
Hiérarchie d’entités
2.3 Fouille d’opinion en recherche d’information
2.3.1 Richesse des termes extraits
2.3.2 Méthodes de recherche d’information pour la fouille d’opinion
Extraction de termes
Association de termes
Méthode dans notre cadre de travail
2.3.3 Termes cibles de l’opinion
2.4 Subjectivèmes
2.4.1 La notion de subjectivème
La subjectivité dans le texte
Cas des avis clients
2.4.2 Hétérogénéité des subjectivèmes
Catégories grammaticales
Expressions
Importance du contexte
2.5 Le couple terme–subjectivème
2.5.1 La notion d’opinion
Définition dans notre cadre de travail
Opinion sans terme
Opinion sans subjectivème
2.5.2 Orientation sémantique
Polarité
Émotion
Axiologie
2.6 Stabilité des subjectivèmes
2.6.1 Subjectivèmes stables et instables
Instabilité de la subjectivité
Instabilité de la polarité
2.6.2 À la recherche d’une stabilité
Stabilité des couples terme–subjectivème
Modélisation de la fouille d’opinion
2.7 Synthèse
3 Granularité de la fouille d’opinion
3.1 Fouille d’opinion à forte granularité
3.1.1 Travaux existants
Fouille d’opinion à l’échelle du document
Fouille d’opinion à l’échelle de la phrase
3.1.2 Polarité d’une phrase ou d’un document
Une application limitée
Une annotation accessible
3.1.3 Autres applications
3.2 Fouille d’opinion à granularité fine
3.2.1 Définition du problème
Travaux existants
Retrouver les couples terme – subjectivème
3.2.2 Une approche adaptée au résumé d’opinion
3.2.3 La modélisation ABSA
3.2.4 Limites de l’approche
Adaptabilité de la modélisation
Attribution des entités
3.3 Fouille d’opinion à granularité intermédiaire
3.3.1 Fouille d’opinion au niveau entité
Principe
Observations
3.3.2 Une approche inter-domaines
Entités et domaines
Limiter l’effort d’adaptation au domaine
3.4 Synthèse
4 Approche symbolique de la fouille d’opinion
CONCLUSION