La fouille d’opinion ou l’analyse de sentiments 

Télécharger le fichier pdf d’un mémoire de fin d’études

Classification des différents types de transfert d’apprentissage

La notion d’adaptation au domaine est très étroitement liée à celle de transfert d’apprentissage. Le transfert d’apprentissage est un terme générique qui fait référence à un type de problème d’apprentissage qui implique plusieurs tâches ou domaines. Il n’y a pas de consen-sus à propos de la définition exacte de ces deux termes et ils sont parfois employés de manière interchangeable. Nous présentons ici la définition du transfert d’apprentissage présentée dans Pan and Yang [2010].
Étant donné un domaine source DS et sa tâche d’apprentissage as-sociée TS, un domaine cible DT et sa tâche d’apprentissage as-sociée TT , le transfert d’apprentissage a pour but d’améliorer l’apprentissage de la fonction prédictive cible fT sur DT en uti-lisant la connaissance apprise de DS et TS avec DS 6= DT et TS 6= TT.
Si le but est également d’améliorer les performances de la tâche TS dans le même temps, on parle alors d’apprentissage multi-tâches. Selon les propriétés de DS, DT , TS et TT , il y a plusieurs catégories :
– Transfert inductif : TS est différent de TT ;
– Transfert transductif : TS et TT sont semblables.
Dans chacune de ces catégories, il y a plusieurs cas de figure possibles relatifs à la disponibilité des données :
– Des données étiquetés sont disponibles dans DS mais pas dans DT ;
– Il existe des données étiquetés dans les deux domaines mais en très faible quantité pour DT ;
– Des données étiquetés sont disponibles dans DT mais pas dans DS ;
– Aucune donnée annotée n’est disponible.
Les deux premiers cas sont les plus courants. En effet, pour beau-coup d’applications, la collecte de données annotées pour un nou-veau domaine est coûteux alors que l’on dispose d’annotations consé-quentes pour certains domaines utilisés de longue date. Dans ce cas, si TT et TS sont les même tâches, on parle d’adaptation au domaine. Ces techniques permettent de minimiser le besoin d’annotations ma-nuelles coûteuses pour un nouveau domaine tout en conservant une très grande performance.

L’adaptation au domaine dans le TAL

Si l’on regarde dans la littérature existante, il existe trois grands types d’algorithme d’adaptation au domaine. Le premier type utilise la transformation de traits de représentation [Daumé, 2007; Blitzer et al., 2006; Jiang and Zhai, 2007b; Guo et al., 2009; Xue et al., 2008]. Dans ces travaux, l’hypothèse est que pT (yjx) diffère de pS(yjx) mais qu’il existe une façon de représenter les données avec des traits qui ont des distributions conditionnelles identiques ou similaires dans les deux domaines source et cible (pT (yjR(x)) ’ pS(yjx)).
Il y a deux principaux défis dans de tels algorithmes. Tout d’abord, comment distinguer les traits spécifiques aux domaines et les traits généraux. Et deuxièmement, comment trouver un nouvel espace de représentation R(X) pour coder la correspondance entre les domaines source et cible. Pour répondre à ces questions, des algorithmes ont été proposés tels que le Structural Correspondance Learning [Blitzer et al., 2006] ou le Topic Modelling [Guo et al., 2009; Xue et al., 2008].
Le deuxième type d’algorithme exploite les a priori des modèles pour réduire la différence entre les deux domaines [Finkel and Man-ning, 2009; Chelba and Acero, 2006; Chan and Ng, 2006]. Lors d’un apprentissage discriminatif, on utilise souvent en a priori une distri-bution gaussienne à des fins de régularisation. Le vecteur de para-mètre est considéré comme étant tiré à partir d’une distribution a priori p( ). Afin d’approximer pS(yjx) à partir d’un grand nombre de données d’entraînement ainsi qu’un petit échantillon de données du domaine cible, on peut ajuster la distribution a priori p( ) et produire une distribution pS(yjx; ) raisonnable. Cette possibilité a en particu-lier été étudiée par Finkel and Manning [2009] et Chelba and Acero [2006].
En apprentissage génératif, le terme a priori fait référence à une dis-tribution estimée avant le tirage des étiquettes selon p(y). Une hypo-thèse est que la distribution conditionnelle p(xjy) est semblable ou similaire dans les deux domaines. La disparité entre les distributions a posteriori p(yjx) provient en majorité des différences entre pS(y) et pT (y). C’est pour cette raison qu’une bonne estimation de pT (y) à l’aide des jeux de données peut grandement améliorer les perfor-mances. Cette possibilité a été étudiée par Chan and Ng [2006] qui ont utilisé des réseaux bayésiens naïfs.
Le troisième type d’algorithme se focalise quant à lui au niveau des instances sans chercher à modifier les modèles d’apprentissage [Axelrod et al., 2011; Xu et al., 2011; Jiang and Zhai, 2007a]. Ce type d’algorithme est étroitement apparenté à des schémas d’apprentis-sage semi-supervisé classiques comme l’auto-apprentissage. L’idée générale est la suivante : en pondérant ou en sélectionnant les ins-tances d’entraînement, il est possible de rendre pS(yjx; ) proche de pT (yjx; ) avec représentant ici les paramètres du schéma de pondé-ration. Il suffit pour cela de donner un faible poids ou bien de retirer les instances qui ont des probabilités pS(yjx) et pT (yjx) différentes. En d’autres mots, on suppose que p(yjx) reste semblable entre les deux domaines mais que p(x) varie grandement.Ainsi, pondérer ou sélectionner les instances d’entraînement [Bickel et al., 2007] ou les traits de représentation [Satpal and Sarawagi, 2007] peut contrebalan-cer cet impact. Ces méthodes s’appliquent également à l’extraction d’information générale [Gupta and Sarawagi, 2009]. Le principal défi pour ce type d’algorithme est de déterminer le schéma de pondéra-tion ou de sélection.

conclusion

La fouille d’opinion est un domaine d’étude vaste et se dévelop-pant très rapidement pour lequel les applications pratiques sont nom-breuses. Le domaine d’un texte, c’est à dire ici le type d’objet dont il parle, influe sur la manière d’exprimer l’opinion. Aussi, l’adapta-tion au domaine ainsi que la création de ressources spécifiques sont des défis actuels et majeurs de la fouille d’opinion. Dans le chapitre suivant, nous présentons les choix théoriques et pratiques que nous avons effectués en abordant cette question.

choix de la tâche étudiée

En abordant le thème de l’adaptation au domaine pour la fouille d’opinion, nous avons gardé à l’esprit une volonté de rester assez indépendant vis-à-vis de la langue traitée. Nous avons donc très tôt décidé d’utiliser le moins possible d’annotations manuelles et notam-ment, lorsque l’on parlera de transfert d’un domaine à un autre, d’an-notations sur le domaine cible. En effet, les annotations humaines peuvent être fastidieuses et coûteuses à obtenir. Lorsqu’émerge un nouveau domaine d’intérêt, il serait souhaitable de ne pas avoir be-soin d’annoter un nouveau corpus, sauf en très petite quantité, avant de pouvoir le traiter. L’anglais est un cas particulier pour lequel les ressources annotées sont déjà disponibles en grand nombre. Il a par ailleurs été montré, que lorsque l’on a la possibilité de s’entraîner sur beaucoup de domaines, on obtient un classifieur robuste pour un nouveau domaine [Yoshida et al., 2011; Mansour et al., 2013]. Outre le fait, qu’il est toujours intéressant de particulariser quand même le classifieur robuste pour le nouveau domaine, la disponibilité de res-sources annotées en grand nombre et pour de multiples domaines reste faible pour presque toutes les autres langues.
Cela justifie notre décision d’investiguer des méthodes très indépen-dantes de la langue, ou pouvant s’adapter à toute langue autre que l’anglais pour laquelle beaucoup de ressources existent. Dans cette optique, le choix des méthodes statistiques était donc logique. De plus, nous avons choisi un niveau de supervision assez bas avec une annotation globale au niveau du texte et une représentation en sac de mots d’unigrammes et de bigrammes. Cela permet une transposition assez facile à d’autres langues, les langues agglutinantes nécessitant peut-être un pré-traitement supplémentaire pour séparer les unités lexicales. De plus, même si des annotations plus précises d’un point de vue lexical ou syntaxique sont très utiles à la fouille d’opinion et permettent d’obtenir des résultats plus précis, les unigrammes ou les bigrammes restent des traits extrêmement importants, surtout dans le cas d’une classification au niveau du texte [Zhu et al., 2013b,a].
En résumé, notre préoccupation d’une dépendance minimale à la langue utilisée et également d’une utilisation minimale des annota-tions manuelles, nous a amenée à nous intéresser au problème de la fouille d’opinion en adoptant les choix suivants :
– Classification au niveau du texte
– Représentation en sacs de mots
– Utilisation de méthodes statistiques

problématique de la représentation commune

De précédents travaux ont réalisé les mêmes choix que nous, à sa-voir étudier l’adaptation au domaine sur le cas de la classification au niveau du texte avec des représentations en sacs de mots en utilisant des méthodes statistiques. Cela a souvent été abordé sous l’angle de la création d’une représentation commune pour les domaines concer-nés.

Espace de représentation commun

Deux domaines différents n’utilisent pas forcément les mêmes mots et pas à la même fréquence. Les mots ont donc des distributions dif-férentes selon les domaines. Or, lorsque l’on entraîne un classifieur sur un corpus pour le tester sur un autre, on fait l’hypothèse impli-cite que les deux corpus partagent la même distribution de traits. Ce qui n’est bien évidemment pas le cas lorsque l’on utilise deux corpus issus de domaines différents. Il est alors intéressant de créer un es-pace commun de représentation dans lequel projeter les deux corpus. Dans cet espace, les différences de distribution des traits seraient par définition amoindries.
Afin de créer cet espace commun, beaucoup de travaux essaient de détecter des pivots, des structures communes entre deux domaines. Plusieurs approches ont été proposées. Daumé [2007] a utilisé un noyau heuristique pour augmenter les traits afin de résoudre un pro-blème spécifique de l’adaptation au domaine dans le traitement au-tomatique des langues. Blitzer et al. [2006] ont proposé l’algorithme Structural Correspondence Learning (SCL) pour induire des correspon-dances entre les traits de différents domaines. SCL se fonde sur la recherche de pivots entre les deux domaines permettant de comparer les histogrammes de répartition des différents termes des domaines. Cette approche est motivée par un algorithme d’apprentissage multi-tâches, ASO (Alternating Structural Optimization), proposé par Ando and Zhang [2005]. Cette méthode a été appliquée à la recherche d’opi-nion dans Blitzer et al. [2007], travaux que nous décrirons un peu plus en détail à la partie 3.3. Les pivots sont ici des mots fréquents utiles à la détermination de l’opinion dans le domaine source annoté. Des classifieurs pivots sont créés qui permettent de comparer les distri-butions des autres mots par rapport à ces mots pivots. Ce sont les projections de ces distributions qui deviennent les traits représenta-tifs des textes.
Dans un article plus récent, Blitzer et al. [2011] s’intéressent plus spécifiquement au cas où les supports des domaines source et cible (l’en-semble des mots qui apparaissent dans chaque domaine) ont peu de mots en commun. Les cooccurrences entre les termes des domaines source et cible ne sont donc pas uniquement apprises par rapport à des mots pivots communs aux deux domaines mais également par rapport à des mots spécifiques à un seul domaine.
Un autre travail à ce sujet est celui de Pan et al. [2010] qui développe la méthode de Spectral Feature Alignment (SFA). Ils se servent égale-ment comme pivots de mots indépendants du domaine, sélectionnés pour leur fréquence dans le domaine cible et leur information mu-tuelle par rapport aux étiquettes du corpus source. Ils construisent ensuite un graphe bipartite de corrélation entre les traits pivots et les traits non-pivots. Puis à l’aide d’algorithmes de clustering spectral, ils créent des clusters entre des traits dépendants des domaines source et cible. Ils obtiennent ainsi un espace de représentation commun aux deux domaines. Les résultats obtenus dans Pan et al. [2010] montrent que la méthode SFA obtient de meilleurs résultats en exactitude que d’autres méthodes, dont SCL.
La plupart des méthodes précédentes ne minimisent pas explicite-ment la distance en terme de distribution entre les deux domaines. von Bünau et al. [2009] ont proposé la méthode Stationary Subspace Analysis (SSA) pour faire correspondre les distributions dans un es-pace latent. Cependant, SSA se focalise sur la détection d’un sous-espace latent sans se préoccuper de la conservation de propriétés dans ce sous-espace telles que la variance des données. Pan et al. [2008] ont proposé une nouvelle méthode de réduction de dimension pour l’adaptation au domaine appelée Maximum Mean Discrepancy Embedding (MMDE). MMDE vise à apprendre un espace latent com-mun sous-jacent aux domaines dans lequel la variance des données peut être préservée. Cependant, cette méthode ne gère pas le pro-blème des mots inconnus. De plus, MMDE apprend l’espace latent en résolvant un programme semi-défini (SDP) qui demande beaucoup de temps de calcul. Une autre méthode de réduction de dimension a été proposée [Pan et al., 2011], appelée Transfer Component Analysis (TCA ou SSTCA en version semi-supervisé), qui vise à pallier ces pro-blèmes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 introduction 
2 etat de l’art 
2.1 La fouille d’opinion ou l’analyse de sentiments
2.1.1 La subjectivité dans le langage
2.1.2 L’opinion et le sentiment
2.1.3 La fouille d’opinion
2.2 De l’influence du domaine sur l’opinion
2.2.1 Les constructions classiques de ressources et classifieurs et leur performance sur plusieurs domaines
2.2.2 Prendre en compte le domaine
2.3 Transfert d’apprentissage et adaptation au domaine
2.3.1 Schéma de fonctionnement d’un transfert
2.3.2 Classification des différents types de transfert d’apprentissage
2.3.3 L’adaptation au domaine dans le TAL
2.4 Conclusion
3 présentation de la problématique 
3.1 Choix de la tâche étudiée
3.2 Problématique de la représentation commune
3.2.1 Espace de représentation commun
3.2.2 Comment évaluer la transporbabilité d’un domaine à un autre ?
3.3 Les travaux de Blitzer et al.
3.3.1 Utilisation du corpus Multi-Domain Sentiment Dataset
3.3.2 Implémentation du Structural Correspondance Learning
3.4 Limitations du Structural Correspondance Learning
3.4.1 Créer des clusters pour rester interprétable
3.4.2 Utilisations possibles des clusters de mots
3.5 Conclusion
4 création de clusters de mots 
4.1 Examen préliminaire sur des clusters par projection
4.1.1 Méthode générale
4.1.2 Sélection des mots pivots
4.1.3 Création de la matrice de correspondance
4.1.4 Regroupement des mots du vocabulaire par Markov Clustering
4.2 Utilisation des clusters de mots
4.2.1 De nouveaux traits d’apprentissage
4.2.2 Transfert d’information de polarité
4.3 Comment évaluer la qualité d’un cluster
4.3.1 Mesure de mixité
4.3.2 Mesure de Pureté
4.4 Conclusion
5 concept et détection des marqueurs multi-polaires 
5.1 Définition de la notion de marqueurs multi-polaires
5.1.1 Liens entre subjectivité, polarité, adjectifs, lexiques et marqueurs multi-polaires
5.1.2 Approches complémentaires
5.2 Sélection supervisée des marqueurs multi-polaires
5.2.1 Description de la méthode de sélection
5.2.2 Exemples de marqueurs multi-polaires
5.3 Vers une sélection non supervisée
5.3.1 Description d’une méthode de sélection semisupervisée
5.3.2 Sélection des mots pivots
5.3.3 Résultats et pistes d’amélioration
5.4 Conclusion
6 mise en place d’une expérience d’annotation multiannotateurs
6.1 Création d’une interface d’annotation
6.2 Validation du guide d’annotation
6.2.1 Sélection des phrases
6.2.2 Mesures d’accord entre deux annotateurs
6.2.3 Généralisation et adaptation des mesures d’accords
6.2.4 Analyse de l’accord inter-annotateurs global
6.2.5 Analyse des accords inter-annotateurs deux à deux
6.2.6 Validation des hypothèses et lancement de l’annotation à grande échelle
6.3 Expérience multi-annotateurs
6.3.1 Présentation des mots choisis
6.3.2 Accords inter-annotateurs globaux multi-annotateurs
6.3.3 Score de positivité au niveau des phrases
6.4 Analyse des positivités des marqueurs au niveau des phrases
6.4.1 Différences dans les écarts de positivité
6.4.2 Coefficient d’accord S
6.5 Conclusion
7 classification des marqueurs multi-polaires 
7.1 Comportement des marqueurs dans un domaine
7.1.1 Contexte : parler d’autre chose
7.1.2 Opinion : expression d’un jugement
7.1.3 Raison : qualité ou défaut
7.1.4 Cible : élément de l’objet
7.1.5 Possibilité de préférence
7.2 Paires de comportements distinguables entre deux domaines
7.2.1 Polaire versus neutre : description prédominante
7.2.2 Polaire versus neutre : mélange de trois classes
7.2.3 Polaire versus neutre : mélange de deux classes
7.2.4 Positif versus négatif : présence de préférences
7.2.5 Autres comportements distinguables
7.3 Catégories de justification de changement de comportement
7.3.1 Description contextuelle
7.3.2 Changement de sens
7.3.3 Changement d’objet
7.3.4 Changement d’utilisation
7.3.5 Biais de corpus
7.4 Conclusion
8 adaptation d’un domaine à un autre 
8.1 Faciliter l’adaptation d’un domaine à un autre
8.2 Intégration des marqueurs multi-polaires au transfert d’apprentissage
8.2.1 Méthode d’intégration des marqueurs multi-polaires
8.2.2 Détection des marqueurs multi-polaires
8.2.3 Particularisation des corpus d’apprentissage et test
8.3 Apport des marqueurs multi-polaires à l’adaptation au domaine
8.3.1 Résultats sur les corpus entiers
8.3.2 Discussion des résultats
8.4 Conclusion
9 classification d’opinion sur un corpus multi-domaine 
9.1 Utiliser plusieurs domaines
9.2 Présentation de la méthode
9.3 Corpus utilisés
9.4 Détection des marqueurs
9.5 Corpus d’entraînement particularisés
9.6 Présentation des résultats
9.7 Conclusion
10 classification d’opinion sur un corpus en domaine ouvert 
10.1 Différence avec le cas du multi-domaines
10.2 Génération de domaines
10.2.1 Séparation des corpus à l’aide de l’allocation de Dirichlet latente
10.2.2 Adéquation entre la séparation manuelle et la séparation par LDA
10.2.3 Génération de domaines sur un corpus de tweets
10.3 Détection des marqueurs multi-polaires et particularisation
10.4 Une classification par fusion
10.5 Évaluation des résultats et influence des différents paramètres
10.5.1 Un comportement semblable au cas des corpus multi-domaines
10.5.2 Recentrage des sous-domaines détectés
10.5.3 Test des différents mixages
10.5.4 pVal et minDiff : description des marqueurs multipolaires
10.5.5 minOcc : pertinence statistique
10.6 Participation à la campagne d’évaluation SemEval 2013
10.7 Conclusion
11 conclusion 
a exemple de critiques
b création de clusters
c mots pivots et cooccurrences
d exemples de marqueurs multi-polaires
e phrases annotées lors de la campagne d’évaluation
bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *