Étude de l’influence des techniques de sélection du lexique

Traits

Chaque document est représenté par un vecteur de traits relatifs aux éléments du lexique. Ces traits décrivent la présence de l’élément, son nombre d’apparation, ou encore la position dans le document.
Présence Le concept de présence est binaire, soit l’élément du lexique apparaît, soit il est absent. Ce trait a montré son supériorité par rapport aux autres dans des travaux passés (Pang et Lee (2002, 2004)). Lors des expériences sur le corpus de critiques télévisuelles, nous essayons aussi une variante de la présence qui distingue la présence dans le titre et celle dans le texte.
Fréquence Nous testons aussi la fréquence de l’élément dans le document. Cette fréquence est le rapport du nombre de fois que l’élément est rencontré sur le nombre total d’éléments rencontrés dans le document. Il a été vu que ce trait utilisé avec des uni-grammes de mots n’aide pas à produire de meilleurs résultats. Néanmoins, nous préférons vérifier cela sur notre corpus.
Position Dans le domaine du cinéma, l’opinion est souvent statué soit au début, soit à la fin de la critique, le milieu du texte étant le plus souvent réservé à des détails descriptifs (DZICZKOWSKI (2008)). Nous expérimentons l’information des positions des éléments (e.g. début, milieu, fin, début et fin…) dans le document, pour représenter les critiques. Dans notre mise en oeuvre, on construit la liste des positions auxquelles le mot apparaît dans le document. On définit le début du texte comme le premier quart, et la fin comme le dernier quart. C’est aussi une alternative pour concevoir la présence, la fréquence et un minimum de séquentialité.

Expériences

Nous présentons ici les résultats concernant notre recherche d’un outil de fouille d’opinion générique. Dans ces expériences nous utilisons les corpus ParlonsTV et JEUXVIDEO.COM.
Lorsque nous parlons du corpus ParlonsTV (ou TV), nous faisons référence à une expérience faite avec le sous-corpus émissions-tv (697 positifs et 697 négatifs) pour l’entrainement et sériestv (468 positifs et 468 négatifs) pour le test. Lorsque nous parlons du corpus JEUXVIDEO.COM (ou JV), nous faisons référence à une expérience faite avec le sous-corpus NotesGénérale (1490 positifs et 1490 négatifs) critiques pour l’entrainement et Scénario (450 positifs et 450 négatifs) pour le test.

Attributs pour décrire les données

Différents attributs peuvent servir à classer les documents. Susuki et coll. (2006) utilisent les émoticônes et les mots d’exclamations tels que « phew » (souvent orthographié « pfff » par les français) pour leur valeur contextuelle. Nous expérimentons des attributs similaires pour classer les documents du corpus ParlonsTV.
Utilisation des émoticônes pour évaluer l’opinion Dans le corpus tiré du site de critiques d’émissions de télévision (ParlonsTV ), quelques documents contiennent des émoticônes et des acronymes. Nous tentons d’utiliser ces indices simple afin de classer les documents. Pour ces expériences, nous utilisons un lexique constitué d’émoticônes uniquement et faisons varier les traits de classifications décris dans 2.2.3 auxquels nous ajoutons des considérations sur la présence et fréquence dans le titre ou dans le texte. Nous utilisons les traits pres (présence du terme dans le document), pres-tt (présence du terme dans le titre et présence du terme dans le texte), freq (fréquence du terme dans le document, freq-tt (idem pres-tt avec la fréquence) et pos (positions auxquelles apparaissent le terme). La figure 4 montre les résultats que nous obtenons en ne décrivant les documents qu’avec les émoticônes qu’ils contiennent. Les mauvais résultats de la table (a) illustrent simplement le fait que trop peu de documents contiennent des émoticônes. Les résultats intéressants sont sur les tables (b) et (c) de la figure 4. On constate d’abord que SMO (l’implementation des Séparateur à Vaste Marge que nous utilisons) surpasse NB (Naive Bayes) lorsque les données ne sont pas équilibrées, et l’inverse lorsqu’elles sont équilibrées. Une explication à cela est que NB fonctionne par probabilité d’apparition dans un corpus où 135 documents sont positifs et seulement 43 négatifs, NB classe donc plus de documents négatifs à tord comme positifs. Ensuite, la fréquence d’apparition des émoticônes dans le document semble instructive selon la table (b) où le meilleur score est satisfaisant (80.1%), tandis que la position apporte les pires résultats. Néanmoins la table (c) indique l’importance de la position de l’émoticône dans le texte (avec pos, pres-tt et freq-tt ) pour un corpus équilibré. La table (d) présente de moins résultats que la table (c) car l’accronyme « lol » n’a pas une orientation (sentiment positif ou négatif) clairement défini. Pour conclure sur l’utilisation unique des émoticônes, nous considérons que la présence d’un émoticône n’est pas suffisante pour déterminer l’émotion exprimée dans le document.
Derks et coll. (2007) mettent en avant l’influence du contexte social sur la manière d’utiliser et sur la sémantique des émoticônes. Ce contexte peut-être capturé en analysant les mots dans le texte. Nous remarquons d’un autre coté que l’émoticône, comme l’expression du visage dans a) « Il va en falloir du temps pour se rendre compte que ces programmes se valent tous et se rebeller à notre tour pour exiger de meilleurs émissions à la télévision!On fera l’enfant capricieux en pleurnichant comme une jeune fille en fleur et même la super Mary Poppins n’y pourra rien sinon on sera amener à lui montrer notre côté « homme des cavernes »,en lui lançant des piques dans le derrière…:) »
b) « ..jvais vous faire une confidence 😉 approcher……j’ai toujours voulu à l’époque la carte club dorothée, bah jlai jamais eu :’( lool ».

Étude de l’influence des techniques de sélection du lexique

La sélection des éléments du lexique est un problème clé pour classification d’opinions. Nous expérimentons ici divers méthodes de sélections statistiques.
Nos premières expériences sont faites sur le corpus ParlonsTV et évaluons uniquement la représentation. Le processus d’évaluation est le suivant : le lexique est appris sur le sous-corpus émissions − tv, et l’évaluation est faite par validation croisée dans le sous-corpus séries − tv représenté selon la présence (pres) des mots ce lexique.
Expériences préliminaires Avant de lancer des expériences sur l’influence de la taille du lexique, nous essayons plusieurs méthodes de sélections du lexique pour un lexique de 100 éléments avec l’apprenant Naive Bayes (choisi pour sa rapidité). Les scores que nous considérons sont définis dans la section 2.2.2. La figure 5 présente les résultats pour les différentes sélections statistiques. Nous remarquons que le score δ tf défini précédemment marche assez bien, néanmoins le lexique obtenu présente beaucoup de mots vides, il en est de même lorsqu’on pondère les mots avec idf . Nous avons pondéré les mots sélectionnés par δ tf avec le score ρ k . Le paramètre k à été choisi en plusieurs essais sur le corpus TV en considérant un lexique de 1000 éléments. Dans la figure 6 on constate, les résultats se dégradent lorsqu’on exclus les mots trop fréquents. Cela peut dénoter l’importance des mots vides dans notre corpus, comme tend à le confirmer le résultat que l’on obtient en supprimant les des mots répertorié dans la liste de mots vides (F1 score de 0.796 contre 0.815 pour 1000 mots considérés). Suite à cette expérience, nous avons fixé k à 20, pour lequel la plupart des mots vides disparaissent du lexique. Notons que la remonté pour k = 20 est due à l’exclusion du mot « émission » spécifique au sous-domaine d’apprentissage.

Étude de l’influence des mots vides

Dans la plupart des expériences de classification d’opinions utilisant des uni-grammes, les mots vides sont systématiquement retirés du lexique. Il est considéré que ces mots n’apportent pas d’informations importantes pour la classification d’opinions. Nous pensons, au contraire, que les mots vides peuvent être des indices génériques pour la fouille d’opinions et cherchons à éliminer des mots trop présents dans le corpus tels que « émission » et dont le sens est trop spécifique au domaine. L’un des effets recherché du score que nous utilisons (δ tf ∗ ρ, voir sous-section 2.2.2) est l’exclusion des mots vides qui n’aident pas à la classification d’opinions. Dans la figure 11, on compare un lexique où les mots vides sont exclues à partir de ressources a priori (liste de mots vides pour le français), avec un lexique où ils sont exclus de manière statistique (δ tf ∗ ρ), et un lexique où les mots vides sont conservés. On observe que notre pondération ρ offre les moins bon résultats, néanmoins, lorsque taille du lexique augmente, ces résultats converge vers de meilleurs résultats qu’avec exclusion des mots vides à partir de ressources a priori. Les résultats obtenus lorsqu’on conserve les mots vides confirment l’avis d’utilité des mots vides pour la classification d’opinions.

Apprenant inter-domaine

Dans le domaine de la fouille d’opinions, les Séparateurs à Vaste Marge (SVM) ont la réputation de donner de bons résultats (Pang et coll. (2002)). Nous souhaitons dans cette expérience le vérifier, car ces classificateurs sont plus lents que Naive Bayes ou que les forêts aléatoires.
L’expérience confronte les classificateurs SMO (une implémentation de SVM), NB (Naive Bayes), RF (forêts aléatoires) et C4.5 (une implémentation populaire des arbres de décisions).
La figure 14 nous montre les courbes des résultats de classification en fonction de la taille du lexique. Nous mettons en correspondance les résultats obtenus en apprenant le modèle sur le corpus de test (comme dans les expériences sur la représentation), avec les résultats qui nous intéressent (apprentissage « intégral » du modèle sur l’ensemble d’entraînement). On remarque d’abord l’allure décroissante des courbes qui signifie que les éléments du lexique ont des valeurs (en terme de polarité) sensiblement différentes d’un sous-domaine à un autre. Ceci révèle bien un problème de portabilité. Les meilleurs apprenants dans ce test de portabilité sont SMO et RF tandis NB donne de meilleurs résultats dans un domaine fixe. La réputation des Séparateurs à Vaste Marge semble donc bien fondée. Globalement, les forêts aléatoire offre de bons résultats qui passent bien le domaine. Ceci s’explique facilement : le problème lors de l’apprentissage d’un modèle est le choix des dimensions dont l’importance varie selon le domaine, les forêt aléatoires font ce choix de manière aléatoire, le modèle est donc peu dépendant du corpus d’apprentissage.

Active Learning

État de l’art

L’annotation manuelle de textes d’opinions peut être un processus extrêmement coûteux.
En effet, une annotation fiable nécessite un accord entre plusieurs personnes. L’idée est donc de profiter des documents non annotés pour en tirer un maximum d’informations. Dans une approche active learning, un algorithme demande à un expert d’annoter les exemples dont il a le plus besoin pour apprendre. Ces exemples sont choisis de manière à réduire le nombre de données annotées. Il existe plusieurs types d’active learning (Dagan et Engelson (1995)), nous considérons le cas où l’apprenant choisit des exemples parmi un ensemble de données non annotées (selective sampling ), on parle dans ce cas de pool-based active learning.
Le principe d’un algorithme d’active learning est le suivant. On commence par un ensemble (graine) d’exemples annotés, bien que cet ensemble initial ne soit pas essentiel pour appliquer l’algorithme. Ensuite le processus est itératif : à chaque itération un (Baram et coll. (2004)) ou plusieurs (batch mode active learning (Tong et Koller (2002); Zhu et coll. (2008); Boiy et Moens (2009); Hoi et coll. (2009))) exemples sont choisis, puis annotés par des humains et ajoutés à l’ensemble d’apprentissage afin de réentraîner le classificateur jusqu’à ce qu’une condition d’arrêt soit atteinte. Les deux points clés de l’active learning, sont la sélection des exemples (qui doivent être les plus informatifs pour le classificateur) et la détermination du critère d’arrêt (Zhu et coll. (2008)). Tandis que le second point est souvent ignoré, le premier a été largement exploré.

Méthodes de sélection des exemples

Le problème de la sélection des exemples les plus informatifs pour le classificateur connais plusieurs solutions. Les techniques les plus adaptées à notre problème sont l’uncertainty sampling (les exemples choisis sont ceux pour lesquels le classificateur est le moins certain), le committee based sampling (les exemples choisis sont ceux qui génèrent un désaccord entre plusieurs classificateurs) et le Kernel Farthest First (les exemples choisis sont ceux les plus éloignés des données existante).
Aussi certains auteurs combinent plusieurs méthodes afin d’améliorer la sélection des exemples.
Uncertainty sampling Cette technique concerne la sélection des exemples à annoter pour lesquels le classificateur utilisé est le moins sûr. On attend de l’annotation de ces exemples que les exemples similaires seront mieux classés. La mesure de l’incertitude (uncertainty en anglais) dépend du classificateur utilisé. Cette mesure est simple à acquérir pour des classificateurs probabilistes, ainsi que pour les arbres de décisions, grâce à l’indication du degré de certitude pour chaque exemple apportée par ces classificateur. Pour les Séparateurs à Vaste Marge, l’incertitude peut-être mesurée comme la distance d’un exemple à l’hyperplan séparateur (Tong et Koller (2002)). En ne sélectionnant pas les exemples pour lesquels le classificateur est déjà sûr, on diminue les redondances d’informations. Pour résumer, une sélection par incertitude donne la priorité à l’apprentissage soit des exemples les moins similaires à ceux présents dans le corpus, soit des exemples ambiguës. Cette stratégie a donc pour rôle d’explorer le corpus.
Une méthode de sélection opposée, appelé relevance sampling (le principe est d’ajouté les exemples pour lesquels le classificateur prétend être le plus sûr), est utilisée par Boiy et Moens (2009) afin de préciser la classification.
Committee-based sampling L’idée est la même que pour l’uncertainty sampling, on donne la priorité au données ambiguës. La principale différence est que la sélection des ces données est faite par un consensus de classificateurs (Dagan et Engelson (1995)). La mesure que nous utilisons ici est le désaccord entre les classificateurs.
Kernel Farthest First Une alternative aux algorithmes utilisant les résultats de classifications est l’approche géométrique dans un hyper-espace. Dans la méthode du kernel farthest first (Baram et coll. (2004)) l’exemple le plus éloigné de l’ensemble des exemples déjà annotés est choisi pour être annoté. Cette méthode est utilisée par Baram et coll. (2004); Boiy et Moens (2009) pour faire de l’active learning avec SVM.
Combinaisons de plusieurs méthodes Dans la littérature, on constate que certains algorithmes de sélection des exemples sont mieux adaptées à un problème qu’à un autre (Baram et coll. (2004)). Boiy et Moens (2009) combinent le relevance sampling et l’uncertainty sampling, afin de conserver un équilibre entre les classes grâce à la connaissance apportée par le relevance sampling tout en ajoutant des exemples incertains. Baram et coll. (2004) combinent plusieurs algorithmes (chacun spécialisés pour un problème différent) en utilisant un algorithme de Multi
Armed Bandit (Auer et coll. (2002) ; le principe de cet algorithme est de prendre en compte les avis de tous les algorithmes et de récompenser ceux qui offre une meilleure répartition desclasses) pour obtenir un algorithme résolvant tous les problèmes.

Évaluation des méthodes

Afin d’évaluer l’active learning, on compare généralement les résultats obtenus par une sélection aléatoire des exemples avec ceux obtenus avec la méthode de sélection testée. La figure 15 illustre les courbes théorique des résultats obtenus en faisant une sélection aléatoire (PASSIVE) et ceux obtenus avec la méthode d’active learning (ACTIVE). Quelques auteurs (e.g. Tong et Koller (2002)) testent la précision obtenue pour un nombre fixé d’exemples ou d’itérations.
D’autres auteurs (e.g. Roy et McCallum (2001)) se contente de visualiser la courbe des précisions obtenues en fonction du nombre d’exemples ajoutés pour démontrer les avantages de leur methode en terme de vitesse d’apprentissage. Baram et coll. (2004) propose une mesure qui permet d’évaluer l’efficacité d’une méthode de sélection des exemples sur l’ensemble des itérations.
Cette mesure, illustrée dans la figure 15, quantifie la déficience d’une fonction de requête par rapport aux résultats obtenus avec l’aléatoire (correspondant à la sélection passive standard).
Étant donné un ensemble d’exemples non-annotés échantillonnés en n instances. Soit PASSIVE la sélection aléatoire et ACTIVE la méthode de sélection à évaluer. Pour chaque 1 ≤ t ≤ n, on définit Scoret (P ASSIV E) et Scoret (ACT IV E) comme étant la moyenne des performances obtenues par les sélections correspondantes d’un ensemble d’apprentissage de t instances.

Expériences

Dans cette partie, nous présentons nos résultats d’expériences d’active learning pour la fouille d’opinion. Nous explorons les méthodes sur un corpus utilisé par beaucoup de gens du domaine (Pang et coll. (2002); Boiy et Moens (2009)) et sur notre corpus ParlonsTV (on utilise toujours les commentaires des notes générales pour classer ceux sur le scénario). Nous évaluons les méthodes avec les concept de déficience, attaque et supériorité présentés dans les sous-sections 3.1 et 3.2. Lors de notre évaluation, l’active learning est effectué sur un corpus d’entraînement (où théoriquement les documents ne sont pas annotés) et l’évaluation est faite sur un corpus de test (où théoriquement les documents sont annotés) avec la sélection statistique du lexique δ tf et l’apprenant Naive Bayes vus dans la sous-section 2.2. Le nombre de mots étant variable d’une itération à l’autre, nous choisissons une taille de dictionnaire variable (2% du nombre total de mots rencontrés pendant l’itération). Dans nos expériences, on considère qu’une attaque est bonne lorsqu’elle est proche de 0, même si cette définition semble étrange, elle permet de conserver la déficience pour les premières itérations.
Premier test avec un corpus standard Nous réutilisons le corpus de critiques de cinéma de Pang et Lee (2008). Ce corpus contiens 2000 évaluations de cinéma (1000 positives, 1000 négatives), caractérisées par un vocabulaire varié (typiquement mélange de mots qui décrivent le film et de mots qui décrivent l’évaluation de ce film). Pour évaluer, on a découper le corpus de manière équilibrée en deux corpus de 1320 documents pour l’entraînement et de 600 documents pour le test.

Conclusions

Dans ce rapport, nous avons expérimenté des techniques génériques pour faire de la fouille d’opinions. Nous avons vu dans l’ordre, les problèmes de représentation des documents puis rapidement celui du choix du classificateur à utiliser et finalement nous avons utilisé l’active learning dans l’espoir d’augmenter la généricité de notre approche. Nous avons d’abord explorer le problème d’une sélection du lexique par apprentissage supervisé, et fait ressortir une simple formule qui permet choisir les mots discriminants d’après leur fréquences d’apparition dans les classes considéré (positif et négatif). Nous avons aussi tenté d’éliminer les mots vides (et en général les mots trop fréquents trop spécifiques au domaine) de manière statistique. En marge des mots traditionnels, nous avons tenté d’utiliser des émoticônes dans la classification. Certaines conclusions de Pang et coll. (2002), telles que l’efficacité de la représentation utilisant la présence des uni-grammes et le potentiel des Séparateurs à Vastes Marges (qui dans les expériences de selection du lexique offraient de résultats moins bon que Naive Bayes et qui dans les expériences tentant de faire de la validation inter-domaine offre des résultats encourageant), ont été confirmées. Naive Bayes nous a donné de bons résultats dans de nombreux cas, sauf lorsque le domaine d’apprentissage des données est différent de celui des données de test. Aussi, pour ce problème, la technique des forêts aléatoires semble construire un modèles assez générique.
Grâce à l’active learning, nous sommes capables d’obtenir de meilleurs résultats en réduisant le nombre des exemples à annotées. De plus, nous mettons en relief deux manières d’améliorer les méthodes de sélection par incertitude (telles que uncertainty sampling et committee-based sampling ). L’utilisation de ces méthodes permet donc la construction d’un classificateur pour la fouille d’opinions assez générique. Les perspectives à ce sujet sont de nombreuses améliorations liées à l’architecture du classificateur.
Perspectives Nous pensons qu’une architecture en cascade (Boiy et Moens (2009)) de plusieurs classificateurs, capables respectivement de détecter la subjectivité, d’utiliser les émoticônes pour améliorer la classification (Yasuhiro et coll. (2006)), et faisant finalement une agrégation entre plusieurs classificateurs (DZICZKOWSKI (2008)), pourrait offrir de bons résultats. Le domaine de l’active learning est aussi très prometteur, néanmoins pour sa mise en pratique le problème du critère d’arrêt (Zhu et coll. (2008)) est à explorer en priorité.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
1 Le problème de fouille d’opinions
1.1 Représentation de données
1.2 Classification
1.3 Évaluation des méthodes
1.4 Problème de la portabilité
2 Approche du problème
2.1 Les données
2.2 Chaîne de traitements
2.2.1 Pré-traitement
2.2.2 Sélection statistique du lexique
2.2.3 Traits
2.2.4 Classificateurs
2.3 Expériences
2.3.1 Attributs pour décrire les données
2.3.2 Étude de l’influence des techniques de sélection du lexique
2.3.3 Apprenant inter-domaine
3 Active Learning
3.1 État de l’art
3.1.1 Méthodes de sélection des exemples
3.1.2 Évaluation des méthodes
3.2 Active Learning pour la fouille d’opinions
3.2.1 Les méthodes de sélections
3.3 Expériences
4 Conclusions