Le traitement du corpus documentaire par les approches statistiques
De la Recherche dโInformation ร lโAnalyse des Sentiments
Dans les dix derniรจres annรฉes les tรขches de gestion basรฉes sur le contenu de documents (collectivement connu sous le nom de ยซย Recherche dโInformationย ยป – ang : Information Retrieval – IR) ont acquis un statut important dans le domaine des systรจmes dโinformation, en raison de lโaugmentation de la disponibilitรฉ des documents sous forme numรฉrique et de la nรฉcessitรฉ dโy accรฉder en souplesse.
La Catรฉgorisation de Texte (ang : Text Categorization – TC), lโactivitรฉ de lโรฉtiquetage des textes en langage naturel avec des catรฉgories de thรฉmatiques prรฉdรฉfinies, est une de ces tรขches. Celle-ci remonte au dรฉbut des annรฉes 60, mais elle nโest devenue lโun des principaux sous-domaines de la discipline des systรจmes dโinformation quโau dรฉbut des annรฉes 90, grรขce ร un intรฉrรชt accru et ร la disponibilitรฉ de matรฉriels plus puissants. La catรฉgorisation de texte est actuellement appliquรฉe dans de nombreux et diffรฉrents contextes : lโindexation de documents basรฉe sur un lexique, le filtrage de documents, la gรฉnรฉration automatique de mรฉtadonnรฉes, la suppression de lโambigรผitรฉ du sens des mots, le peuplement des catalogues hiรฉrarchique de ressources Web, et en gรฉnรฉral toutes les applications nรฉcessitant lโorganisation de documents ou le traitement sรฉlectif et lโadaptation de documents [Sebastiani (2002)].
Actuellement la ยซย TCย ยป est un domaine entre lโApprentissage Automatique (ang : Machine Learning – ML) et la Recherche dโInformation (IR). Elle partage un certain nombre de caractรฉristiques avec dโautres tรขches telles que lโextraction de connaissances ร partir de textes et la Fouille de Textes (ang : Texte Mining) [Knight (1999), Pazienza (1997)]. La ยซย MLย ยป dรฉcrit un processus inductif gรฉnรฉral qui construit automatiquement un classificateur de texte par lโapprentissage, ร partir dโune sรฉrie des documents prรฉclassifiรฉs ou de caractรฉristiques de catรฉgories dโintรฉrรชts. La Fouille de Textes est un ensemble de traitements informatiques consistant ร extraire des connaissances selon des critรจres de nouveautรฉ ou de similaritรฉ dans des textes produits par des humains pour des humains [Joachims & Sebastiani (2002), Lewis & Haues (1994)].
Un domaine utilisant les techniques de IR, TC, ML ou Fouille de Texte est notamment le domaine de lโAnalyse des Sentiments, connu sur le nom de (ang : Opinion Mining). La recherche dans ce domaine couvre plusieurs sujets, notamment lโapprentissage de lโorientation sรฉmantique des mots ou des expressions, lโanalyse sentimentale de documents et lโanalyse des opinions et attitudes ร lโรฉgard de certains sujets ou produits.
La Catรฉgorisation de Texte a รฉtรฉ utilisรฉe dans un certain nombre dโapplications diffรฉrentes. Les premiรจres applications concernรฉes รฉtaient lโindexation automatique pour les systรจmes de Recherche dโInformation (IR) boolรฉens. Les premiรจres recherches dans le domaine ont รฉtรฉ effectuรฉes par Borko et Bernick [Borko & Bernick (1963)], Gray et Harley [Gray & Harley (1971)], Heaps [Heaps (1973), Maron [Maron (1961)]. A chaque document est attribuรฉ un ou plusieurs mots ou expressions clรฉs dรฉcrivant son contenu, ces mots et expressions clรฉs appartiennent ร un ensemble fini appelรฉ dictionnaire contrรดlรฉ, souvent composรฉ dโun thesaurus thรฉmatique hiรฉrarchique (par exemple, le thesaurus de NASA pour la discipline aรฉronautique, ou le thรฉsaurus de MESH pour la mรฉdecine) [Sebastiani (2002)]. Habituellement, cette attribution est effectuรฉe par des indexeurs manuels, et cโest donc une activitรฉ coรปteuse. Divers classificateurs de texte explicitement conรงus pour lโindexation de documents ont รฉtรฉ dรฉcrit dans la littรฉrature, par exemple : Fuhr et Knorz [Fuhr & Knorz (1984)], Robertson et Harding [Robertson & Harding (1984)], et Tzeras et Hartmann [Tzeras & Hartmann (1993)].
Lโindexation automatique utilisant les dictionnaires est รฉtroitement liรฉe ร la gรฉnรฉration automatique de mรฉtadonnรฉes. Dans les bibliothรจques numรฉriques, nous sommes souvent plus intรฉressรฉs par le marquage des documents par des mรฉtadonnรฉes qui les dรฉcrivent sous diffรฉrents aspects (par exemple, date de crรฉation, type de document ou le format, disponibilitรฉ, etc.). Le rรดle de certaines de ces mรฉtadonnรฉes est de dรฉcrire la sรฉmantique du document de la signification des codes bibliographiques, des mots-clรฉs ou des phrases-clรฉs.
Lโindexation avec un vocabulaire contrรดlรฉ est un exemple de la problรฉmatique gรฉnรฉrale dโorganisation du document. Le plus souvent, de nombreux autres problรจmes relatifs ร lโorganisation et au classement du document, que ce soit pour des organisations personnelles ou la structuration dโun document de base dโentreprise, peuvent รชtre rรฉglรฉes par les techniques de TC. Dans les bureaux dโun journal, par exemple, les annonces doivent รชtre classรฉes dans les catรฉgories telles que les rencontres, voitures ร vendre, immobilier, etc. avant les publications. Les journaux avec un grand nombre dโannonces bรฉnรฉficieraient dโun systรจme automatique qui pourrait choisir pour une annonce la catรฉgorie donnรฉe la plus appropriรฉe. Dโautres applications possibles sont les applications dโorganisation des brevets en catรฉgories pour rendre leur recherche plus facile [Larkey (1999)], le classement automatique des articles de journaux sous les sections appropriรฉes (par exemple, la politique, รฉvรฉnements, styles de vie, etc.), ou le regroupement automatique en sessions des papiers de confรฉrence [Sebastiani (2002)].
Une autre application des techniques de TC est le Filtrage de Textes (ang : Text Filtering – TF). Le Filtrage de Textes est lโactivitรฉ de classification dโun flux de documents expรฉdiรฉs de maniรจre asynchrone par un producteur dโinformation ร destination dโun consommateur dโinformation [Belkin & Croft (1992)]. Un cas typique est une situation dans laquelle le producteur est une agence de presse et le consommateur est un journal [Hayes et al. (1990)]. Dans ce cas, le systรจme de filtrage doit empรชcher la livraison de documents qui nโintรฉressent pas le consommateur. Le filtrage peut รชtre considรฉrรฉ comme un cas de TC de lโรฉtiquetage, cโest la classification des documents en deux catรฉgories disjointes, la catรฉgorie ยซย pertinentsย ยป et la catรฉgorie ยซย non pertinentsย ยป. En outre, un systรจme de filtrage peut รฉgalement classer les documents jugรฉs pertinents pour le consommateur en catรฉgories thรฉmatiques, en classant par exemple ร part les articles de sport pour un journal de sport. Tous les articles de sports devraient รชtre classรฉs en fonction du sport quโils traitent, de maniรจre ร permettre aux journalistes spรฉcialisรฉs dans des sports individuels dโaccรฉder uniquement aux documents les concernant. De mรชme, un systรจme de filtrage des mails peut filtrer les spam ainsi que classer les messages dans des catรฉgories thรฉmatiques pour lโutilisateur [Androutsopoulos et al. (2000), Drucker et al.(1999)]. Un systรจme de filtrage peut รชtre installรฉ chez le producteur dโinformation, dans ce cas il doit envoyer les documents seulement ร des consommateurs intรฉressรฉs, ou chez tous les consommateurs. Dans ce cas il doit bloquer la livraison de documents jugรฉs sans intรฉrรชt pour le consommateur. Dans le premier cas, le systรจme construit et met ร jour un ยซย profilย ยป pour chaque consommateur [Liddy et al. (1994)], alors que dans le dernier cas un seul profil est nรฉcessaire. Le filtrage dโinformation en utilisant les techniques de ML est largementย dรฉbattu dans la littรฉrature : Amati et Crestani [Amati & Crestani (1999)], Iyer et al. [Iyer et al. (2000)], Kim et al. [Kim et al. (2000)], Tauritz et al. [Tauritz et al. (2000)], et Yu et Lam [Yu & Lam (1998)].
Les techniques de TC permettent รฉgalement de lever lโambigรผitรฉ sur le sens des mots (ang : Word Sense Disambiguation – WSD). La WSD est lโactivitรฉ de recherche dans un texte des sens des mots ambigus. Un seul mot peut avoir plusieurs significations. La tรขche du systรจme WSD est donc de dรฉcider de quel des sens il sโagit. La WSD est trรจs importante pour de nombreuses applications, y compris le traitement du langage naturel et lโindexation des documents par le sens des mots. La WSD peut รชtre considรฉrรฉe comme une tรขche de TC [Gale et al. (1993), Escudero et al. (2000)] si nous considรฉrons le contexte dโoccurrence des mots comme un document et le sens du mot comme une catรฉgorie. La WSD est juste un exemple du problรจme plus gรฉnรฉral consistant ร lever les ambiguรฏtรฉs du langage naturel, un des problรจmes les plus importants en linguistique computationnelle.
Parmi dโautres applications qui sont basรฉes sur les techniques de TC nous pouvons citer la catรฉgorisation des discours par combinaison de la reconnaissance de la parole [Myers et al. (2000), Schapire & Singer (2000)], la catรฉgorisation de documents multimรฉdias ร travers lโanalyse de lรฉgendes [Sable & Hatzivassiloglou (2000)], lโidentification dโauteur de textes littรฉraires dโauteur inconnu [Forsyth (1999)], lโidentification de la langue pour les textes de langue inconnue [Cavnar & Trenkle (1994)], lโidentification automatique du genre du texte [Kessler et al. (1997)], le classement automatisรฉ des essais [Larkey (1998)] et la catรฉgorisation hiรฉrarchique des pages Web [Attardi et al. (1998), Furnkranz (1999), Oh et al. (2000), Yang et al. (2002)].
|
Table des matiรจres
1 Introduction
1.1 Prรฉsentation du sujet
1.2 Organisation du rapport
2 Le traitement du corpus documentaire par les approches statistiques
2.1 De la Recherche dโInformation ร lโAnalyse des Sentiments
2.2 La Catรฉgorisation de Texte
2.3 LโApprentissage Automatique
2.4 Reprรฉsentation des corpus documentaires
2.4.1 Lโunitรฉ linguistique
2.4.2 Prรฉtraitement du texte
2.4.3 Lโindexation des documents et la rรฉduction de dimension
2.5 Les techniques de classification
2.5.1 Classificateur de Bayes
2.5.2 Calcul dโun classificateur par la mรฉthode des SVM
2.5.3 Calcul dโun classificateur par la mรฉthode des arbres de dรฉcision
2.5.4 Rรฉseau de neurones
2.5.5 Mesure de performance
2.6 Conclusion
3 Analyse des sentiments
3.1 Opinion Mining, Analyse des Sentiments
3.2 Les besoins de connaitre des sentiments des autres
3.3 La complexitรฉ de notation dโopinion
3.4 Dรฉtection de phrases subjectives
3.5 La polaritรฉ et lโintensitรฉ de lโopinion
3.6 Diffรฉrents approches pour lโanalyse des sentiments
3.6.1 Le rรดle de n-grammes dans la classification
3.6.2 Lโimportance des adjectifs
3.6.3 Traitement de la nรฉgation
3.6.4 Utilisation des mรฉthodes dโapprentissage automatique
3.6.5 Approche de Dave
3.6.6 Utilisation de bootsraping
3.7 Conclusion
4 Analyse linguistique
4.1 Les systรจmes de comprรฉhension de textes
4.1.1 Solutions proposรฉes
4.1.2 Le systรจme UNITEX
4.1.3 Les dictionnaires
4.1.4 Le rรฉseaux des transitions rรฉcursives
4.1.5 Les tables de lexique-grammaire
4.2 Extraction automatique dโinformation
4.3 Conclusion
5 Conclusion
Tรฉlรฉcharger le rapport complet