Télécharger le fichier pdf d’un mémoire de fin d’études
Processus gÈnÈral de recherche d’information
Le processus de recherche d’information a pour objectif d’Ètablir une correspondance pertinente entre l’information recherchÈe par l’utilisateur, reprÈsentÈe gÈnÈralement par le biais d’une requÍte, et l’ensemble des documents disponibles. Il s’articule donc au-tour de trois ÈlÈments-clÈs : le document, la requÍte et la notion de pertinence. Avant de prÈsenter les grandes Ètapes du processus de RI, nous proposons de revenir sur la dÈ nition de ses trois acteurs principaux.
Principaux acteurs du processus
Le document
La notion de document est particuliËrement complexe ‡ dÈ nir (se rÈfÈrer no-tamment ‡ (Saracevic, 1996)). Dans son acception courante, l’une des dÈ nitions possibles de ce terme est de considÈrer un document comme le support physique d’une information. Dans le cas des donnÈes susceptibles d’Ítre manipulÈes par un SRI, ce support physique (et plus particuliËrement numÈrique) peut correspondre ‡ un texte (dans son intÈgralitÈ ou un extrait), une page Web, une image, une sÈquence vidÈo ou sonore… Un document est, dans ce cadre, dÈ ni comme toute unitÈ susceptible de constituer une rÈponse ‡ une requÍte d’un utilisateur. Pour notre part, nous nous intÈressons uniquement au document textuel. Un document-texte peut Ítre reprÈsentÈ selon trois vues (Sauvagnat, 2005; Fuhr, 2005) : la vue prÈsentation qui dÈcrit la reprÈsentation sur un medium ‡ deux dimensions (alignement de paragraphes, indenta-tion, en-tÍtes et pieds de pages…), la vue logique qui contient des informations sur la structure et la partition d’un document (e.g. une structuration en chapitres, sections…) et la vue contenu, appelÈe Ègalement vue sÈmantique, qui se concentre sur le contenu textuel du document, c’est-‡-dire l’information qui y est vÈhiculÈe. Les reprÈsentations logiques sont parfois intÈgrÈes en RI dans la notion de document. Une partie de la communautÈ RI voit en e et dans la structure un moyen d’amÈliorer la reprÈsentation des documents et de localiser plus prÈcisÈment l’information recherchÈe. Ces travaux appartenant ‡ la recherche d’information dite structurÈe (RIS) sont actuellement en plein essor, comme en tÈmoigne la crÈation rÈcente d’une confÈrence sur l’Èvaluation des SRI structurÈs (cf. la campagne d’Èvaluation inex3). Pour notre part, nous considÈrons le document uniquement du point de vue de son contenu sÈmantique (la vue contenu). L’unitÈ documentaire est donc reprÈsentÈe par un support physique (le texte) associÈ
‡ une information vÈhiculÈe par son contenu sÈmantique. L’ensemble des documents mis ‡ disposition du SRI pour lui permettre de retrouver l’information recherchÈe par l’utilisateur constitue la base documentaire (Ègalement nommÈ fonds documentaire ou encore collection de documents).
La requÍte
La requÍte se dÈ nit en RI au sein d’un processus cognitif plus large reprÈ-sentÈ par le besoin d’information d’un utilisateur. Ce besoin correspond ‡ l’expression mentale de l’information qu’il recherche. Le passage d’un besoin d’information ‡ son expression en des termes comprÈhensibles par le SRI est une t‚che di cile. Dans l’idÈal, l’utilisateur devrait avoir des connaissances sur le systËme lui-mÍme (e.g. connaÓtre les mÈcanismes de recherche utilisÈs par le SRI), sur la collection de documents disponibles, sur les thËmes associÈs ‡ ces documents… ParallËlement, le SRI devrait pouvoir s’adapter au contexte prÈcis du besoin de l’utilisateur, e.g. connaÓtre son degrÈ d’expertise dans le domaine de l’information recherchÈe, ses centres d’intÈrÍts, ses prÈfÈrences de recherches (type de documents, langue…). Bien que les travaux de recherche en RI portant sur une description plus prÈcise et plus pertinente du besoin d’information soient de plus en plus nombreux (voir notamment les diverses Ètudes liÈes ‡ la personnalisation de l’information ou ‡ la RI basÈe sur le pro l de l’utilisateur), le processus utilisÈ en RI traditionnelle pour passer de ce besoin ‡ une forme directement exploitable par le SRI reste basique. Il s’appuie exclusivement sur l’utilisateur qui exprime son besoin d’information en formulant une requÍte sous forme de mots-clÈs ou de phrases en langage naturel. La requÍte peut donc Ítre considÈrÈe comme une description partielle du besoin d’information (les mots-clÈs Ètant souvent imprÈcis et ambigus) ‡ un instant donnÈ. Le caractËre Èvolutif de ce besoin (i.e. le fait qu’il peut Èvoluer au fur et ‡ mesure que l’utilisateur acquiert des ÈlÈments d’information supplÈmentaires) n’est par consÈquent pas pris en compte. Les requÍtes reprÈsentÈes par un ensemble de mots-clÈs sont gÈnÈralement plutÙt courtes (pour le cas du Web par exemple, la moyenne de mots les composant Ètait de 2,44 pour l’annÈe 2005). Selon le modËle de RI utilisÈ pour la reprÈsentation du contenu des requÍtes, ces mots-clÈs sont parfois reliÈs ‡ l’aide d’opÈrateurs boolÈens (ET, OU, NON…). Les requÍtes formulÈes en langage naturel o rent quant ‡ elles ‡ l’utilisateur la possibilitÈ d’exprimer plus librement ce qu’il recherche. Elles nÈcessitent gÈnÈralement, pour pouvoir Ítre reprÈsentÈes et interprÈtÈes par le SRI, de faire appel ‡ des traitements linguistiques.
Indexation des documents et requÍtes
L’indexation automatique consiste, nous l’avons vu, ‡ extraire des documents et requÍtes l’ensemble des mots susceptibles de reprÈsenter au mieux leurs contenus sÈ- Indexation et mÈcanismes fondamentaux de recherche d’information 19 mantiques. La sÈlection de ces termes d’indexation nÈcessite toutefois de rÈpondre aux trois questions suivantes :
– qu’entend-on exactement par mot ? Comment les identi er au sein des textes ?
– comment choisir, parmi tous les mots d’un texte ou d’une question, ceux qui sont les plus signi catifs ?
– comment reprÈsenter leurs di Èrents degrÈs de reprÈsentativitÈ du contenu tex-tuel ?
Les sections suivantes s’attachent ‡ dÈcrire les mÈthodes gÈnÈralement utilisÈes en RI pour rÈpondre ‡ ces questions.
Reconnaissance des mots
La premiËre Ètape de reprÈsentation des documents et requÍtes consiste ‡ segmen-ter le texte en une suite d’unitÈs lexicales ÈlÈmentaires, prenant classiquement en RI la forme de mots. Le traitement associÈ est la tokenisation. Cette phase est beaucoup moins Èvidente qu’il n’y paraÓt, la notion de mot Ètant particuliËrement complexe ‡ dÈ nir. Une des dÈ nitions possibles consiste ‡ considÈrer un mot comme une suite de caractËres graphiques (pour la langue Ècrite) formant une unitÈ sÈmantique et pouvant Ítre dis-tinguÈe par des sÈparateurs. La plupart des SRI s’appuie sur cette dÈ nition pour leur segmentation. La principale di cultÈ de ce traitement rÈside dans la sÈlection des dÈli-miteurs utilisÈs pour Ètablir les frontiËres entre mots. Ceux-ci, gÈnÈralement reprÈsentÈs par le blanc typographique et les signes de ponctuation, sont dans certains cas problÈ-matiques, comme l’illustrent les di Èrentes unitÈs suivantes : aujourd’hui , 3h, aprËs-midi , Mr J.-P. Martin, parce que, l’O.N.U … Ces di cultÈs sont plus ou moins importantes se-lon les langues prises en compte. Pour les langues germaniques comme l’allemand par exemple, il est nÈcessaire de prendre en considÈration leur nature fortement agglutinante (i.e. la prÈsence de plusieurs mots au sein d’une mÍme chaÓne de caractËres). Pour de nombreuses langues asiatiques, la t‚che est encore plus ardue, celles-ci ne disposant d’aucun dÈlimiteur visible entre mots. Certains SRI s’a ranchissent de ce traitement de tokenisation et s’appuient, pour extraire les unitÈs textuelles, sur des modËles de n-grammes. Le texte est considÈrÈ comme une suite de N caractËres consÈcutifs. Pour une position i (o˘ 1 • i • N) dans le texte, on sÈlectionne une suite de n caractËres consÈcutifs. Le texte est alors reprÈsentÈ par l’ensemble de ces extraits .
D’une maniËre gÈnÈrale, la notion de mot (considÈrÈ comme une suite de caractËres comprise entre deux sÈparateurs) telle qu’elle est prise en compte par la majoritÈ des SRI est trËs rÈductrice de la richesse de la langue. En e et, elle ne permet pas de rendre compte par exemple du phÈnomËne de variation linguistique (i.e. considÈrer par exemple que les quatre mots beau, belle, beaux et belles correspondent en fait ‡ une seule et mÍme unitÈ lexicale), ni du fait qu’il existe des relations entre les termes (i.e. considÈrer par exemple que les ÈlÈments de l’expression e et de serre forment une unitÈ de sens ‡ part entiËre, dont la signi cation dÈpasse celle de ses ÈlÈments pris isolÈment). Une solution souvent adoptÈe pour reprÈsenter le contenu textuel par des unitÈs plus nes que de simples chaÓnes de caractËres consiste ‡ appliquer une analyse linguistique des textes et des questions, qui permet de considÈrer les mots comme des entitÈs linguistiques ‡ part entiËre. Le deuxiËme chapitre de ce mÈmoire revient plus en dÈtail sur l’apport de ces traitements linguistiques en RI.
Les documents et requÍtes ayant ÈtÈ segmentÈs en une suite de mots, il convient alors de sÈlectionner ceux qui sont les plus susceptibles d’Ítre de bons candidats pour reprÈsenter leurs contenus sÈmantiques respectifs. Cette Ètape fait l’objet de la section suivante.
SÈlection des termes d’indexation
La phase de sÈlection des termes d’indexation est fondamentale dans le processus de RI : ce sont en e et ces termes qui vont reprÈsenter les documents et requÍtes au sein du SRI. Il convient donc de choisir ceux qui re Ëtent le mieux leur contenu sÈmantique. Cette sÈlection est gÈnÈralement liÈe ‡ une phase de pondÈration dÈcrite en section suivante. Dans l’idÈal, les termes retenus doivent, d’une part, Ítre le plus univoque et discriminant possible et, d’autre part, Ítre en nombre limitÈ a n de ne pas complexi er les calculs e ectuÈs lors de la comparaison des reprÈsentations. Plusieurs traitements complÈmentaires peuvent Ítre utilisÈs par les SRI pour pouvoir rÈpondre ‡ ces deux exigences.
…limination des mots-vides
Le premier traitement consiste ‡ supprimer les mots dont on sait par avance qu’ils sont peu informatifs. Ce sont gÈnÈralement des mots dits grammaticaux (comme les prÈpositions ‡, de, les articles le, la, un, des , les pronoms ce, lui ou encore les auxiliaires Ítre, avoir …), ou des mots trËs frÈquents au sein d’une collection de textes donnÈe (par exemple, le mot informatique dans un corpus spÈcialisÈ dans ce domaine). L’Èlimination de ces mots, nommÈs le plus souvent mots-vides, se fait par le biais d’anti-dictionnaires (ou stop-lists) qui recensent l’ensemble des mots d’une langue considÈrÈs comme non pertinents pour l’indexation. Ces listes sont utilisables d’une collection ‡ une autre et peuvent Ítre complÈtÈes par les mots courants spÈci ques au domaine ÈtudiÈ.
Analyse basÈe sur les frÈquences d’occurrences des mots
Le second traitement consiste ‡ choisir les termes d’indexation en fonction de leur frÈquence d’apparition dans les textes. Il s’appuie sur des mÈthodes numÈriques qui trouvent principalement leurs origines dans la loi de Zipf (1949) et la conjecture de Luhn (1978).
Les travaux de Zipf gurent parmi les premiers ‡ avoir dÈcrit la rÈpartition statis-tique des frÈquences d’apparition des mots au sein des textes et constatÈ des rÈgularitÈs. Ils montrent que si les termes sont rangÈs par ordre dÈcroissant de leur frÈquence d’ap-parition au sein d’un texte (ou d’une collection), il existe alors une relation entre le rang de ces termes et leur frÈquence. Cette relation (reprÈsentÈe par l’hyperbole dans la gure 1.2) peut s’exprimer par la formule suivante : rang ⁄ (f requence¶ du terme=nombre de termes) = constante qui signi e que si le rang d’un mot est multipliÈ par le nombre de fois o˘ il apparaÓt dans les textes, on aura tendance ‡ trouver un nombre constant. Par exemple, si le mot le plus frÈquent d’un texte (rang = 1) apparaÓt 1000 fois, le deuxiËme mot aura tendance.
‡ se trouver 500 fois dans le texte et ainsi de suite… ¿ la n de cette liste, on trouvera 1000 mots n’ayant ÈtÈ utilisÈs qu’une seule fois dans le texte. La loi de Zipf est l’une des premiËres ‡ avoir montrÈ que les mots dans les documents ne s’organisent pas de maniËre alÈatoire.
Il a Ègalement ÈtÈ dÈmontrÈ, notamment dans (Rijsbergen, 1979), que dans un texte, la valeur informative d’un mot peut s’exprimer sous la forme d’une gaussienne en fonction du rang des termes d’un document. Cette courbe, illustrÈe en gure 1.2, montre que les termes les plus informatifs ne sont ni ceux qui ont une frÈquence ÈlevÈe (e.g. les mots-vides) ni ceux qui apparaissent trËs peu (les mots mal orthographiÈs ou les nÈologismes par exemple). La conjecture de Luhn (1978) s’appuie sur cette observation pour spÈci er des seuils (correspondant aux seuils min et max sur la gure 1.2) qui dÈterminent le pouvoir d’expression des termes. Les mots situÈs au-del‡ du seuil maximum sont considÈrÈs comme trop communs et ceux en deÁ‡ du seuil minimal comme trop rares. Un terme qui se situe entre ces deux extrÍmes a par consÈquent de forte chance d’Ítre reprÈsentatif du contenu informationnel. Ces seuils sont dÈpendants de la collection utilisÈe. Il est donc gÈnÈralement nÈcessaire de procÈder par essais successifs pour trouver leurs valeurs optimales. Pour limiter l’intervention humaine, Salton (1975), aprËs plusieurs expÈrimentations, propose de considÈrer comme termes
‡ bon pouvoir discriminant les mots ayant une frÈquence en documents comprise dans h i l’intervalle 100jCj ; j10Cj , o˘ jCj correspond au nombre de mots dans la collection. Cette conjecture, qui prÈsente Ègalement l’avantage de rÈduire le nombre de mots ‡ utiliser pour la description des textes, permet de sÈlectionner les termes qui sont considÈrÈs comme reprÈsentatifs du contenu informationnel des documents et requÍtes.
L’Ètape suivante consiste ‡ attribuer ‡ chacun des termes retenus un poids en fonc-tion de son degrÈ de reprÈsentativitÈ. Nous explicitons ‡ prÈsent les mesures de pondÈ-ration traditionnellement utilisÈes en RI.
Processus de recherche des documents pertinents
Le processus de recherche est fondamental en RI puisque c’est lui qui permet aux SRI d’Ètablir un lien entre les documents de la collection et la requÍte. Cette Ètape Ètant Ètroitement liÈe aux spÈci citÈs des modËles de RI utilisÈs par ces systËmes (prÈsentÈs en section 1.3), nous n’en dÈtaillons ici que les principes fondamentaux.
L’objectif du processus de recherche est de mesurer la pertinence d’un document par rapport ‡ une requÍte. Pour y parvenir, il s’agit tout d’abord de donner une in-terprÈtation aux descripteurs obtenus lors de la phase d’indexation. Pour cela, on crÈe dans un premier temps, en s’appuyant sur le formalisme dÈ ni par le modËle de RI, une reprÈsentation interne des textes et des questions ‡ partir de leurs termes d’indexation. Ces reprÈsentations, utilisant un formalisme identique, peuvent alors Ítre comparÈes les unes aux autres. Le rÈsultat de cette comparaison se traduit par un score qui dÈtermine le degrÈ de pertinence du document par rapport ‡ la requÍte. La pertinence est celle du systËme, et doit Ítre la plus proche possible de la pertinence utilisateur . Plus prÈcisÈment, le score est calculÈ ‡ partir d’une fonction de similaritÈ notÈe RSV(d,q)
(RSV pour retrieval status value), o˘ d reprÈsente un document et q la requÍte de l’utilisateur. Cette fonction dÈ nie par le modËle de RI tient compte de la pondÈration attribuÈe aux termes lors de l’Ètape d’indexation. Chaque document Ètant associÈ ‡ un score de pertinence, il est alors possible d’Ètablir un classement ordonnÈ des documents (les premiers documents Ètant ceux qui possËdent la reprÈsentation la plus proche de celle de la requÍte), Èventuellement grossier selon les modËles. Ce classement permet de constituer la liste des rÈsultats retournÈs ‡ l’utilisateur. Quel que soit le systËme utilisÈ, et aussi performant qu’il puisse Ítre, cette liste ne reprÈsente nÈanmoins qu’une partie de l’ensemble des documents pertinents e ectivement disponibles au sein de la collection. Lors des derniËres campagnes d’Èvaluation TREC, les SRI les plus perfor-mants atteignaient ainsi rarement 40% du total des rÈponses attendues. Compte tenu de ce constat, il est nÈcessaire de mettre en ˜uvre d’autres techniques, en complÈment du processus de recherche, destinÈes ‡ permettre aux SRI de retrouver davantage de documents pertinents. Nous terminons cette section consacrÈe ‡ la description des mÈ-canismes traditionnels de RI en prÈsentant l’une d’elles : la reformulation de la requÍte de l’utilisateur.
Phase de reformulation
Sans une connaissance approfondie de la collection de documents et des mÈcanismes de recherche prÈcis utilisÈs par le SRI, il est di cile pour la plupart des utilisateurs de formuler la requÍte idÈale qui va permettre de retrouver l’information exacte recher-chÈe. Cette observation est d’autant plus vraie dans le cas des moteurs de recherche sur le Web o˘ les utilisateurs passent beaucoup de temps ‡ reformuler leur requÍte pour trouver les documents recherchÈs. La recherche d’informations pertinentes ‡ partir de la seule requÍte initiale, gÈnÈralement limitÈe ‡ peu de mots, est une t‚che trËs di cile.
‡ rÈaliser (Rijsbergen, 1986). C’est pourquoi, une Ètape de reformulation automatique de la requÍte est souvent intÈgrÈe dans le mÈcanisme de RI. Elle consiste ‡ modi er la requÍte initiale, principalement en ajoutant de nouveaux termes susceptibles de reprÈ-senter plus prÈcisÈment le besoin d’information, et en rÈ-estimant le poids des termes initiaux.
Di Èrents mÈcanismes ont ÈtÈ proposÈs en RI pour ce faire. Nous abordons ici es-sentiellement les mÈthodes d’expansion de requÍtes. Nous distinguons plus prÈcisÈment les techniques qui s’appuient sur des ressources de celles qui utilisent uniquement des informations issues des documents et requÍtes (les techniques dites de rÈtroaction de pertinence (relevance feedback)).
La stratÈgie gÈnÈralement adoptÈe pour la reformulation de la requÍte consiste
‡ enrichir cette derniËre ‡ l’aide de connaissances complÈmentaires issues de ressources. Ces informations visent ‡ prÈciser la question (en identi ant par exemple le sens de ses termes) ou ‡ l’Èlargir (‡ l’aide de mots sÈmantiquement proches mais di Èrents (des synonymes par exemple)). Elles peuvent Ítre obtenues ‡ partir :
– de ressources externes, telles que des bases de connaissances linguistiques (dic-tionnaires, thÈsaurus…) ;
– de ressources internes : les informations sont acquises directement ‡ partir de la collection de documents (e.g. cooccurrences).
Ces mÈthodes font gÈnÈralement appel ‡ des informations issues d’une analyse lin-guistique des documents et requÍtes. L’objectif de ce chapitre Ètant de prÈsenter unique-ment les mÈthodes traditionnelles de RI (i.e. sans apport de traitements linguistiques), elles seront par consÈquent prÈsentÈes plus en dÈtail au chapitre 2. D’une maniËre gÈ-nÈrale, le principal bilan que l’on peut faire est que l’enrichissement des requÍtes par le biais de ressources (externes ou internes) est e cace uniquement si les mots ajoutÈs sont vÈritablement liÈs sÈmantiquement aux constituants de la question.
ModËle LSI (Latent Semantic Indexing )
Le modËle LSI (Deerwester et al., 1990; Dumais, 1991), variante du modËle vectoriel, propose de transformer la reprÈsentation traditionnelle par mots-clÈs en une reprÈsen-tation plus conceptuelle , plus sÈmantique , qui vise ‡ favoriser le rapprochement de documents et requÍtes sÈmantiquement similaires. Partant du principe qu’une re-prÈsentation vectorielle traditionnelle basÈe uniquement sur les mots contient trop de bruit (i.e. contient des termes non reprÈsentatifs du contenu textuel), il propose, en s’ap-puyant sur une dÈcomposition en valeurs singuliËres de la matrice pondÈrÈe classique d’occurrences des termes d’indexation dans les documents de la collection, de crÈer un espace vectoriel plus petit o˘ les dimensions ne sont plus reprÈsentÈes par les termes mais par une combinaison linÈaire de ces termes. Ces combinaisons sont susceptibles de mieux faire ressortir les a nitÈs sÈmantiques latentes entre les mots et, par consÈquent, de mieux exprimer les concepts contenus dans les documents. L’utilisation du modËle LSI en RI consiste ‡ traduire la requÍte de l’utilisateur dans ce nouvel espace. L’apparie-ment d’un document et d’une requÍte revient alors ‡ appliquer une mesure de similaritÈ standard (e.g. la mesure du cosinus) entre les vecteurs dans l’espace rÈduit. Les docu-ments peuvent comme dans le modËle vectoriel Ítre classÈs selon leur pertinence par rapport ‡ la requÍte.
Comme nous venons de le voir, un des avantages du modËle LSI est de permettre, par cette mÈthode de clustering de mots, une reprÈsentation plus sÈmantique des documents. En s’appuyant sur la dÈcomposition en valeurs singuliËres de la matrice, elle permet d’obtenir un espace de reprÈsentation de dimension faible sans entraÓner une perte trop importante d’information. Cette phase de rÈduction peut nÈanmoins s’avÈrer co˚teuse en termes de calculs pour des matrices d’occurrences de grande dimension.
ModËle basÈ sur les rÈseaux de neurones
Une autre faÁon de modÈliser en RI la relation entre les documents, la requÍte et les termes qu’ils contiennent est de s’appuyer sur le formalisme des rÈseaux de neurones (Baeza-Yates et Ribeiro-Neto, 1999). Un rÈseau de neurones en RI est gÈnÈralement composÈ de plusieurs couches : une couche d’entrÈe qui dÈsigne la requÍte (chaque neurone correspond ‡ un de ses termes), une couche qui reprÈsente l’ensemble des termes de la collection (chaque neurone Èquivaut ‡ un terme) et une couche documents o˘ un n˜ud reprÈsente un document de la collection (cf. gure 1.4).
|
Table des matières
Introduction
1 Recherche d’information
1.1 Introduction
1.2 Indexation et mécanismes fondamentaux de recherche d’information
1.2.1 Processus général de recherche d’information
1.2.1.1 Principaux acteurs du processus
1.2.1.2 Description du processus de RI
1.2.2 Indexation des documents et requêtes
1.2.2.1 Reconnaissance des mots
1.2.2.2 Sélection des termes d’indexation
1.2.2.3 Pondération des termes
1.2.3 Processus de recherche des documents pertinents
1.2.4 Phase de reformulation
1.3 Modèles de RI
1.3.1 Modèles ensemblistes
1.3.2 Modèles algébriques
1.3.2.1 Modèle vectoriel
1.3.2.2 Modèle LSI (Latent Semantic Indexing)
1.3.2.3 Modèle basé sur les réseaux de neurones
1.3.3 Modèles probabilistes
1.3.3.1 Fondements des modèles probabilistes
1.3.3.2 Réseaux bayésiens
1.3.3.3 Modèles de langue
1.4 Techniques d’évaluation des performances des SRI
1.4.1 Campagne d’évaluation trec
1.4.1.1 Collections de documents
1.4.1.2 Topics
1.4.1.3 Jugements de pertinence
1.4.2 Mesures d’évaluation de SRI
1.4.2.1 Rappel et précision
1.4.2.2 Mesures complémentaires
1.5 Bilan : vers une RI plus linguistique
2 Apport de techniques du TAL en RI
2.1 Introduction
2.2 Apport de connaissances morphologiques en RI
2.2.1 Quelques notions utiles de morphologie
2.2.2 Traitement de la variation morphologique en RI
2.2.2.1 Impact du stemming
2.2.2.2 Impact d’analyseurs morphologiques exionnels et dérivationnels
2.2.3 Bilan de l’apport de connaissances morphologiques en RI
2.3 Apport de connaissances syntaxiques en RI
2.3.1 Quelques notions utiles de syntaxe
2.3.2 Exploitation d’informations syntaxiques en RI
2.3.2.1 Exploitation de syntagmes en RI
2.3.2.2 Résultats de l’exploitation de syntagmes en RI
2.3.3 Adaptation des SRI pour l’intégration d’informations syntaxiques 60
2.3.4 Bilan de l’apport de syntagmes en RI
2.4 Apport de connaissances sémantiques en RI
2.4.1 Informations sémantiques exploitées en RI
2.4.2 Intégration d’informations sémantiques au sein de SRI
2.4.2.1 Exploitation d’informations sémantiques en extension de requêtes
2.4.2.2 Exploitation d’informations sémantiques pour l’indexation 64
2.4.3 Désambiguïsation automatique en RI
2.4.4 Bilan de l’apport de connaissances sémantiques en RI
2.5 Vers un autre couplage TAL-RI
3 Pertinence du couplage d’informations linguistiques multi-niveaux en RI
3.1 Introduction
3.2 Travaux sur l’exploitation d’informations linguistiques multi-niveaux en RI
3.3 Architecture pour le couplage d’informations linguistiques multi-niveaux en RI
3.3.1 Informations linguistiques multi-niveaux 4
3.3.2 Intégration des informations linguistiques multi-niveaux au sein du SRI
3.4 Informations linguistiques : intérêt individuel et pertinence du couplage
3.4.1 Collection de test
3.4.2 Impact respectif des diverses informations linguistiques sur les performances des SRI
3.4.3 Analyse des relations entre informations linguistiques multi-niveaux
3.4.3.1 Analyse des corrélations entre listes de résultats
3.4.3.2 Analyse des corrélations entre listes de documents pertinents
3.4.4 Classication des informations linguistiques selon leur impact en RI
3.5 Bilan de la pertinence en RI du couplage d’informations multi-niveaux
4 Apprentissage pour la fusion de listes de résultats d’index linguistiques
4.1 Introduction
4.2 Travaux connexes
4.2.1 Fusion de données en RI
4.2.2 Prédiction de la diculté de requêtes
4.3 Système d’apprentissage supervisé pour la fusion de listes de résultats
4.3.1 Quelques généralités sur l’apprentissage supervisé
4.3.2 Réseaux de neurones : principes de base et apprentissage
4.3.2.1 Principes
4.3.2.2 Apprentissage
4.3.3 Apprentissage supervisé pour la fusion de listes de résultats en RI
4.3.3.1 Données d’entrée
4.3.3.2 Architecture générale
4.3.3.3 Phase d’apprentissage
4.3.3.4 Phase de test
4.4 Expérimentations et résultats
4.4.1 Description des données
4.4.2 Méthodologie
4.4.2.1 Découpage des données pour l’apprentissage et le test
4.4.2.2 Mesures d’évaluation
4.4.3 Résultats et discussions
4.4.3.1 Évaluation globale de la méthode de fusion
4.4.3.2 Analyse des performances requête par requête
4.4.3.3 Inuence des caractéristiques des requêtes sur l’ecacité de notre méthode de fusion
4.5 Conclusion
5 Nouvelle approche d’acquisition de variantes morphologiques utilisées pour l’extension de requêtes
5.1 Introduction
5.2 Positionnement
5.2.1 Travaux connexes
5.2.2 Spécicités de l’approche proposée
5.3 Acquisition de variantes morphologiques pour la RI
5.3.1 Acquisition par analogie
5.3.2 Utilisation en RI
5.3.2.1 Constitution automatique de couples-exemples
6 Table des matières
5.3.2.2 Utilisation pour l’extension de requêtes
5.4 Expériences
5.4.1 Résultats sur le français
5.4.2 Résultats sur l’anglais
5.4.3 Inuence de la prise en compte des préxes
5.4.4 Inuence de la taille des requêtes
5.4.5 Évaluation de la portabilité
5.4.6 Quelques exemples de requêtes étendues
5.5 Discussions des résultats
5.6 Conclusion
Conclusion
Annexe
A Caractéristiques de la collection tipster
B Analyse linguistique des documents et requêtes
Bibliographie
Télécharger le rapport complet