Les techniques de TAL et la reformulation des requêtes

Télécharger le fichier pdf d’un mémoire de fin d’études

Le document et la collection de documents

Dans le cadre de nos travaux, les documents textuels sont les supports de l’informa-tion que recherche l’utilisateur. Les documents textuels peuvent exister sous une forme structurée ( documents html, documents xml (INEX 2).) ou non. Nos recherches s’inté-ressent plus spécifiquement aux documents textuels non structurés. Dans la suite de ce manuscrit, nous utilisons le terme document pour nommer ce type de documents.
Pour résumer, on peut dire que les collections de documents sont une source d’infor-mation « globale » dans laquelle l’utilisateur pouura satisfaire son besoin d’information, alors que les documents constituent l’unité d’information retournée à l’utilisateur à l’issue du processus de RI.
Pour faire correspondre un ensemble de documents à une requête, il est nécessaire de disposer d’une technique de mise en correspondance. Nous présentons dans la section suivante la notion de SRI qui permet entre autres, cette mise en correspondance.

Les systèmes de recherche d’information

Un certain nombre de mécanismes sont mis en place à travers des SRI pour permettre la mise en correspondance entre les documents et les requêtes. Les SRI sont des moteurs de recherche chargés de retrouver les documents pertinents pour une requête donnée. Un SRI est composé de deux parties très liées. La première partie est visible, et constitue une interface entre l’utilisateur et les collections de documents. C’est grâce à cette interface que l’utilisateur spécifie sa requête, et reçoit en résultat une liste de documents ordonnés par degré de pertinence supposé. La deuxième partie est « cachée » et repose sur un modèle théorique permettant de faire la mise en correspondance des requêtes et de la collection.
Il existe un certain nombre de modèles théoriques dans la littérature les plus connus étant le modèle booléen [Sal71b], le modèle vectoriel [SL68], [Sal71b], et le modèle probabiliste [RSJ76]. Dans le modèle booléen, les requêtes sont représentés sous forme de termes reliés par des opérateurs booléens (ET, OU, NON, . . .). Le modèle vectoriel [SM86] considère les documents et les requêtes comme des vecteurs pondérés, chaque élément du vecteur représentant le poids d’un terme dans la requête ou le document. Le modèle probabiliste tente d’estimer la probabilité qu’un document donné soit pertinent pour une requête donnée.
Il existe de nos jours des modèles plus évolués que les modèles qui viennent d’être présentés. On peut citer par exemple les modèles de logique floue [OMK91] ou les modèles booléens étendus [SFW83] (vs modèles booléens), le modèle vectoriel généra-lisé [WZW85], les modèles LSI (Latent Semantic Indexing) [FDD+88] ou neuronaux [WH91] (vs modèles vectoriels), les modèles bayésiens [Pea88], inférentiels [TC90], les réseaux de croyance [RNM96] (vs modèles probabilistes). Nous limitons notre présen-tation aux trois premiers modèles.

Le processus de RI

Les SRI tentent de fournir une réponse à un besoin spécifié par l’utilisateur, en mettant en correspondance la requête et les documents d’une collection. Le processus de RI décrit les diﬀérentes étapes à travers lesquelles une liste de documents est restituée à l’utilisateur. Ce processus est souvent appelé processus en U [BC92], et se décompose en deux étapes principales : l’indexation ( [DDL+90], [SJ95], [Sal71a]) et la recherche.
La première étape (ou indexation) peut être vue comme une phase de préparation pendant laquelle le SRI analyse chaque document de la collection afin d’en extraire les mots les plus discriminants apellés index [VR79]. L’ensemble des index d’un document constitue son descripteur et permet un accès rapide au document.
La deuxième étape (ou recherche) décrit la manière dont le SRI compare les des-cripteurs des documents avec ceux de la requête, et calcule un score de similarité entre le document et la requête. Le calcul de similarité est eﬀectué à l’aide de modèles de recherche tels que le modèle booléen, le modèle vectoriel, ou le modèle probabiliste par exemple. Nous donnons plus de détails sur ces modèles dans la section 1.4. La figure 1.1 représente un schéma du processus de RI.
Dans la figure 1.1, 2 niveaux conceptuels sont représentés et concernent aussi bien les documents que les requêtes. Les niveaux conceptuels décrivent les grandes phases du processus de recherche.
Le niveau 1 correspond à la phase d’ indexation. Cette étape est détaillée dans la section 1.3. Durant cette étape, la requête Q est soumise au SRI sous sa forme brute3 et, après l’ indexation, la requête et les documents sont représentés chacun par leurs descripteurs. La pondération permet de traduire l’importance que le SRI accorde aux diﬀérents index. Elle fait souvent suite à l’ indexation.
Le niveau 2 représente la phase de recherche. Ce niveau est matérialisé par le calcul du degré de similarité entre la requête et les documents. Grâce à cette mesure de si-milarité, une liste de documents potentiellement pertinents est restituée à l’utilisateur. L’utilisateur juge alors la pertinence des documents qui lui sont restitués.
La requête et la collection de documents sont des éléments qui peuvent être consi-dérés indépendants des SRI. En eﬀet, quel que soit le SRI utilisé pour la recherche, la structure initiale de la requête (formulation de la requête) et des documents (contenu des documents) reste inchangée. La manière d’indexer les requêtes et les documents est fortement liée au SRI utilisé. La description des requêtes est faite lors des phases d’analyse de la requête et la description des documents pendant la phase d’ indexation des documents. Nous détaillons dans la section suivante le principe de l’ indexation.

L’ indexation en RI

L’ indexation consiste à extraire des documents les mots les plus discriminants encore appelés index. Cette première tâche est généralement eﬀectuée en marge du processus de recherche car, la construction des index peut être assez longue en fonction du nombre de documents de la collection ainsi que de la taille des documents. D’après [SJ92], les index ont un caractère réducteur car tous les termes d’un document ne sont pas impor-tants à prendre en compte pour la recherche. L’ indexation peut se faire de 3 manières diﬀérentes : manuellement, de manière semi-automatique, ou de manière automatique.
Elle est faite par un spécialiste du domaine. Même si certaines variabilités peuvent exister entre 2 spécialistes dans le choix des index, ce genre d’ indexation a l’avantage d’être précis dans les résultats [RFN99]. En eﬀet, les spécialistes d’un domaine choi-sissent de meilleurs termes pour indexer les documents, étant donné leur connaissance du domaine. Il faut cependant noter que le temps d’ indexation manuelle est très élevé et donc rend l’ indexation manuelle coûteuse en temps. L’ indexation est réalisée en deux étapes. Dans la première, les index sont automa-tiquement extraits des textes et sont ensuite transmis aux spécialistes du domaine qui les valident en utilisant un thésaurus 4 ou base terminologique [MdG91].
Elle ne nécessite pas d’intervention humaine lors du processus d’ indexation [MK60]. L’ indexation est alors composée d’un ensemble de traitements automatisés tels que par exemple l’extraction des index, l’utilisation d’un anti-dictionnaire pour supprimer les mots de liaison et les autres mots non discriminants ainsi que les diﬀérents processus de suppression des variantes des mots.
[APC01] compare dans son article les diﬀérents types d’ indexation présentés pré-cédemment. Ses conclusions sont que les avantages et les inconvénients de chacune des méthodes sont liés au domaine et à la collection utilisée. Nous nous intéressons dans cette thèse à l’ indexation automatique. L’automatisation du processus d’ indexation nécessite de choisir les « bons index » et donc de définir les conditions sous lesquelles un terme est choisi comme index. Nous présentons dans la section suivante comment sont extraits les index ainsi que les techniques de pondération utilisées par les SRI.

Extraction automatique des index

Le document est l’unité informationnelle utilisée lors de la RI. Les SRI associent aux documents un ensemble de descripteurs correspondant à une liste de mots clés ou index. Les termes choisis comme index traduisent le contenu du document, et sont extraits directement des documents. La question que nous traitons dans cette sous-section est : comment extraire les index ?.
L’algorithme utilisé par les SRI pour extraire les index consiste à segmenter le texte en un ensemble de termes. Cette segmentation est réalisée à travers une analyse lexi-cale du texte 5 où le choix du délimiteur joue un rôle important dans la qualité de la segmentation. Par exemple, Etats-Unis, I.R.I.T, 3D, brosse à dent sont tous des termes ayant des délimiteurs diﬀérents. En reprenant l’exemple du terme Etats-Unis, si le tiret (« -« ) est considéré comme délimiteur, alors le terme Etats-Unis n’est plus considéré comme un terme composé mais comme deux termes diﬀérents. Cette étape d’extraction n’est pas exempte d’erreurs ; les systèmes ont souvent recours à des ressources externes comme des thésaurus ou des dictionnaires (cf. chapitre 2) pour valider le choix des index. La validation des index permet de ne pas considérer tous les termes d’un do-cument comme des index. En eﬀet, lors de l’extraction des index, les termes les plus discriminants doivent être détectés et les mots vides (tels que les pronoms personnels, les articles, les mots de liaison, ou les prépositions) doivent être éliminés. L’élimination des mots vides se fait grâce à l’utilisation d’un anti-dictionnaire6. Une technique com-plémentaire pour choisir les index est la racinisation [Por80]. Elle consiste à éliminer les diﬀérentes variations morphologiques d’un mot en extrayant la racine du mot. Par exemple formé, former, formation, formateur sont reconnus comme provenant d’une même racine. D’autres techniques plus évoluées ne considèrent pas les termes de ma-nière isolée mais tentent d’extraire des groupes de mots [Ril95] pour former les index. Une autre technique proche de la racinisation considère des séquences de n caractères comme index : c’est la technique des n-gram [Dam95]. Nous détaillerons dans le chapitre 2 les traitements linguistiques qui sont utilisés dans le processus de RI.
Les diﬀérents index qui sont extraits n’ont pas la même importance dans le document ou dans la requête. La pondération est une technique qui permet d’aﬀecter un score de préférence aux index. Nous détaillons ce principe dans la section suivante.

Pondération des index

Le but de la pondération est double : réduire la taille de l’ensemble des descripteurs des documents et des requêtes (nombre d’index), et accorder une certaine importance aux index à travers des poids.
La pondération consiste à aﬀecter une valeur aux index en fonction de leur caractère discriminant, ou de leur degré d’informativité dans les documents. La pondération se base sur des mesures statistiques locales (c’est à dire liées au document), ou globales (c’est à dire liées à la collection). Le moyen courant d’associer un poids à un index consiste à calculer sa fréquence d’apparition dans le document ou dans la collection. La pondération locale est notée TF (ou Term Frequency) et permet de déterminer la fréquence d’apparition d’un terme dans le document ou dans la requête. La pondéra-tion globale est notée IDF (ou Inverse document Frequency) et représente la fréquence d’apparition d’un terme dans toute la collection. Par exemple, un terme qui apparaît très fréquemment dans toute la collection, et très peu dans un document, est moins informatif qu’un terme qui apparaît fréquemment dans un document et très peu dans toute la collection. [RSJ76] a été parmi les premiers à utiliser la distribution statistique des termes dans les documents comme moyen de pondération. L’utilisation de la notion de fréquence pour discriminer les termes a été initialement étudiée par Zipf [Zip49]. La loi de Zipf s’énonce formellement de la manière suivante : rang ∗ frequence´ = constante. (1.1)
En d’autres termes, la formule 1.1 représente le fait que lorsque l’ensemble des termes d’un document est ordonné par fréquence décroissante, la fréquence d’un terme est inversement proportionnelle à son rang. Zipf constate que peu de termes sont utilisés fréquemment dans les documents alors que la plupart ou un grand nombre de termes sont utilisés peu fréquemment. Partant de cette loi de Zipf, la pondération peut être locale ou globale.
La pondération locale est eﬀectuée dans le document. Elle est caractérisée par la mesure TF (terme frequency) qui permet de favoriser les termes qui apparaissent le plus fréquemment dans le document. Par exemple, [Lee95] propose dans son approche une normalisation du poids des termes afin de limiter l’eﬀet des termes trop fréquents.
Un même terme présent dans deux documents peut avoir des valeurs de pondération diﬀérentes. Par exemple, un terme apparaissant dans tous les documents de la collec-tion n’est pas discriminant par rapport à un terme qui n’apparaît que dans quelques documents. Il est donc nécessaire d’évaluer l’importance d’un terme non seulement par rapport à sa fréquence d’apparition dans un document mais également dans toute la collection. La pondération globale utilise la mesure IDF présentée dans [SJ72] pour cal-culer l’importance d’un terme dans la collection. La pondération globale est exprimée à travers le facteur nommé IDF (Inverse document Frequency). IDF mesure l’importance d’un terme dans toute la collection. Il est généralement exprimé par la formule 1.2 IDF = log N . (1.2) n

Adéquation entre le besoin d’information et la RI : éva-luation de la recherche

L’évaluation des SRI est une préoccupation dans la communauté de la RI. Cette évaluation peut se faire de deux manières diﬀérentes en fonction des éléments que l’on souhaite mesurer. Certains critères comme la quantité d’espace utilisée, le temps de réponse du système, la puissance de calcul peuvent être utilisés pour mesurer la perfor-mance des systèmes. Cependant, ce type d’évaluation ne tient pas compte du contexte de la recherche. Un SRI est utilisé dans le but de répondre à un besoin donné, spécifié par un utilisateur. L’eﬃcacité d’un système réside donc dans sa capacité à retrouver les documents pertinents pour l’utilisateur. Nous présentons dans la sous-section suivante (section 1.5.1) la notion de pertinence qu’il est important de définir. Nous indiquons ensuite les mesures usuelles que la communauté de la RI utilise pour mesurer la perti-nence des réponses des systèmes : le rappel et la précision (section 1.5.2.1) ainsi que la mesure de précision moyenne (section 1.5.2.3).

La notion de pertinence

La notion de pertinence est à la fois intimement liée au jugement individuel d’un uti-lisateur et estimée par les SRI. Nous pouvons donc distinguer deux types de pertinence : la pertinence (ou mesure de ressemblance) système, et la pertinence utilisateur.
La pertinence (ou mesure de ressemblance) système
Pour être en mesure de répondre de manière eﬃcace à la requête de l’utilisateur, les SRI doivent s’appuyer sur un modèle de pertinence qui leur permet de calculer pour chaque document un score de pertinence. La pertinence apparaît donc ici non pas comme une notion subjective, mais comme une valeur numérique calculée par les SRI. Cette pertinence système a cependant des limites car elle est estimée à partir d’un score de ressemblance entre la requête et les documents, et détermine une pertinence supposée des documents pour l’utilisateur.
La pertinence utilisateur
C’est une notion subjective [SM83] car elle dépend du niveau de satisfaction que l’utilisateur tire de la liste de documents qui lui est restituée par le système. En ef-fet, deux utilisateurs diﬀérents ayant soumis la même requête au SRI ne jugent pas de la même manière les réponses du système. Dans le cas où le jugement de pertinence n’est pas absolu (c’est-à dire que l’utilisateur dit si le document est pertinent ou non pertinent) mais donné par un degré de pertinence des documents, le désaccord entre plusieurs utilisateurs est nettement plus prononcé. Cela est dû au fait que les besoins sont diﬀérents et que le même besoin peut être exprimé diﬀéremment en fonction de l’utilisateur. De plus, l’interprétation que l’utilisateur fait des documents qu’il reçoit dépend en partie de ses connaissances personnelles et de son expérience, ainsi que du contexte dans lequel s’eﬀectue sa recherche [HEH+95]. La pertinence utilisateur per-met à ce dernier d’exprimer sa satisfaction par rapport aux documents potentiellement pertinents, que le système lui restitue.
Tout l’enjeu du processus de RI est de minimiser la distance entre la pertinence système et la pertinence utilisateur. Plusieurs mesures standards en RI peuvent être utilisées pour évaluer les performances des SRI. Nous détaillons dans la section suivante les mesures usuelles d’évaluation de performance des systèmes.

Les mesures usuelles d’évaluation des SRI

Pour évaluer les performances des diﬀérents SRI, un certain nombre de mesures standards sont proposées dans la littérature. Ces mesures permettent d’avoir une base homogène d’évaluation. Dans les sections suivantes, nous focalisons notre attention sur 5 mesures principales que nous avons utilisées dans nos travaux : le rappel, la précision, la MAP (Mean average Precision), la F-mesure, et les mesures de haute précision (P@5, P@10, P@15).

Le Rappel et la Précision

Le rappel et la précision sont deux mesures de base pour évaluer les performances des systèmes. La figure 1.2 illustre le principe de fonctionnement de ces deux mesures. Dans cette figure, les documents pertinents de la collection sont connus à l’avance et per-mettent de mesurer pour chaque système la quantité de documents pertinents retrouvés.
Le rappel
Cette mesure calcule la capacité du SRI à retrouver les documents pertinents de la collection. Cette mesure peut être vue comme une mesure de couverture du système.
Le rappel indique le pourcentage de documents pertinents qui ont été retrouvés par le SRI par rapport à l’ensemble des documents pertinents de la collection. Par exemple, supposons que le système restitue un ensemble de documents pertinents que l’on note P, et soit N l’ensemble des documents pertinents de la collection. Le rappel se calcule alors de la manière suivante : Rappel = Card(P ) (1.9) Card(N)
Dans la formule 1.9, Card(X) représente le nombre d’éléments que contient X.
La précision
Cette mesure calcule la capacité du SRI à retrouver uniquement les documents pertinents. La précision permet de mesurer la fraction des documents pertinents parmi ceux qui ont été retrouvés par le système. En supposant que P soit l’ensemble des documents pertinents restitués par le système en réponse à une requête, et que D soit l’ensemble des documents restitués par le système, la mesure de précision se traduit par la formule 1.10 : P recision´ = Card(P ) (1.10) Card(D) .
Un SRI idéal est un SRI qui restitue tous les documents pertinents (rappel = 1), et tous les documents qu’il retrouve sont pertinents (précision =1) pour la requête de l’utilisateur. Cependant, le rappel et la précision sont deux mesures qui varient généralement en sens inverse. Le calcul de la précision est relativement facile. En eﬀet, si un jugement de pertinence7 est disponible pour tous les documents que le système restitue, il est alors facile de déterminer la valeur de la précision du système. Il faut cependant que le nombre de documents retrouvés ne soit pas très grand. Dans le cas où un très grand nombre de documents est retrouvé, une technique consiste à choisir dans la liste retournée les x premiers documents pour l’évaluation. La mesure de rappel est quant à elle un peu plus délicate car son calcul nécessite la connaissance du nombre exact de documents pertinents dans la collection, donc nécessite un traitement de toute la collection [Sar95]. Dans le cas de très grandes collections, le calcul du rappel réel est impossible. Dans ce cas, une solution consiste à calculer la mesure de rappel après qu’un certain nombre de documents aient été retrouvés.
Prenons un exemple pour décrire le fonctionnement de ces deux mesures que nous venons de présenter. Généralement, les documents restitués sont ordonnés par pertinence (calculée par le système) décroissante. Il est alors possible d’examiner les documents restitués par ordre de pertinence.

Les techniques de TAL et l’indexation en RI

Les travaux présentés par [Lal96], [Bla90], et [OP97] indiquent que la faiblesse des approches courantes de RI est liée au manque de pertinence des index choisis pour représenter le contenu des documents.
Une typologie des types d’ indexation proposée par Lefèvre [Lef00] et reprise dans [Pic05] présente les diﬀérents domaines de TAL utilisés lors de l’ indexation (tableau 2.1) :

Segmentation et apport de la morphologie

La segmentation est la première étape qui intervient dans l’ indexation de textes [GT94]. Il s’agit d”identifier les unités élémentaires qui composent le texte et qui poten-tiellement donneront lieu à des unités d’ indexation. Cette identification est basée sur le choix des séparateurs pris en compte. Les choix réalisés ont un impact direct sur la qualité de l’ indexation. Par exemple, Etats-Unis, I.R.I.T, 3D, brosse à dent ont tous des délimiteurs diﬀérents. En reprenant l’exemple de » Etats-Unis » , si le tiret (« -« ) est considéré comme délimiteur, alors le terme Etats-Unis n’est plus considéré comme de la RI ne prend plus la peine de détailler les séparateurs considérés dans telle ou telle application, malgré l’impact possible des choix. L’impact est essentiellement en termes de précision puisque le choix du bon niveau de segmentation évitera de confondre « unis » dans « Etat-Unis » et dans « les époux unis » par exemple.
La prise en compte des variantes morphologiques est également un point de va-riabilité entre les diﬀérents moteurs d’ indexation. Lors de l’ indexation, les variantes morphologiques seront regroupées via un même index. La morphologie s’intéresse à la formation des mots et plus spécifiquement aux phénomènes de flexion, de dérivation et de composition. On distingue généralement diﬀérents types de morphologie. La mor-phologie flexionnelle [Mor06] étudie en particulier (mais pas seulement) les variantes des mots par rapport au genre et au nombre. Il est alors possible d’obtenir la forme regroupant les variantes. La morphologie dérivationnelle [DFS02] étudie la construc-tion des mots (ceux-ci pouvant changer de catégorie grammaticale). Elle s’intéresse donc aux liens entre lemmes par exemple entre le nom « fin » et le verbe » finir « . Les travaux présentés dans [DFS02] recensent un ensemble de ressources et d’analyseurs morphologiques qui peuvent être utilisés en morphologie dérivationnelle.
En RI, l’extraction d’une forme unique à partir de variantes repose sur trois types de principes. La lemmatisation, basée essentiellement sur la morphologie flexionnelle va extraire une forme canonique, le lemme1 : la forme infinitive pour un verbe ou la forme masculin singulier pour un adjectif. Les lemmatiseurs tels que FLEMM [Nam00] en est un exemple. La racinisation (stemming en anglais) et la troncation vont aussi regrouper des variantes, mais sur la base de leur racine commune (niveau morphologie flexionnelle et dérivationnelle). La forme commune est généralement appelé (pseudo) radical ou racine. Le principe utilisé consiste à utiliser la troncature ou une simple suppression de caractères pour réduire les aﬃxes des termes. Les algorithmes de racinisation les plus connus ont été développés par Lovins [Lov68] et Porter [Por80]. Ces algorithmes suppriment dans un premier temps les terminaisons des termes, et recomposent dans une deuxième étape les racines obtenues, en rajoutant des terminaisons prédéfinies. L’algorithme de Porter applique ces deux traitements de manière simultanée, tandis que Lovins les applique de manière successive. Par exemple, les termes computer, computers, computing, computational sont regroupés autour de la pseudo-racine comput avec l’algorithme de Porter. Il y a donc une gestion de la dérivation et de la flexion.
Prendre en compte les variations morphologiques, par exemple en regroupant les formes singulier/pluriel, permet théoriquement d’améliorer la valeur du rappel lors de la recherche. En eﬀet, les termes que les utilisateurs spécifient dans leurs requêtes peuvent être présents dans des documents pertinents, mais sous plusieurs formes diﬀérentes.
Les travaux d’évaluation de diﬀérentes méthodes dans le domaine ne s’accordent pas sur leur eﬃcacité. Les travaux présentés dans [Har91] comparent 3 algorithmes de racinisation pour l’anglais : S-stemmer, Lovins et Porter. Les résultats obtenus avec ces 3 algorithmes ont été comparés à ceux d’un algorithme qui n’utilise pas de technique de racinisation. Les conclusions de ces travaux stipulent qu’aucun des 3 algorithmes n’apporte d’amélioration notable par rapport aux performances du système n’utilisant pas de racinisation, le pourcentage de requêtes bénéficiant d’une racinisation étant le même que celui des requêtes ne bénéficiant pas du stemming. Dans les travaux de [Kro93], les auteurs arrivent à des conclusions diﬀérentes de celles de [Har91] en utilisant la même collection de test. Ils montrent que l’utilisation de la racinisation apporte des améliora-tions par rapport aux performances initiales, ces améliorations étant plus importantes lorsque les documents sont assez courts. [Hul96] conclut, quant à lui, que le racinisation apporte en général des améliorations sauf pour des requêtes longues (exemple des re-quêtes de TREC), à des taux de rappel faibles. D’autres expérimentations montrent que plus la langue dans laquelle sont exprimés les documents et les requêtes est morphologi-quement complexe (comme par exemple le français et l’italien), plus l’analyse morpho-logique des termes permet d’améliorer les performances [AvdWKvB00], [CDHK01]. Les expériences dans [GGS97] pour le français montrent que l’application de la ra-cinisation permet d’augmenter de 18% la précision. Dans les travaux de [JZ00], les auteurs démontrent que la normalisation morphologique des termes augmente de 30% la précision. Ces expériences montrent que certains facteurs influencent la qualité de la racinisation. En eﬀet, il arrive que certains termes qui ne devraient pas être regroupés sous la même pseudo-racine le soient. On parle alors de sur-racinisation pour signifier que la pseudo-racine est trop large. Par exemple, la pseudo-racine nat regroupe à la fois les termes nature et natation, bien que ces deux termes n’aient pas de lien sémantique. Il peut aussi arriver que d’autres termes devant être regroupés ne le soient pas. C’est la sous-racinisation, c’est à dire que la pseudo-racine n’est pas assez large. Par exemple, la pseudo-racine adaptat ne permet pas de relier les termes adapter et adaptateur.

Apport de l’analyse syntaxique

L’analyse morpho-syntaxique extrait la catégorie grammaticale et morpho-syntaxique (genre, nombre) de chaque mot extrait. Ceci est une phase nécessaire à l’extraction de lemmes évoquée dans la section précédente. Par exemple, le mot porte peut désigner à la fois un nom (porte) ou un verbe (porter). L’analyse syntaxique permet de lever ce genre d’ambiguïtés qui peuvent apparaître dans les documents et les requêtes. Dans cet exemple, une analyse morpho-syntaxique permet de lever l’ambiguïté sans avoir recours à une analyse syntaxique complète. La morpho-syntaxe analyse les mots en pré-sence et permet de déterminer la catégorie à laquelle le mot appartient. Par exemple, la présence d’un article avant » porte » permet de savoir qu’il désigne un nom et pas un verbe. En RI, les éléments de certaines catégories grammaticales sont systématiquement considérés comme mots vides (pronoms personnels par exemple), alors même qu’ils sont généralement porteur de sens (phénomène d’anaphore par exemple).
L’analyse syntaxique permet également d’identifier des groupes nominaux et leur structure, leur fonction par rapport à un verbe. Ainsi, en RI, l’analyse syntaxique permet d’extraire des syntagmes qui peuvent devenir les termes d’ indexation. L’extraction de syntagmes peut permettre ainsi de gérer les groupes de mots ou les expressions. L’ indexation par syntagmes est moins ambiguë que l’ indexation par les mots composants considérés indépendamment.
L’ indexation par des termes complexes (groupes de termes, paire adjacentes) est étudiée par plusieurs auteurs [MBSC97], [ABC+96], [SM83]. Cependant, plusieurs questions se posent quant à l’utilisation des termes complexes dans l’ indexation. On peut citer le problème de manque de couverture entraînant une baisse du rappel, l’ex-traction des termes complexes et leur pondération.
Les termes complexes peuvent être extraits des documents par un calcul de la fré-quence de co-occurrence des termes qui les composent [ALN03], ou par des approches qui combinent l’utilisation de techniques statistiques et symboliques [Cla03]. Les tech-niques symboliques permettent d’identifier les termes dont la structure des syntagmes est connue. Les méthodes statistiques peuvent générer des combinaisons de termes syn-taxiquement incorrectes, ce qui a pour eﬀet de réduire l’eﬃcacité de la recherche, en terme de précision. D’autres approches [AGBS00], [JG01] utilisent la notion de patrons (exemple : NOM – NOM) basée sur une analyse syntaxique de surface pour déterminer les termes complexes. Il existe aussi d’autres approches [Dai96], [LLYM04] dites mixtes, qui combinent les aspects syntaxiques et la co-occurrence des termes pour permettre une meilleure détection des termes complexes. La principale diﬃculté lors de l’utilisa-tion des termes complexes est liée à leur variabilité. D’après [Dai02], les variantes des termes complexes peuvent être syntaxiques ou typographiques. Les travaux présentés dans [GGHR00] s’intéressent à l’impact des termes complexes sur l’ indexation lorsque ces derniers sont utilisés en complément des termes simples. Les résultats obtenus ne montrent pas une amélioration notable en termes de rappel précision.
La prise en compte des connaissances syntaxiques lors de l’ indexation en RI se heurte à un autre type de diﬃculté : la pondération. Nous avons vu dans le chapitre 1 que le choix des index se base sur une pondération des termes, en fonction de leur fréquence d’apparition dans le document. Cependant, les termes complexes apparaissent bien moins fréquemment que les termes seuls dans les documents. Le problème de la pondération de ces termes complexes se pose alors car, malgré leur faible fréquence d’apparition, ils n’en demeurent pas moins importants. Les mesures couramment uti-lisées en RI sont basées sur la pondération des termes (TF*IDF). Comme le souligne l’étude réalisée dans [SJ95], la pondération des structures complexes a un impact sur les performances de la recherche. Dans [THH00], les auteurs ont montré que l’utili-sation du facteur IDF était inadaptée pour les structures complexes. Certains auteurs ont alors proposé des mesures de pondération alternatives, basées sur les connaissances syntaxiques des termes [Had02], [PB97]. Ces mesures permettent de pondérer les in-dex en fonction de la catégorie grammaticale des syntagmes. Les travaux présentés dans [Fag87] utilisent le poids des termes composant le terme complexe pour déterminer son poids final. Les résultats obtenus sont mitigés et ne permettent pas de juger de manière précise la pertinence de ce genre de pondération. D’autres chercheurs proposent une pondération dite syntaxique, en accordant une importance relative aux diﬀérents types de syntagmes [PB97]. Ce genre de pondération semble apporter une amélioration dans les résultats. La pondération des termes est une étape préliminaire dans le processus d’ indexation. [Fox92] utilise deux représentations vectorielles pour diﬀérencier les index formés par des termes, et les index formés par des syntagmes. Les résultats obtenus par ces deux stratégies sont alors fusionnés. Les travaux présentés dans [SLWPC99] privi-légient, quant à eux, l’utilisation d’un seul index, regroupant à la fois les syntagmes et les termes simples.

Apport des connaissances sémantiques

Il est souvent fait cas dans la littérature de deux types d’ indexation faisant appel à des ressources sémantiques [Baz05] : l’ indexation sémantique et l’ indexation concep-tuelle. L’ indexation sémantique est basée sur le sens des termes [Mih04], et utilise des techniques de désambiguisation de mots pour indexer les documents et les requêtes. Dans [MM00], les auteurs trouvent une amélioration de 16% pour le rappel et de 4% pour la précision lorsqu’ils combinent l’ indexation basée sur les listes de synonymes des termes de WordNet 2 et l’ indexation basée sur les mots clés. L’ indexation conceptuelle quant à elle utilise des concepts issus d’ontologies pour indexer les documents [AGM04], [GMV99]. Cette approche regroupe les termes ayant des caractéristiques communes dans les documents, et considère les regroupements comme des unités de sens ou concepts. De ce fait, l’ indexation conceptuelle est fortement liée à un domaine spécialisé. Les résultats obtenus par [WA98] montrent une amélioration des mesures de rappel et de précision par rapport à un SRI classique, lorsqu’une ressource de type ontologie3 est utilisée. Dans le cas des ontologies, les travaux présentés dans [AGCS06b], [AGCS06a] s’intéressent à l’identification et à l’organisation des termes d’un domaine de connais-sance à travers l’utilisation de ressources termino-ontologiques. Les travaux présentés par Chrisment et ses collègues [HCM06] s’intéressent à la mise à jour d’une ontologie à partir de l’analyse d’un corpus et de la gestion de types abstraits (concepts de haut niveau d’abstraction), afin d’améliorer l’ indexation des documents dans le domaine de l’astronomie.
Les informations sémantiques utilisées pour l’ indexation peuvent provenir de res-sources dites internes (construites à partir des documents) [Gau06] ou externes (pré-existantes). Comme ressources externes, nous pouvons citer Wordnet, EDR4, les onto-logies de domaine et les thésaurus spécialisés tels que UMLS, MeSH. Ces ressources externes sont soit génériques (par exemple WordNet) soit relatives à un domaine par-ticulier. Un thésaurus [AG92], [Hud94] est « une liste structurée de concepts, destinés à représenter de manière univoque le contenu des documents et des questions dans un corpus donné » [VS86]. Les thésaurus contiennent une liste de termes vedettes utili-sables comme termes d’ indexation et l’ensemble des termes reliés, par une relation de synonymie, de généricité/spécificité ou une relation » est lié à « . Un thésurus peut être construit soit manuellement soit de manière automatique [Gre92], [CL92]. WordNet quant à lui est une ressource qui traite le vocabulaire Anglais. Un travail équivalent existe pour les langues Européennes ; il s’agit du projet EuroWordNet5 qui couvre 7 langues Européennes et utilise les mêmes principes que WordNet. Le projet WordNet a été mis en place par le Cognitive Science Laboratory (Princeton University) sous la di-rection de George A. Miller et Christiane Fellbaum depuis 1985. Un élément important de WordNet est la notion de synset qui correspond à un ensemble de mots synonymes (synonym set en anglais). Des liens sémantiques sont utilisés pour relier les synset6 entre eux. Un terme qui a plusieurs sens se retrouve alors dans plusieurs synsets. [Voo94] utilise WordNet en RI pour désambiguiser le sens des termes, en calculant la valeur de co-occurrence entre les termes et les synset qui y sont liés.
Outre l’ indexation, les techniques de TAL peuvent être appliquées au niveau de la requête à travers l’expansion de la requête. Nous nous intéressons dans la section 2.3 à l’application des techniques de TAL pour l’expansion des requêtes.

Les techniques de TAL et la reformulation des requêtes

L’expansion des requêtes est une technique qui est utilisée pour enrichir la requête par l’ajout de nouveaux termes pertinents, reliés à ceux de la requête initiale ; elle permet de préciser la requête de l’utilisateur. L’utilisation des connaissances morphologiques pour l’expansion de la requête est obtenue de manière implicite par l’application de la racinisation. En eﬀet, le remplacement des termes de la requête par des (pseudo-racines) équivaut à plusieurs requêtes similaires lorsque par exemple les termes utilisés sont des synonymes. Cette expansion implicite est liée au fait que les pseudo-racines regroupent diﬀérents termes sous la même forme [VR79]. Une autre approche pour l’expansion de la requête consiste à utiliser des connaissances sémantiques pour l’enrichissement de la requête. Deux stratégies peuvent être alors utilisées. Soit l’ajout des nouveaux termes est réalisé par rapport à la requête entière [QF95], soit les diﬀérents termes de la requête sont étendus individuellement [GWR99] en les enrichissant avec des termes qui co-occurrent avec eux dans la collection de documents.
L’utilisation des synonymes est également un moyen utilisé en RI pour l’expansion de la requête [Voo94]. Ces synonymes oﬀrent la possibilité aux SRI de mettre en correspon-dance des termes sémantiquement proches bien que graphiquement diﬀérents. Dans une relation de synonymie, la premier terme correspond à la forme canonique et le second terme à la forme synonyme [TM06]. Cette forme canonique en général correspond à la forme la plus connue. Le phénomène de synonymie, s’il n’est pas géré, peut introduire du silence lors de la recherche d’information car, par exemple, un document parlant de voitures est tout aussi pertinent qu’un document parlant d’automobiles, lorsque la requête initiale porte sur les voitures. La principale diﬃculté d’une telle approche est le choix des synonymes à utiliser pour l’expansion [MM00].
Plusieurs expérimentations sur l’expansion des requêtes ont été eﬀectuées en utilisant des ressources internes ou externes. [PKJ99] utilise des requêtes structurées, composées de conjonction de concepts, chaque concept étant représenté par une disjonction de synonymes, pour eﬀectuer la recherche. Bien que performant, ce type de requêtes est rarement utilisé par les utilisateurs à cause de la complexité du langage des requêtes. [Voo94] a mené une expérimentation sur l’expansion manuelle des requêtes en utilisant des synonymes provenant de WordNet 7. [CS04] utilise les liens sémantiques pour étendre les requêtes. Plusieurs auteurs ont étudié l’impact des synonymes provenant d’un thésaurus sur l’expansion de requêtes. Cependant, l’expansion automatique des requêtes avec des termes synonymes est problématique car, les termes de la requête sont ambigus et peuvent par conséquent entraîner le choix de mauvais synonymes dans l’expansion. Dans [XC00], les auteurs réalisent l’expansion des requêtes à partir des concepts extraits des documents restitués par le système. Cette approche permet d’obtenir des résultats intéressants, à condition que les documents utilisés pour l’extraction des concepts soient pertinents.
L’expansion des requêtes n’est pas une tâche facile. Elle permet certes d’enrichir les requêtes par l’ajout de nouveaux termes, mais tout l’intérêt d’une telle méthode réside dans la sélection des termes additionnels, ainsi que dans le choix des ressources externes qui sont utilisées.

Les caractéristiques linguistiques (CL) des requêtes

Dans la section précédente, nous avons présenté l’utilisation des techniques issues du TAL pour l’ indexation de documents et la reformulation de requêtes. Ce sont les phases de la RI qui sont généralement concernées par ces traitements. Cependant, récemment, certains travaux se sont intéressés à une analyse des requêtes.
[MWH02] s’est interessé à étudier les corrélations qui peuvent exister entre des caractéristiques linguistiques des requêtes et la précision moyenne obtenue par les sys-tèmes. Ils ont travaillé sur des requêtes de la campagne CLEF. Les caractéristiques linguistiques qu’ils ont retenues se centrent sur les aspects syntaxique et de forme des mots ; elles ont été calculées à la main. Ils ont montré que le nombre de noms propres et la précision étaient corrélés.
L’approche présentée dans [MT05] s’intéresse également à ce type de corrélation. Cependant, l’étude présentée ici est plus générale dans la mesure où plus de caractéris-tiques ont été étudiées, que ces caractéristiques ont été extraites automatiquement et que à la fois le rappel et la précision ont été considérés. Ils ont étudié 200 requêtes de la campagne TREC et les ont caractérisées par 13 éléments qui sont énumérés dans le tableau 2.2 et qui seront détaillés dans le chapitre 4, section 4.3.
Le tableau 2.3 présente les corrélations significatives qui existent entre les perfor-mances des systèmes et les caractéristiques linguistiques. Les nombres correspondent à la corrélation (Pearson) et à la significativité (p-valeur). Le tableau 2.3 prouve que SYNTDIST et la précision sont négativement corrélés comme SYNSETS et le rappel.
Ce résultat montre clairement que, selon les caractéristiques de requêtes, certains systèmes seront plus performants : par exemple, plus le nombre de sens d’un mot est élevé, plus le rappel sera bas ; plus la requête est complexe, moins la précision sera élevée. Ce résultat préliminaire a motivé l’hypothèse suivante : il est possible de grouper des questions selon leurs caractéristiques et décider quel système doit être employé pour chaque groupe de requêtes. Cela correspond à un des éléments clés de notre thèse.
Ces caractéristiques linguistiques n’ont pas été choisies au hasard, mais chacune d’entre elle vise à étudier certains aspects des requêtes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Mise en contexte : Recherche d’Information, linguistique et fusion
1 Les principes de base de la RI
1.1 Introduction
1.2 Concepts de base de la RI
1.2.1 La requête
1.2.2 Le document et la collection de documents
1.2.3 Les systèmes de recherche d’information
1.2.4 Le processus de RI
1.3 L’ indexation en RI
1.3.1 Extraction automatique des index
1.3.2 Pondération des index
1.4 Calcul de similarité entre la requête et les documents
1.4.1 La similarité vectorielle
1.4.2 La similarité probabiliste
1.5 Adéquation entre le besoin d’information et la RI : évaluation de la recherche
1.5.1 La notion de pertinence
1.5.2 Les mesures usuelles d’évaluation des SRI
1.5.2.1 Le Rappel et la Précision
1.5.2.2 La courbe Rappel/Précision
1.5.2.3 La moyenne des précisions moyennes (MAP)
1.5.2.4 Mesures de haute précision : P@X
1.5.2.5 La R-Précision
1.5.2.6 La F-mesure
1.6 Les campagnes d’évaluations : le cas de TREC
1.7 Conclusion
2 Les traitements linguistiques en RI
2.1 Introduction
2.2 Les techniques de TAL et l’indexation en RI
2.2.1 Segmentation et apport de la morphologie
2.2.2 Apport de l’analyse syntaxique
2.2.3 Apport des connaissances sémantiques
2.3 Les techniques de TAL et la reformulation des requêtes
2.4 Les caractéristiques linguistiques (CL) des requêtes
2.5 Conclusion
3 La fusion en RI
3.1 Introduction
3.2 La fusion de collections
3.3 La fusion de données
3.3.1 Combinaison des requêtes
3.3.2 Combinaison des techniques de recherche dans les SRI
3.3.2.1 Techniques de combinaison des scores
3.3.2.2 Techniques de fusion basées sur les rangs des documents
3.4 Application de la classification à la fusion en RI
3.5 Conclusion
II Contributions
4 Analyse des collections de données
4.1 Introduction
4.2 Les collections de TREC
4.2.1 La tâche détection de la nouveauté
4.2.2 La tâche adhoc
4.3 Analyse des requêtes
4.3.1 Les caractéristiques morphologiques des requêtes
4.3.2 Les caractéristiques syntaxiques des requêtes
4.3.3 Les caractéristiques sémantiques des requêtes
4.3.4 Les outils utilisés pour l’extraction des CL
4.4 Expérimentations : détection du meilleur système en fonction des CL des requêtes
4.4.1 La classification des requêtes
4.4.1.1 L’ACP
4.4.1.2 La CAH
4.4.2 Analyse de la classification de l’ensemble des requêtes
4.4.2.1 Évaluation locale
4.4.2.2 Évaluation globale
4.4.3 Affectation des requêtes aux classes
4.4.4 Apprentissage et classification des requêtes
4.5 Classification des requêtes en fonction de leur difficulté
4.6 Conclusion
5 Fusion de systèmes
5.1 Introduction
5.2 Fusion systématique des systèmes
5.3 Fusion adaptative des systèmes
5.4 Évaluation
5.4.1 Expérimentations sur la fusion systématique des systèmes
5.4.1.1 Analyse préalable
5.4.1.2 Impact de la fusion systématique sur les performances du meilleur système
5.4.1.3 Analyse globale de la fusion des systèmes
5.4.1.4 Discussions
5.4.2 Expérimentation sur la fusion adaptative des systèmes
5.4.2.1 Impact de la typologie des requêtes
5.4.2.2 Impact du taux de chevauchement
5.5 Conclusion
6 Méthode adaptative en fonction du contexte linguistique de la requête
6.1 Introduction
6.2 MaxProb et MaxProbSeg : deux algorithmes probabilistes de fusion de données
6.3 Exemple de fonctionnement des algorithmes MaxProb et MaxProbSeg . 154
6.4 Évaluation
6.4.1 Résultats préliminaires avec MaxProb
6.4.1.1 Analyse locale des résultats
6.4.1.2 Analyse globale des résultats
6.4.2 Analyse locale des résultats obtenus avec MaxProbSeg
6.4.3 Analyse globale des résultats
6.4.4 Évaluation statistique des résultats
6.5 Conclusion
7 Analyse Canonique et RI
7.1 Introduction
7.2 L’analyse canonique
7.2.1 Méthodologie générale de l’AC
7.2.2 Aspects mathématiques
7.3 Quelques expérimentations en cours
7.3.1 Analyse de la corrélation entre les mesures de performance
7.3.2 Étude des relations entre les CL et les performances des systèmes
7.4 Conclusion
8 Conclusion générale
Bibliographie