Les étapes de l’indexation automatique
Modèle Booléen basé sur des ensembles flous
Ce modèle est une extension du modèle booléen standard, il vise à tenir compte de la pondération des termes dans les documents. Du côté requête, elle reste toujours une expression booléenne classique. Avec cette extension, un document est représenté comme un ensemble de termes pondérés comme suit: d = {…, (ti, ai), …} L’évaluation d’une requête peut prendre plusieurs formes, dans la première évaluation, les opérateurs logiques et sont évalués par min et max respectivement et donc les parties d’une conjonction ou d’une disjonction ne contribuent pas en même temps dans l’évaluation, pour remédier à ce problème une autre évaluation à été proposée, c’est celle de Lukaswicz, dans cette dernière les opérateurs logiques ? et ? sont évalués par (*) et (+,-,*) respectivement. Dans ce modèle, le plus important est qu’on peut mesurer le degré de correspondance entre un document et une requête et ainsi, ordonner les documents dans l’ordre décroissant de leur correspondance avec la requête. Au niveau de la représentation, nous pouvons exprimer dans quelle mesure un terme est important dans un document. [Jian-Yun, 01]
La recherche d’information par croisement de langues
L’utilisation d’une langue universelle, vieux rêve philosophique, semble être encore pour longtemps une utopie. La multitude de langues actuellement présentes sur notre planète restera encore une source de problèmes pour tous ceux désirant trouver des informations. Ces problèmes apparaitront qu’elle que soit la langue dans laquelle celles-ci s’expriment. Avec le développement d’Internet au niveau mondial, les échanges de documents s’intensifient entre les pays, les cultures et par conséquent, les corpus contiennent de plus en plus de document écrit dans différentes langues, la recherche devient alors multilingue et doit retrouver tous les documents concernés par un besoin d’information. La sélection d’informations pertinentes est donc confrontée à un double problème : le premier, spécifique a la RI, réside dans la capacité du SRI à séparer les informations pertinentes de celles qui ne le sont pas. Le second, lié au multilinguisme, correspond à la capacité du système d’aller au delà de la langue de la requête en sélectionnant des informations pertinentes écrites dans des langues autres que celle de la requête. Ce second point est communément appelé recherche d’information multilingue.
Quesque la recherche d’information multilingue
La recherche d’information multilingue (RIM) est un type de recherche qui permet de repérer l’information lorsque la langue des requêtes est différente de la langue des documents repérés. Un utilisateur peut présenter une requête dans sa propre langue et le système retrouve des documents dans une autre langue. L’objectif principal de la RIM est de fournir des outils à l’utilisateur qui serait intéressé par l’obtention de documents dans d’autres langues que sa langue maternelle. L’utilisation d’un système de recherche monolingue peut s’avérer fort problématique pour l’usager lorsqu’il effectue une recherche dans une langue qui ne lui est pas familière. La recherche d’information multilingue tente donc d’apporter une solution à ce problème qui devient de plus en plus préoccupant, depuis l’avènement d’Internet et de son contenu multilingue [Nassr, 02] [Boucham, 09] [Harrathi, 09].
Approches basées sur les traducteurs automatiques
Ces approches nécessitent l’intégration d’un logiciel de traduction automatique dans le SRI [Radwan, 94]. Les systèmes basés sur les traducteurs automatiques (Machine Translation (MT)) sont utilisés pour obtenir un même texte dans plusieurs langues avec ou sans l’aide d’un expert. Ces systèmes sont généralement plus complexes et loin d’être parfaits, car ils s’appuient sur des grammaires et autres méthodes linguistiques, même s’ils donnent des résultats satisfaisants pour la traduction des documents, leur utilisation pour la traduction de requêtes n’a pas connu le même sucés, du fait que ces dernières, sont souvent courtes et exprimées par des mots indépendants. Certaines de leurs fonctionnalités semblent combler les attentes d’un système de recherche d’information par croisement de langues, cependant, certaines d’entre elles sont pénalisantes pour la RI. Dans [Yamabana & al, 98 ; Oard & al, 96 ; Gey & al, 97], les travaux basés sur la traduction automatique de requêtes ont montré des performances plus faibles que d’autres techniques. Ceci est dû au fait que la requête est souvent une liste de mots dépourvue de sémantique. Dans ce cas précis, les traducteurs automatiques ne produisent pas de bonnes traductions [Pirkola, 98]. Dans [Gey & al, 97], les auteurs ont utilisé le traducteur automatique Globalink pour traduire les requêtes dans le cadre de la tâche de croisement de langues de TREC 6. L’absence de certaines paires de langues dans les lexiques de Globalink, les a obligés à utiliser l’Anglais comme langage pivot intermédiaire entre les différentes langues. Ils ne font aucun commentaire sur l’impact de ce processus sur leurs résultats.
Dans [Oard, 98], l’auteur a également comparé dans le cadre de TREC 7, la traduction des requêtes par le traducteur automatique Logos à celle basée sur les dictionnaires. Il a montré que la technique basée sur les traducteurs automatiques est clairement moins efficace que celle basée sur les dictionnaires pour la traduction des requêtes courtes. Dans [Yamabana & al, 98], les auteurs ont également utilisé le traducteur automatique Kana-Kanji pour traduire les requêtes. Ils concluent que les traducteurs automatiques sont peu adaptés pour la traduction des requêtes, puisque les requêtes sont rarement exprimées par des phrases et plus souvent par des termes indépendants. Du fait que les traducteurs automatiques sont loin de produire des traductions de requêtes de bonne qualité [Kay, 95], les travaux élaborés dans [Savoy, 02] proposent une méthode permettant d’améliorer la traduction d’une requête (anglais vers d’autres langues) en utilisant le système de traduction automatique SYSTRAN d’une part, et d’autre part, le dictionnaire bilingue BABYLON, concernant le dictionnaire, la proposition de Savoy émet l’hypothèse que la meilleure traduction est toujours présentée comme premier choix dans le dictionnaire. L’utilisation combinée de ressources pour la traduction de la requête présente une performance intéressante comparée à celle obtenue en recourant à un seul outil.
Approches basées sur les dictionnaires
Les dictionnaires bilingues tels que ceux développés par les humains sont actuellement la forme la plus répandue des structures ayant une couverture suffisante pour réaliser les applications de croisement de langues, c’est pour cela que les méthodes basées sur les dictionnaires sont les plus utilisées dans la recherche d’information par croisement de langues. Contrairement aux systèmes de traduction automatique qui sur la base d’une phrase, restituent une phrase traduite, les approches basées sur les dictionnaires proposent une traduction mot à mot sans se préoccuper de la syntaxe, ainsi, les termes mad cow seront traduits fou vache et non vache folle [Savoy, 01]. Les dictionnaires, utilisés dans ce domaine, sont généralement des listes de termes donnés dans la langue source alignés avec d’autres termes de la langue cible. La traduction basée sur ces dictionnaires fournit en sortie les traductions d’un terme donné en entrée, c’est pour cela que l’idée principale des techniques proposées dans [Davis, 96 ; Ballestros, 96 ; Hull, 96 ; Sanderson, 00 ; Baziz, Boughanem & Nassr, 04 ] a été de remplacer chaque terme de la requête par le(s) terme(s) approprié(s) dans la langue cible, ces techniques n’ont pas été totalement satisfaisantes à cause de la difficulté de la traduction automatique et des imperfections des dictionnaires bilingues, qui posent souvent des problèmes.
Dans [Ballestros & al 96, Ballestros & al 97], furent élaborés les premiers travaux basés sur les dictionnaires. Ces derniers ont montré que l’utilisation du dictionnaire Collins (Espagnol-Anglais) pour la traduction de requêtes peut mener à une baisse de 40-60% au niveau des performances des résultats par rapport aux résultats du monolingue (requête en Anglais contre documents en Anglais). Ils attribuent ceci à trois problèmes principaux: Le manque d’un vocabulaire spécialisé dans le dictionnaire, l’ambiguïté des termes lors de la traduction et la non traduction des concepts multi termes tels que l’expression. Ils ont également montré dans le cadre de ces travaux que des améliorations au niveau des résultats de la traduction de requêtes par le dictionnaire peuvent être obtenues en utilisant la pseudo réinjection de la pertinence (pseudo-relevance feedback) avant et après la traduction. Les performances, en termes de précision, ont augmenté de 16% à 34% quand la réinjection est appliquée avant la traduction et entre 14.3% et 47.5% quand elle est appliquée après la traduction. La combinaison des deux niveaux (avant et après la traduction) donne une amélioration entre 40% et 51%. La collection de test et les requêtes utilisées pour ces différentes évaluations sont issues de la collection TREC.
Approches pour la désambigüisation des requêtes Une part importante des travaux effectués actuellement explorent cette direction et tentent de chercher des stratégies de désambiguïsation efficaces. Dans [Grefenstette, 98 ; Oard, 98], une variété de stratégies pour la désambiguïsation des termes de la requête a été proposée. Les travaux recensés sont principalement basés sur les corpus alignés parallèles et comparables. La plupart des approches de désambiguïsation basées sur les corpus alignés utilisent des cooccurrences entre termes calculées à partir de ce corpus pour choisir la(es) meilleur(es) substitution(s) possibles pour un terme donné. Ainsi dans [Ballestros, 97], les valeurs de cooccurrences sont calculées entre les termes anglais et espagnols en se basant sur un corpus parallèle (espagnole-anglais).La désambiguïsation consiste à retenir pour chaque terme anglais le terme espagnol le plus co-occurrent parmi les substitutions possibles obtenues par le dictionnaire COLLINS (anglais-espagnol) pour ce terme anglais. Elle a montré que la précision moyenne est améliorée de 31% par rapport aux résultats obtenus par le dictionnaire.
Dans [Davis, 97], l’approche proposée par Davis et Odgen n’utilise pas de valeurs de cooccurrence entre termes, mais effectue plusieurs recherches monolingues sur chacune des parties du corpus parallèle (anglais-espagnol) à l’aide d’un SRI basé sur le modèle vectoriel QUILT. Tout d’abord, une recherche monolingue est effectuée avec la requête sur une partie du corpus parallèle pour trouver la liste ordonnée de documents résultats. Ensuite, une recherche monolingue sur l’autre partie du corpus parallèle est effectuée pour chacune des traductions possibles d’un terme de la requête. Le produit scalaire entre les différents vecteurs est ensuite calculé, entre les vecteurs de documents de chaque traduction et le vecteur de document du terme source. La traduction choisie est celle qui obtient la liste de documents la plus proche de la liste de la requête. Dans cette approche, il s’agit encore de faire une traduction mot à mot des termes de la requête. Ils ont montré que la désambiguïsation améliore de 37% les résultats obtenus par la traduction simple par le dictionnaire. Ils ont remarqué également que la traduction choisie par le système ne favorise pas forcément les traductions les plus fréquentes dans le corpus.
|
Table des matières
Introduction Générale
Chapitre I La Recherche D’information
1.Introduction
2.Définition d’un Système de Recherche d’Information
3.Bref Historique de la RI
4.Processus de RI
4.1. L’indexation
4.1.1. Les approches d’indexation
4.1.2. Les étapes de l’indexation automatique
4.1.3. Le résultat de l’indexation
4.2. L’appariement Document/ Requête
4.3. La reformulation de la requête
4.3.1. La reformulation manuelle
4.3.2. La reformulation semi-automatique
4.3.3. La reformulation automatique
5.Modèles de RI
5.1. Les modèles ensemblistes
5.1.1. Le modèle booléen
5.1.2. Modèle Booléen basé sur des ensembles flous
5.2. Les modèles algébriques
5.2.1. Le modèle vectoriel
5.2.2. Le modèle vectoriel généralisé
5.3. Les modèles probabilistes
5.3.1. Le modèle de base
5.3.2. Le modèle de réseau inférentiel bayésien
6.Evaluation d’un système
6.1. Corpus de test
6.1.1. Les collections TREC
6.2. Mesures d’évaluation
6.3. Comparaison de systèmes et Précision moyenne
7.Relations avec d’autres domaines
7.1. La RI et les Bases de Données
7.2. La RI et les systèmes question\réponse
8.Difficultés de la RI
Conclusion
Chapitre II La recherche d’information par croisement de langues
1.Introduction
2.Quesque la recherche d’information multilingue
3.Les différentes approches de l’indexation multilingue
3.1. Approche basée sur un vocabulaire contrôlé
3.2. Les différentes approches de la traduction (texte libre)
3.2.1. Approche basée sur la traduction de la requête
3.2.2. Approche basée sur la traduction des documents
3.2.3. Approche basée sur le langage pivot
4.Les ressources multilingues
4.1. Les traducteurs automatiques
4.1.1. Les problèmes
4.1.2. Exemples de systèmes de traductions
4.2. Les dictionnaires
4.2.1. Les dictionnaires bilingues
4.2.2. Les dictionnaires multilingues
4.3. Les Corpus Alignés
4.3.1. Exemples de Corpus Alignés
4.3.2. Les techniques d’alignement
4.4. Les thesaurus
4.4.1. Exemples de Thésaurus
5.Etat des recherches dans le domaine de la RI multilingue
5.1. Approches basées sur le langage pivot
5.2. Approches basées sur les traducteurs automatiques
5.3. Approches basées sur les dictionnaires
5.4. Approches pour la désambigüisation des requêtes
5.5. Approches basées sur les Corpus alignés
5.6. Approches basées sur le vocabulaire prédéfini
5.Les problèmes de la recherche d’information multilingue
Conclusion
Chapitre III Expansion de requête pour un Système de Recherche d’Information par croisement de langues
1.Introduction
2.Problématique
3.Description de l’approche suivie
3.1. Prétraitement
3.2. Désambigüisation et expansion de la requête
3.2.1. La désambiguïsation
3.2.2. Expansion de la requête
3.3. Traduction de la requête désambiguïsée et étendue
3.4. Indexation
3.5. Appariement documents-requête
4.Expérimentation et évaluation
4.1. Environnement d’expérimentation
4.1.1. Présentation de WordNet
4.1.2. Présentation de NetBeans
4.1.3. La base de test
4.2. Evaluation
4.2.1. Evaluation des stratégies
4.2.2. Evaluation finale
Conclusion
Conclusion Générale
References bibliographiques
Télécharger le rapport complet