Recherche d’information multicritères

Dans le Web d’aujourd’hui caractérisé par la nouvelle génération de techniques d’usage de l’information, une grande variété de possibilités de recherche a été ouverte dans différents domaines. Le principe de production, d’étiquetage et de partage d’informations sans aucune restriction a mené la communauté experte en Recherche d’Information (RI) à comprendre davantage le comportement de navigation des utilisateurs du Web à travers leurs sites favoris, leurs commentaires, les étiquettes qu’ils attribuent aux documents, les relations sociales établies,.., etc. En conséquence de quoi, il est devenu beaucoup plus facile de présenter l’information appropriée à son demandeur.

Cependant, et à la lumière de l’évolution éprouvée dans le domaine de la recherche d’information sur le Web, le problème classique de l’identification du besoin en information de l’utilisateur qui est exprimé souvent par le biais de requêtes courtes et ambiguës n’a pas été entièrement résolu.

Dans le domaine de la recherche d’information, l’historique de navigation de l’utilisateur et son feedback de pertinence représentent les principales sources d’information exploitées dans le but de mieux comprendre son comportement et faciliter davantage son accès à l’information qui l’intéresse. L’usage de ces sources [GAR05; BIA09; BAE04; ZHA06; LV10] a permis d’augmenter la pertinence des résultats de recherche. Néanmoins, il faut noter que leur collecte et leur maintien dans un état cohérent constituent un véritable défi, sachant que le comportement de navigation des utilisateurs peut changer d’un jour à l’autre et d’une période de temps à l’autre en fonction de plusieurs paramètres regroupés sous le terme du contexte qui peut inclure le temps [GAR05; JAI05; ZHA06; SAI11; BOU13b, BOU12b], la localisation [SAI11; BOU12b], la tâche en cours [ASF12; SHE05], l’événement pouvant influé la recherche [BOU12a, 13a], etc. Les travaux abordés dans cette thèse s’inscrivent dans le cadre de la recherche d’information en générale et la recherche d’information contextuelle sur le Web en particulier. Ces travaux visent à contribuer dans l’amélioration de l’accès à l’information pertinente dispersée au sein d’une masse informationnelle gigantesque et variée en s’appuyant sur le contexte de la recherche. L’objectif majeur est tout d’abord, l’identification du besoin en information de l’utilisateur afin de lui assister par la suite dans sa recherche en lui proposant une nouvelle formulation de sa requête pouvant lui assurer de rapprocher de l’information désirée.

MOTIVATIONS

L’utilisation du contexte de l’utilisateur dans le domaine de la recherche d’information sur le Web est une voie de recherche prometteuse, et elle faisait l’objet de plusieurs travaux [ALO07; DIA09; JIN11; PAS08; DIN11 ; BOU11, 12a, 13a,b] parmi lesquels le présent travail de thèse qui vise à bénéficier du minimum de renseignements recueillis implicitement sur l’activité de navigation de l’utilisateur dans le but de mieux identifier son besoin en information, puis le servir avec du contenu pertinent. Pour commencer, il est essentiel de définir clairement les points de départ pour une bonne atteinte des objectifs soulignés. En fait, l’analyse du trafic de recherche du moteur de recherche le plus populaire Google nous a permis d’extraire un ensemble d’heuristiques à propos du comportement global des utilisateurs à travers le Web à savoir :

● L’aspect périodique qui caractérise un nombre important de requêtes sur le Web [ALF09; SAN07; VLA04] ;
● La présence d’une relation de dépendance recherche-événements agissants un peu partout à travers le monde ce qui reflète la baisse ou l’augmentation de la fréquence de soumission des requêtes connexes au fil du temps.

CONCEPTS CLÉS DE LA RECHERCHE D’INFORMATION

Le terme de recherche d’information a été introduit par Calvin Mooers en 1950 [MOO50] et il signifie la discipline informatique qui traite la problématique d’accès à l’information pertinente dans une masse de données souvent importante. Elle peut se définir comme l’ensemble d’opérations, méthodes et procédures qui permettent de retrouver à partir d’une collection de documents, l’information pouvant répondre à une question sur un sujet précis.

Lorsque la recherche s’effectue dans un espace documentaire important, la possibilité de retrouver l’information désirée diminue comme dans le cas du Web qui représente la source d’information numéro un dans le monde. Bien que les recherches évoluées dans le domaine pluridisciplinaire de la Recherche d’Information sur le Web (RIW) aient apporté une grande rénovation aux techniques et modèles sous-jacents, la RIW incite constamment de nombreuses recherches développées conjointement avec la croissance incessante d’informations diverses et hétérogènes.

CONCEPTS DE BASE DE LA RECHERCHE D’INFORMATION 

Système de recherche d’information
Un système de recherche d’information (information retrieval system) est tout outil qui permet de retrouver à partir d’une collection de documents, l’information qui répond à un besoin utilisateur exprimé à l’aide d’une requête.

Document
Le document (document) constitue l’élément d’information de base dans un SRI. Il peut être un texte, une image, une vidéo, un son ou encore une combinaison des objets précédents, dans ce cas on parle des pages Web. L’ensemble de documents compris dans un SRI s’appelle la collection de documents ou corpus.

Requête
La requête (query) représente l’expression d’un besoin en information selon le formalisme d’interrogation d’un SRI d’où, on distingue dans la littérature quatre formalismes d’interrogations [BAZ05c]: par le biais de mots clés, en langage naturel, booléen ou graphique. Elle est considérée comme le médiateur entre l’utilisateur et l’information recherchée.

Pertinence
La pertinence (relevance) mesure le degré de ressemblance entre la requête et le document renvoyé en se référant aux deux concepts : bruit et silence. Tel que, le silence correspond aux documents pertinents qui n’apparaissent pas dans le résultat de la recherche, alors que le bruit correspond aux documents ramenés en réponse, mais qui ne sont pas pertinents par rapport à la question posée [LEL98]. Dans [SAR75, 96, 97, 07], Saracevic a traité le concept de pertinence avec une grande importance où il a défini dans [SAR97] cinq types de pertinence.

➤ Pertinence système ou algorithmique, qui définit la capacité du système à comparer entre documents et requêtes et à quel point il a réussi à retrouver les documents adéquats à cette requête;
➤ Pertinence thématique, elle dépend du sujet exprimé dans la requête et celui des documents retrouvés;
➤ Pertinence cognitive, qui est la correspondance entre le besoin d’information de l’utilisateur, l’état de ses connaissances, et les documents retrouvés; elle est déduite à partir du degré d’accord cognitif entre le niveau de compréhension de l’utilisateur et l’information, de son informativité, de sa fraîcheur, de sa qualité et des préférences de l’utilisateur;
➤ Pertinence situationnelle ou contextuelle, elle représente la relation entre le problème à résoudre et les documents retrouvés. Elle est déterminée en fonction de l’utilité de ces documents et leur adéquation au but de l’utilisateur;
➤ Pertinence affective ou motivationnelle, qui est déduite à partir du degré de satisfaction de l’utilisateur vis-à-vis de l’information obtenue. Elle est définie autour de plusieurs critères d’évaluation sont : les intentions, les buts, les motivations et les gouts de l’utilisateur.

PROCESSUS DE RECHERCHE D’INFORMATION

L’accès à l’information paraît à l’utilisateur une tâche simple pouvant être récapitulée en quelques clics, tandis que derrière cette simplicité se cache un processus sophistiqué. En fait le processus de RI comporte deux grandes étapes sont : l’indexation et l’interrogation.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 : INTRODUCTION GÉNÉRALE
1.1. INTRODUCTION
1.2. MOTIVATIONs
1.3. PROBLÉMATIQUE ET CONTRIBUTIONS
1.4. PLAN DE LA THÈSE
CHAPITRE 2 : CONCEPTS CLÉS DE LA RECHERCHE D’INFORMATION
2.1. INTRODUCTION
2.2. CONCEPTS DE BASE DE LA RECHERCHE D’INFORMATION
2.2.1. Système de recherche d’information
2.2.2. Document
2.2.3. Requête
2.2.4. Pertinence
2.3. PROCESSUS DE RECHERCHE D’INFORMATION
2.3.1. L’indexation
2.3.1.1. L’indexation manuelle
2.3.1.2. L’indexation semi-automatique
2.3.1.3. L’indexation automatique
2.3.2. L’interrogation
2.4. LES PRINCIPAUX MODÈLES DE RI
2.4.1. Les modèles ensemblistes
2.4.1.1. Modèle booléen (boolean model)
2.4.1.2. Modèle flou (fuzzy set model)
2.4.2. Les modèles algébriques
2.4.2.1. Le modèle vectoriel (vector model)
2.4.2.2. L’indexation sémantique latente (Latent Semantic indexing)
2.4.3. Les modèles probabilistes
2.5. ÉVALUATION D’UN SYSTÈME DE RECHERCHE D’INFORMATION
2.5.1. Collection de test
2.5.2. Compagne d’évaluation
2.5.2.1. La compagne TREC
2.5.2.2. La compagne CLEF
2.5.2.3. La compagne NTCIR
2.5.3. Mesures d’évaluation
2.5.3.1. Rappel
2.5.3.2. Précision
2.5.3.3. Autres mesures
2.6. CONCLUSION
CHAPITRE 3: LE CONTEXTE ET LA RECHERCHE D’INFORMATION
3.1. INTRODUCTION
3.2. NOTION DE CONTEXTE
3.3. TAXINOMIES DE CONTEXTE
3.3.1. Taxinomie de Fuhr [FUH00]
3.3.2. La taxinomie de Myrhaug et Göker [MYR03]
3.3.3. Taxinomie de Ingerwersen et Jarvelin [ING05]
3.3.4. La taxinomie de Tamine et al. [TAM09]
3.4. SYNTHÈSE
3.5. Taxinomie proposée
3.5. MODÉLISATION CONTEXTUELLE
3.5.1. Sources de données
3.5.2. Stratégies d’acquisition
3.5.2.1. Acquisition explicite
3.5.2.2. Acquisition implicite
3.5.3. Construction et représentation du modèle utilisateur
3.6. L’évaluation en recherche d’information contextuelle
3.6.1. Méthodes basées sur les collections de test
3.6.2. Méthodes basées sur la simulation du contexte
3.6.3. Méthodes basées sur des contextes réels
3.7. CONCLUSION
CHAPITRE 4 : UN APERÇU DES DIFFÉRENTES TECHNIQUES DE REFORMULATION DE REQUÊTES
4.1 INTRODUCTION
4.2. DÉFINITIONS
4.2.1. Ambigüité
4.2.2. Reformulation de la requête
4.3. CLASSIFICATIONS DES APPROCHES D’EXPANSION DE REQUÊTES
4.3.1. Selon le degré d’implication de l’utilisateur
4.3.1.1. Approche interactive
4.3.1.2. Approche automatique
4.3.2. Selon la source des termes d’expansion
4.3.2.1. Méthode basée sur la réinjection de pertinence
4.3.2.2. Méthode basée sur le pseudo réinjection de pertinence
4.3.2.3. Méthode basée sur les ressources sémantiques
4.3.3. Selon le principe de génération des termes d’expansion
4.3.3.1. L’approche linguistique
4.3.3.2. L’approche statistique
4.3.3.3. L’approche mixte
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *