L’avènement de l’informatique, du multimédia et l’essor d’Internetsont,sans nul doute, l’une des plus grandes innovations de ce siècle. Les progrès des technologies de l’information, le large développement de nouveaux supports de média informatique (micro-ordinateur, téléphone portable, PDA) et l’amélioration des capacités de stockage sont les rouages essentiels de cette innovation. Les conséquences sur notre société ne sont pas des moindres. Notre perception et rapport avec l’information ont radicalement changé. L’expansion et la popularité grandissante du web ont en effet changé notre façon d’appréhender l’accès à la connaissance, la manière d’apprendre, de travailler et de vivre. Au delà des progrès et libertés apportés aux procédés d’éditions de l’information, cette innovation porte essentiellement sur l’ensemble des services de communication et d’accès à l’information. Elle a marqué le début d’une nouvelle ère de communication, d’une nouvelle société axée principalement autour de l’information.
Dès lors, l’accès à l’information est devenu un enjeu capital et stratégique : acquérir l’information pertinente, au bon moment, dès qu’elle est disponible est une nécessité pour tous, dans tous les domaines de la vie active. Un tel engouement a engendré une prolifération de nombreuses sources d’information. La quantité d’information disponible, particulièrement à travers le web n’a pas cessé d’augmenter. Nous sommes témoin d’une surabondance de l’information. Si on prend l’exemple du web, qui représente incontestablement la plus grande source d’information disponible jusqu’à présent et qui ne cesse de croître, un moteur de recherche populaire rapporte plus de huit (8) milliards de pages dans son index en juillet 2005 alors qu’elles étaient seulement 320 millions en 1997 et 3.3 milliards en septembre 2002. Le nombre d’utilisateurs est quand à lui estimé aujourd’hui à plusieurs centaines de millions. En conséquent, il devient de plus en plus difficile de retrouver précisément ce que l’on recherche dans cette masse de données.
L’accès personnalisé à l’information : De la RI classique à la RI personnalisée
La discipline de la recherche d’information (RI) est apparue dans un contexte où les progrès des technologies de l’information ont changé la perception de l’accès à l’information. Avec l’avènement du web, l’expansion de l’informatique à tous les domaines de la vie courante, a eu pour conséquence directe, l’accessibilité par un large public d’utilisateurs, autre que des documentalistes spécialisés, à des masses d’information volumineuses et hétérogènes. Les efforts continus des chercheurs en RI ont permis jusqu’à présent d’améliorer sans cesse les performances et la qualité des services d’accès à l’information. Ce chapitre retrace les principales évolutions dans le domaine de la RI : de la première génération de systèmes de recherche d’information (SRI) dits classiques à la RI adaptative, puis récemment à la RI personnalisée. La RI classique, apparue dans les années soixante, a une vision orientée système, en ce sens où la recherche des informations pertinentes se base uniquement sur l’appariement des documents avec la requête soumise par l’utilisateur. Toutefois, cette vision de l’accès à l’information suppose que l’utilisateur est extérieur au système de recherche. De plus, la difficulté qu’à l’utilisateur à exprimer son besoin en information par une requête, ainsi que la différence de vocabulaire entre les termes choisis par l’utilisateur pour formuler sa requête et les termes utilisés pour représenter les documents engendrent un défaut d’appariement. Ce défaut d’appariement est à l’origine d’une dégradation des performances de recherche. Cette problématique est encore plus accentuée avec l’accroissement continuel des sources d’information hétérogènes et la diversité des utilisateurs.
Dans un tel contexte, les travaux se sont orientés vers des approches dites adaptatives exploitant diverses sources d’évidence (documents jugés, termes pertinents, etc.) pour aider et assister l’utilisateur à retrouver les informations pertinentes à son besoin. Cependant, en dépit de l’efficacité des ces techniques adaptatives, le problème d’insatisfaction de l’utilisateur persiste. On estime que 63% à 66% des 85% d’utilisateurs de moteurs de recherche sont insatisfaits aussi bien en termes de délai que de la qualité des réponses fournies [97]. Ainsi, dans le but de mieux répondre aux attentes et besoins des utilisateurs, les travaux en RI s’orientent actuellement vers des approches dites de personnalisation en exploitant des caractéristiques informationnelles spécifiques de l’utilisateur dans les processus d’accès à l’information.
Les fondements de la recherche d’information
L’objectif principal de la recherche d’information est de fournir des techniques et des outils pour sélectionner les informations pertinentes contenues dans une collection de documents en réponse aux besoins en information d’un utilisateur représentés à l’aide d’une requête. Nous citons ci-dessous la définition de la RI donnée par [187] dans sa forme originelle : « The user expresses his information need in the form of a request for information. Information retrieval is concerned with retrieving those documents that are likely to be relevant to his information need as expressed by his request ». Cette définition fait apparaître deux notions clés que nous introduisons dans ce qui suit : document et requête utilisateur
Notions de base
Document : Un document peut être un texte, un morceau de texte, une page web, une image, une vidéo, etc. On peut appeler document toute unité qui peut constituer une réponse à un besoin informationnel de l’utilisateur. Nous nous intéressons uniquement, dans ce travail, aux documents textuels. Dans la suite de cette thèse, nous utilisons indifféremment les termes document ou information pour désigner l’utilité documentaire retourné en réponse à la requête de l’utilisateur.
Requête : Une requête constitue l’expression du besoin en information de l’utilisateur. Elle représente l’interface entre le SRI et l’utilisateur. Divers types de langages d’interrogation sont proposés dans la littérature.
On peut citer :
– par une liste de mots clés : cas des systèmes SMART [149] et Okapi [143],
– en langage naturel : cas des systèmes SMART [149] et SPIRIT [61],
– en langage booléen : cas du système DIALOG [27],
– en langage graphique : cas du système NEURODOC [109].
Principales phases du processus de RI
L’objectif fondamental d’un processus de RI est de sélectionner les documents « les plus proches » du besoin en information de l’utilisateur décrit par une requête. Pour cela, le système de recherche regroupe un ensemble de méthodes et procédures permettant la gestion des collections de documents stockés sous forme d’une représentation intermédiaire permettant de refléter aussi fidèlement que possible leurs contenus sémantiques. L’interrogation de la collection de documents à l’aide d’une requête nécessite la représentation de cette dernière sous une forme unfiée compatible avec celles des documents.
L’indexation
L’indexation est une étape très importante dans le processus de RI. Elle consiste à déterminer et à extraire les termes représentatifs du contenu d’un document ou d’une requête. La qualité de la recherche dépend en grande partie de la qualité de l’indexation. Le résultat de l’indexation constitue, ce que l’on nomme le descripteur du document ou de la requête. Ce dernier est souvent une liste de termes ou groupe de termes significatifs pour l’unité textuelle correspondante, généralement assortis de poids représentant leur degré de représentativité du contenu sémantique de l’unité qu’ils décrivent. Les descripteurs des documents (mots, groupe de mots) sont rangés dans un catalogue appelée dictionnaire constituant le langage d’indexation.
Techniquement, l’indexation peut être manuelle, automatique ou semi-automatique :
– manuelle : chaque document est analysé par un spécialiste du domaine ou un documentaliste.
– automatique : chaque document est analysé à l’aide d’un processus entièrement automatisé.
– semi-automatique (mixte) : c’est une combinaison des deux méthodes précédentes: un premier processus automatique permet d’extraire les termes du document. Cependant, le choix final reste au spécialiste du domaine ou au documentaliste pour établir les relations entre les mots clés et choisir les termes significatifs.
|
Table des matières
Introduction générale
1 L’accès personnalisé à l’information : De la RI classique à la RI personnalisée
1.1 Introduction
1.2 Les fondements de la recherche d’information
1.2.1 Notions de base
1.2.2 Principales phases du processus de RI
1.2.2.1 L’indexation
1.2.2.2 L’appariement document-requête
1.2.3 Taxonomie des modèles de RI
1.3 De la RI classique à la RI adaptative
1.4 La RI adaptative
1.4.1 Reformulation de requête
1.4.1.1 Reformulation automatique de requête
1.4.1.2 Reformulation interactive de requête
1.4.2 Adaptation du contenu documentaire
1.5 Bilan sur la RI adaptative : facteurs d’émergence de la RI personnalisée
1.6 Conclusion
2 L’accès personnalisé à l’information : Préambule et Problématique
2.1 Introduction
2.2 Préambule
2.3 Notions de base
2.3.1 Contexte de recherche
2.3.2 Profil utilisateur
2.3.3 Pertinence contextuelle
2.3.4 Architecture fonctionnelle
2.4 Problématique générale
2.4.1 Modélisation du profil utilisateur
2.4.2 Exploitation du profil utilisateur
2.5 Conclusion
3 L’accès personnalisé à l’information : Modélisation de l’utilisateur
3.1 Introduction
3.2 Approches de représentation du profil utilisateur
3.2.1 Représentation ensembliste
3.2.2 Représentation connexionniste
3.2.3 Représentation conceptuelle
3.2.4 Représentation multidimensionnelle
3.3 Approches de construction du profil utilisateur
3.3.1 Acquisition des données utilisateurs
3.3.1.1 L’acquisition explicite
3.3.1.2 L’acquisition implicite
3.3.1.3 Discussion : acquisition explicite vs. acquisition implicite
3.3.2 Techniques de construction
3.3.2.1 Extraction d’ensemble de termes
3.3.2.2 Extraction de réseaux de termes
3.3.2.3 Extraction de concepts
3.3.3 Synthèse des approches de construction
3.4 Approches d’évolution du profil utilisateur
3.5 Conclusion
4 L’accès personnalisé à l’information : Modèles d’accès
4.1 Introduction
4.2 Panorama des modèles d’accès personnalisé à l’information
4.2.1 Approches de recommandation
4.2.1.1 Recommandation basée sur le contenu
4.2.1.2 Recommandation basée sur la collaboration
4.2.2 Approches d’appariement personnalisé de l’information
4.2.2.1 Approches basées sur le contenu
4.2.2.2 Approches basées sur la structure
4.2.3 Modèle de ré-ordonnancement des résultats de recherche
4.2.4 Modèle de la reformulation de requêtes
4.3 Evaluation des systèmes d’accès personnalisé à l’information
4.3.1 Le programme d’évaluation TREC
4.3.1.1 Description d’une tâche TREC
4.3.1.2 Collections de test
4.3.1.3 Le protocole d’évaluation
4.3.2 Problématique de l’évaluation d’une tâche d’accès personnalisé
4.3.3 Les protocoles d’évaluation pour l’accès personnalisé
4.3.3.1 Les mesures d’évaluation
4.3.3.2 Collection de test
4.3.3.3 Scénarios d’évaluation d’un SRIP
4.4 Conclusion
5 Profil Utilisateur : Interaction, Inférence et Evolution
5.1 Introduction
5.2 Définitions et Notations
5.3 Exemple illustratif
5.4 Construction de l’historique de recherche
5.4.1 Représentation d’une session de recherche
5.4.2 Agrégation des sessions de recherche
5.4.3 Illustration
5.5 Inférence des centres d’intérêts
5.5.1 Extraction d’un contexte d’usage
5.5.2 Evolution des centres d’intérêt
5.6 Approche implicite pour l’acquisition des données utilisateur
5.6.1 La catégorie de comportement et indicateurs associés
5.6.2 Calcul du degré d’intérêt implicite
5.6.3 Initialisation des poids des indicateurs implicites
5.6.4 Validation expérimentale
5.6.4.1 Phase d’initialisation
5.6.4.2 Analyse des résultats
5.7 Conclusion
Conclusion générale