Recherche dans le web
L’objectif de la recherche d’information dans le web est de satisfaire les besoins des utilisateurs en information. Selon la taxonomie présentée dans , les utilisateurs effectuent leurs recherches de plusieurs manières : de manière navigationnelle (me donner l’url du site que je veux atteindre), transactionnelle (me montrer des sites où je peux effectuer une transaction, par exemple, télécharger un fichier ou trouver une carte) ou informationnelle (chercher des informations dans plusieurs pages web).
Les requêtes navigationnelles: Le but de ces requêtes est d’atteindre un site particulier par saisie directe de l’url ou par parcours manuel ou automatique des liens hypertextes entre sites. Ce mode de recherche de documents du web nécessite la connaissance d’un minimum d’urls pertinentes et intéressantes pour la recherche `a effectuer. Or, la taille actuelle du web ne permet pas de constituer cette connaissance. L’utilisation des moteurs de recherche représente une solution intéressante au problème soulevé par le mode de recherche précèdent. Le principe consiste à décrire les documents cibles par une requête de mots clés. Après évaluation sur les documents de son index, le moteur de recherche renvoie une liste d’urls (des réponses) jugées pertinentes par rapport à la requête soumise .
Les requêtes transactionnelles: Le but de ces requêtes est d’atteindre un site où des interactions vont se passer. Ces interactions constituent des transactions définies par ces requêtes. Les principales catégories de ces requêtes sont le shopping, le téléchargement de fichiers (images, chansons, etc.), l’accès à certaines bases de données (par exemple, les pages jaunes), la recherche des serveurs (par exemple, les jeux), etc. Le résultat de ces requêtes est difficile à évaluer, seul le jugement binaire est possible pour savoir si les résultats sont appropriés ou non appropriés. Cependant, la plupart des informations obtenues (par exemple, prix des marchandises, etc.) ne sont pas fournies .
Les requêtes informationnelles :Les requêtes informationnelles sont les plus proches aux requêtes classiques de la RI. Leur but est d’acquérir des informations supposées être présentes sur une ou plusieurs pages web dans une forme statique. Aucune interaction n’est prévue sauf la lecture et aucun document n’est crée en réponse à la requête de l’utilisateur . Néanmoins, les moteurs de recherche pourraient conduire à des pages dynamiques. Selon l’auteur de , pour les requêtes informationnelles du web, près de 15 % de toutes les recherches effectuées ont comme résultat une bonne collection de liens portant sur le sujet, plutôt qu’un bon document.
L’extraction d’informations
Des milliers de sites web apparaissent chaque jour, il est donc devenu crucial pour les utilisateurs de bénéficier d’un accès rapide `a l’information demandée. Ceci a motivé, en particulier, la création de systèmes d’extraction d’information qui sont devenus de plus en plus nombreux depuis quelques années. Toutefois, plusieurs défis se dressent devant ces systèmes avant qu’ils atteignent des performances optimales . En effet, il faut tenir compte du fait que les données textuelles contiennent souvent de l’information non structurée, ce qui rend l’extraction d’information plus complexe.
En plus du développement des systèmes d’extraction d’information, les travaux de recherche essayent de répondre à cette problématique de surcharge d’informations en développant d’autres outils spécifiques tels que : les moteurs de recherche, les analyseurs morphologiques et syntaxiques, etc. Notons que ces outils peuvent présenter une certaine forme de dépendance : par exemple, un système d’extraction d’information peut faire appel à un analyseur morphologique .
L’annotation Sémantique
Inscrite dans le paradigme du web Sémantique et ayant comme objectif l’enrichissement du contenu textuel, l’annotation sémantique (AS) constitue un moyen de mise en correspondance entre texte et modèle sémantique . Dans le cadre du web sémantique, ”une annotation est un commentaire, une note, une explication ou toute autre remarque externe qui peut être rattachée à un document web ou à une partie de celui-ci”. Les auteurs de , présentent plusieurs définitions de l’annotation selon le domaine de recherche où elle est utilisée. Dans ce qui suit, nous présentons quelques définitions.
Dans le contexte du web, une annotation est une information graphique ou textuelle attachée à un document et placée souvent dans ce document. Cette place est donnée par une ancre. Dans le contexte des interfaces homme-machine, les auteurs de définissent l’annotation comme un commentaire sur un objet tel qu’il existe :
Un auteur qui crée l’objet à annoter.
Un annotateur qui commente cet objet.
Un lecteur qui donne du sens à ce commentaire. Une même personne remplie souvent plusieurs rôles.
Une autre définition est présentée dans , annoter un document, c’est : attacher à l’une de ses parties une description qui correspond à l’usage que l’on souhaitera en faire plus tard.
Indexation vs Annotation
Selon les auteurs , les notions d’annotation et d’indexation semblent équivalentes. On se retrouve dans les deux cas avec une indexation des concepts du document, qui sera utilisée dans le cadre d’une tâche d’exploitation. Néanmoins, il existe les différences suivantes :
Indexer, c’est d´écrire un document pour le retrouver ;
Annoter, c’est d´écrire l’interprétation du document par un lecteur, en vue de n’importe quelle tâche d’exploitation future de ce document.
On indexe pour une recherche ultérieure, on annote pour donner des traces de son interprétation, pour documenter la tâche que l’on est en train d’accomplir. Ces traces pourront alors être destinées à soi-même, ou partagées.
La diversité des résultats de la recherche
Les approches classiques de classement des réponses renvoient les résultats les plus pertinents aux requêtes des utilisateurs. Ces approches ignorent pourtant certains facteurs importants qui contribuent à la satisfaction des utilisateurs ; par exemple, le résultat peut être redondant.
Le scénario classique de la recherche consiste à identifier un nombre de documents, qui sont susceptibles de satisfaire les besoins d’information d’un utilisateur, en réponse à une requête qu’il a exprimé. En règle générale, les résultats qui sont les plus pertinents à la requête de l’utilisateur sont retournés comme réponse. L’hypothèse sous-jacente est que l’utilité d’un résultat pour l’utilisateur est indépendante de l’utilité des autres résultats retournés. Cela a été reconnu très tôt comme une hypothèse simpliste. En effet, le contenu d’un document retourné peut être redondant, étant donné un autre résultat précédemment examiné. Ceci est vrai si les deux documents sont semblables dans le contenu. Ce problème est appelé la sur-spécialisation ”over-specialization” .
En outre, si la requête de l’utilisateur peut avoir plusieurs sens ”semantic heterogeneity”, la présentation des résultats pertinents `a un seul sens uniquement peut laisser l’utilisateur insatisfait.
|
Table des matières
1 Introduction générale
1.1 Opportunités
1.2 Défis et Contributions
1.3 Exemple de motivation
1.4 Plan de la thèse
I Notions de base et état de l’art
2 Notions de base et prérequis
2.1 Introduction
2.2 La recherche d’information
2.2.1 Recherche dans le web
2.3 L’extraction d’informations
2.3.1 Principe de l’extraction d’information
2.3.2 Reconnaissance des entités nommées
2.4 L’annotation Sémantique
2.4.1 Recherche par types annotés
2.4.2 Systèmes d’annotation automatique
2.4.3 Linked data
2.5 L’indexation
2.5.1 Indexation vs Annotation
2.5.2 Indexation des documents textuels
2.5.3 Techniques d’indexation
2.6 La recherche d’entités
2.7 La pertinence des résultats de la recherche
2.8 La diversité des résultats de la recherche
2.9 Conclusion
3 Etat de l’art
3.1 Introduction
3.2 Etat de l’art sur la recherche d’entités
3.2.1 Une entité, c’est quoi au juste ?
3.2.2 Travaux relatifs `a la recherche d’entités
3.3 Etat de l’art sur la diversité des résultats
3.3.1 Diversité dans les systèmes de recommandation
3.3.2 Diversité des résultats structurés
3.3.3 Diversité dans les résultats des moteurs de recherche
3.3.4 Types de diversité
3.4 Discussion
II Diversification des résultats de la recherche d’entités
4 Contexte de notre travail
4.1 Introduction
4.2 Positionnement de notre approche
4.3 Exemple de motivation
4.4 Modèle de donnes
4.5 Définition du problème
4.5.1 Recherche d’entités
4.5.2 Recherche de documents
4.6 Discussion
5 Approche de diversification des résultats de la recherche d’entités
5.1 Introduction
5.2 Architecture du système
5.3 Etapes de notre approche
5.4 Phase de traitements hors ligne
5.4.1 Annotation .
5.4.2 Indexation
5.5 Phase de traitements en ligne
5.5.1 Algorithmes des traitements en ligne
5.6 Discussion
6 Expérimentations
6.1 Introduction
6.2 Environnement de développement
6.2.1 Corpus utilisés
6.2.2 Indexation et annotation
6.3 Evaluation de la pertinence
6.3.1 Pertinence des entités retournées pour R1E, RPE et RMC
6.3.2 Précision, Recall, MAP
6.3.3 Pertinence de la diversification des documents
6.3.4 Utilité de notre approche
6.4 Evaluation des performances
6.4.1 Espace de stockage
6.4.2 Temps de réponse
6.5 Conclusion
Conclusion générale et perspectives
Télécharger le rapport complet