Assistance à la recherche documentaire par une approche adaptative à base d’agents et d’artefacts

La recherche documentaire dans un corpus de documents numériques

Le développement et la multiplication des systèmes et plateformes informatiques pour accéder à de l’information ne fait que s’accentuer depuis une trentaine d’années. Le grand volume d’information disponible a soulevé de nombreux défis scientifiques dans des domaines tel que la recherche d’information ou la personnalisation des moyens de visualisation, pour ne parler que de l’accès et laisser de côté dans cette thèse le traitement de ces masses de données. Pour accéder à des documents regroupés dans un corpus numérique, il faut être en mesure d’exprimer son besoin en information, souvent sous la forme d’une requête, d’y associer les documents pertinents et de les présenter de la meilleure manière possible aux utilisateurs.

Dans cette thèse, nous nous intéressons plus particulièrement à des corpus documentaires thématiques présentant un haut niveau de technicité dans la discipline concernée. Ces corpus ont pour particularité de s’adresser prioritairement à des experts du domaine, rendant plus difficile la recherche dès l’expression de la requête si l’utilisateur ne dispose pas du vocabulaire précis de la discipline mais aussi lors de l’évaluation de la pertinence des documents proposés.

La recherche documentaire dans de tels corpus numériques s’apparente à un processus de navigation guidé par un besoin d’information d’un utilisateur. Cette navigation nécessite l’usage d’outils classiques de recherche d’information pour sélectionner des documents pertinents en fonction d’une requête, mais ils doivent être complétés par des mécanismes de personnalisation et d’adaptation capable de faire évoluer la représentation du besoin en fonction des spécificités d’un utilisateur, de sa navigation en cours ou du corpus considéré. En effet, l’accès aux documents d’un corpus numérique soulève des problèmes liés à la recherche d’information, à la visualisation des résultats d’une requête et à la navigation entre les documents. Certains de ces problèmes sont similaires à ceux rencontrés dans le domaine de la recherche d’information sur le Web (par exemple le calcul de la pertinence de documents par rapport à une requête) mais d’autres sont spécifiques au fait que nous nous intéressons à un corpus fermé concernant des types de documents, requêtes et utilisateurs restreints que nous pouvons représenter de manière plus fine que dans le cadre général du Web.

Le projet PlaIR 2.0

Le travail présenté dans cette thèse s’inscrit dans le cadre du projet régional PlaIR 2.0 (Plateforme d’Indexation Régionale) et a bénéficié d’une allocation doctorale régionale par le Grand Réseau de Recherche (GRR) normand « Logistique, Mobilité, Numérique ». L’ambition majeure du projet PlaIR 2.0 est de proposer des outils et plateformes pour la constitution de corpus documentaires numériques et leur exploitation au moyen de technologies avancées d’accès à l’information. Dans cet objectif, le projet s’est intéressé aux différentes étapes de ce processus : i) la dématérialisation de documents ; (ii) leur indexation multi-terminologique et multi linguiste; (iii) l’interaction avec les usagers pour un processus personnalisé d’accès à l’information; (iv) l’aide à l’interprétation des documents. Plusieurs démonstrateurs sont réalisés dans PlaIR 2.0 pour l’accès à des documents dans les domaines de la santé, du droit ou du patrimoine.

Selon les tâches, des corpus documentaires thématiques de différentes natures ont été considérés. Dans la tâche 1, il s’agit de documents patrimoniaux, notamment issus des archives du journal de Rouen, avec pour objectif, par une reconnaissance optique de caractères, de construire un corpus numérique à partie de documents papiers. La tâche 2 contribue au développement du portail CISMeF  en s’intéressant à l’indexation semi-automatique et à la découverte de documents dans le domaine de la santé. Enfin, les tâches 3 et 4 utilisent une base documentaire juridique mise à disposition par l’Institut du Droit International des Transports (IDIT  ). Le travail de cette thèse contribue à la tâche 3 pour fournir des mécanismes d’assistance et de personnalisation pour la recherche de documents par des utilisateurs de niveau d’expertise variable dans le domaine du droit. La tâche 4, sur cette même base documentaire, propose une analyse linguistique comme support à l’interprétation sémantique de parties de documents.

La recherche d’information

Le domaine de la recherche d’information, apparue dans les années soixante, étudie la manière de retrouver des informations dans un ensemble de documents appelé corpus documentaire. La recherche d’information peut être définie comme la science de la recherche d’informations dans les bases de données relationnelles, des documents, des textes, des fichiers multimédias, et le Web [Lauren & Becker, 1975]. Le principe de la recherche d’information classique est la correspondance entre un ensemble de mots qui représentent un document et un ensemble de mots qui représentent la requête de utilisateur pour avoir les documents pertinents qui répondent aux besoins de l’utilisateur .

Définition 1 (Recherche d’information [Van Rijsbergen, 1986])

« The user expresses his information need in the form of a request for information. Information retrieval is concerned with retrieving those documents that are likely to be relevant to his information need as expressed by his request. » 

Un système de Recherche d’Information (SRI) intègre différents acteurs : le besoin informationnel d’un utilisateur ou requête, le corpus documentaire, ainsi qu’un ensemble de modèles et de processus qui permettent de sélectionner des résultats pertinentes répondant au besoin en information de l’utilisateur représenté par une requête. Selon Salton [Salton, 1989] « Un système de recherche d’information (RI) est un système qui permet de retrouver les documents pertinents à une requête d’utilisateur, à partir d’une base de documents volumineuse. »

Ainsi, dans un contexte documentaire, l’objectif de la recherche d’information est de fournir les opérations et les procédures pour sélectionner les documents susceptibles de répondre à un besoin en information d’un utilisateur exprimé par une requête. Trois notions clés représentent les concepts de base de la recherche d’information : document, requête et pertinence.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 Introduction
1.1 Contexte et motivation
1.1.1 La recherche documentaire dans un corpus de documents numériques
1.1.2 Le projet PlaIR 2.0
1.2 Problématique et Contributions
1.3 Organisation
I État de l’art
2 Recherche documentaire
2.1 La recherche d’information
2.1.1 Document et requête
2.1.2 Pertinence
2.1.3 Principales phases du processus RI
2.1.4 Les modèles classiques de la RI
2.1.5 Limites de la recherche d’information classique
2.2 La recherche d’information personnalisée
2.2.1 Profil utilisateur
2.2.2 Approches de la personnalisation
2.3 Systèmes de recommandation
2.3.1 Recommandation versus Personnalisation
2.3.2 La recommandation à base de contenu
2.3.3 La recommandation à base de filtrage collaboratif
2.3.4 La recommandation à base de confiance
2.3.5 La recommandation hybride
2.4 Conclusion
3 Systèmes d’agents assistants
3.1 Assistance aux utilisateurs
3.1.1 Les agents assistants
3.1.2 Les caractéristiques d’un agent assistant personnel
3.1.3 Les types d’agent assistant personnel
3.1.4 Exemples
3.2 Assistance à la recherche d’information par système multi-agent
3.2.1 L’agentification du processus de la RI
3.2.2 L’assistance de l’utilisateur et la personnalisation de la RI par des systèmes multi-agents
3.3 Approche stigmergique des systèmes multi-agents
3.3.1 Le modèle A&A : Agent et Artefact
3.3.2 Les agents dans le A&A méta-modèle
3.3.3 Les artefacts dans le méta-modèle A&A
3.3.4 Les systèmes multi-agent à base d’A&A
3.4 Conclusion
II Contributions théoriques
4 Algorithmes d’assistance à la recherche documentaire
4.1 Composants d’un corpus documentaire
4.1.1 Les documents du corpus
4.1.2 Une terminologie
4.1.3 L’index
4.2 Navigation dans le corpus
4.2.1 Navigation
4.2.2 Recherche
4.2.3 Interface
4.2.4 Document
4.3 Reformulation de requêtes
4.3.1 Retour de pertinence et annotation
4.3.2 Profil
4.3.3 Reformulation du besoin informationnel
4.4 Recommandation communautaire
4.5 Recommandation à base de filtrage collaboratif
4.5.1 Regroupement des utilisateurs similaires
4.5.2 Filtrage Collaboratif
4.5.3 Exemple
4.6 Conclusion
5 Plateforme à base d’agents et d’artefacts pour la recherche documentaire
5.1 Architecture multi-agent
5.2 Couche navigation
5.2.1 Artefact Interface
5.2.2 Artefact Navigation
5.2.3 Artefact Document
5.2.4 Artefact Profil
5.2.5 Artefact Recherche
5.2.6 Artefact Annotation
5.3 Couche Décision
5.3.1 Agent Interface
5.3.2 Agent Reformulation
5.3.3 Agent Communautaire
5.3.4 Agent Recommandation
5.4 Configurations selon profil de l’utilisateur
5.4.1 Expert
5.4.2 Intermédiaire
5.4.3 Novice
5.5 Conclusion
III Expérimentations et mise en oeuvre
6 Expérimentation et évaluation
6.1 Plateforme JaCa
6.1.1 Le langage de programmation agent Jason
6.1.2 Plateforme CArtAgO
6.2 Expérimentation sur la base de l’IDIT
6.2.1 Base documentaire de L’IDIT
6.2.2 Première partie de l’expérimentation
6.2.3 Deuxième partie de l’expérimentation
6.2.4 Analyse des résultats
6.3 Conclusion
7 Conclusion et perspectives
CONCLUSION
Bibliographie

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *