Avec le développement des nouvelles technologies de l’information et de la communication, de l’informatique et surtout de l’Internet, le volume d’information stockée électroniquement ainsi que la profusion d’informations accessibles à tous sont en perpétuelle augmentation et n’ont de cesse de croître. Depuis les années 90, c’est le World Wide Web (également appelé Web ou Toile) qui connaît le plus gros essor au niveau mondial. Le Web est devenu la source d’informations privilégiée pour quiconque recherche des informations en relation avec ses besoins. En effet, ce service de l’Internet met à la disposition de tout Internaute tout type d’informations organisées sous la forme de pages (que nous appellerons ‘documents’ par abus de langage) contenant des liens vers d’autres pages et permettant le passage d’une page à une autre très facilement. Cependant, cette prolifération d’informations pose le problème de leur localisation pour leur exploitation par l’utilisateur, chaque document étant noyé dans un énorme fond documentaire (également appelé corpus) en constante évolution. La quantité d’information accessible est elle-même une richesse mais elle devient très vite un handicap pour l’utilisateur. En effet, il demeure difficile de retrouver de manière pertinente un ensemble d’informations contenu dans un document et notamment de savoir où retrouver l’information recherchée, à moins d’analyser chacun de ces documents.
Les Systèmes de Recherche d’Information (SRI) sont conçus à l’origine pour répondre aux besoins d’automatiser la gestion de la documentation. Du fait de leur grand nombre, la localisation des informations pertinentes est un problème. Avec l’avènement d’Internet, le volume des documents et le nombre de personnes à gérer se sont accrus de manière importante: le nombre de pages Web accessibles a augmenté de 320 millions en 1997 à plus de 4,3 milliards en 2004 . Le nombre d’utilisateurs est aujourd’hui évalué à des centaines de millions. De nombreux outils de recherche ont été développés pour faciliter l’accès à l’information sur ce média, mais même l’utilisation d’un moteur de recherche ne permet pas toujours de trouver ce dont on a besoin. Les réponses sont souvent non pertinentes par rapport aux attentes et, en suivant des liens à partir d’un document pertinent, l’utilisateur se rend compte qu’il en existe d’autres qui n’étaient pas signalés ou qui étaient signalés après plusieurs centaines d’autres documents non pertinents. L’utilisateur a du mal à se repérer, à identifier les documents intéressants au sein de cette masse informationnelle qui évolue sans cesse. L’utilisateur navigue d’un lien à l’autre et la conséquence directe est que la recherche est abandonnée (loi de Mooers (Mooers, 1960)).
Internet et le Web
Historique d’Internet
L’histoire d’Internet a débuté en pleine guerre froide. En 1957, les Soviétiques ont lancé leur satellite Spoutnik et les Américains ont redouté une guerre nucléaire. Le ministère de la défense américain créa alors une agence pour la recherche nommée ARPA. Son but visait à développer un réseau de communication militaire pouvant fonctionner même avec une partie hors service. Une première application du réseau ARPANET est le courrier électronique permettant aux militaires de communiquer. Sa première expérimentation a eu lieu en 1969 aux Etats-Unis. Ce réseau fut rebaptisé Internet (« Inter Networking ») en 1980.
Dès lors, l’Internet a connu une perpétuelle évolution en particulier au travers de l’augmentation du nombre de machines connectées. En revanche, Internet n’était, à ses débuts, destiné qu’à peu d’universitaires qui connaissaient son langage. C’est en Europe qu’a été simplifié le langage d’Internet, avec la notion d’hypertexte, et développé le premier navigateur permettant de visualiser les différents documents disponibles. Basé sur cette approche, le premier navigateur « grand public » nommé Mosaic fut développé en 1993. Grâce à ce navigateur, chaque utilisateur connecté pouvait accéder et parcourir simplement les documents disponibles sur Internet. Cette fonctionnalité est toujours disponible aujourd’hui grâce aux navigateurs actuels (Microsoft Internet Explorer, Netscape…). Cet attrait d’Internet peut être expliqué par le fait qu’il permet de partager instantanément des informations entre toutes les machines connectées.
Au début des années 1990, Internet a connu un véritable essor du fait de l’avènement du service Web. Ce service a permis de simplifier la mise en oeuvre de services multimédia incitant les particuliers ainsi que les entreprises à diffuser leurs informations. Cet essor peut s’expliquer par le fait que le Web repose sur des notions peu complexes et qu’il permet d’interagir avec les autres protocoles disponibles sur Internet. Le Web peut être vu comme une « interface » entre les internautes et les différents services d’Internet tout en proposant un outil facile et puissant d’utilisation pour le parcours des différents documents. Dans le cas du Web, la notion de documents revêt un caractère particulier et on parle plus couramment de pages que de documents. Nous donnons ci-après la définition de la notion de document :
Définition 1.1 (DOCUMENT) (Définition ISO).
Un document est l’ensemble d’un support d’information et des données enregistrées sur celui-ci sous la forme en général permanente et lisible par l’homme et la machine.
La technologie sur laquelle repose le Web a été développée au CERN (Centre Européen pour la Recherche Nucléaire) en 1989 par Tim Berners-Lee (Berners-Lee et al., 1994). L’objectif était la diffusion d’informations scientifiques entre les chercheurs. L’idée sur laquelle repose le Web était d’organiser les informations sous forme de documents avec possibilités d’insérer des liens vers d’autres documents autorisant le passage d’un document à un autre sans peine. La norme HTML, développée par le World Wide Web Consortium (W3C3), permet à l’utilisateur de décrire les documents qu’il souhaite mettre en ligne sous forme textuelle. Ce langage hypertexte permet également à l’utilisateur d’insérer des liens (ancres) vers tout autre document associé à une URL. Un document sous cette forme en HTML est communément appelé une page web. Par extension, un site Web correspond à une arborescence de pages Web ayant pour racine une page, dite d’accueil, et se trouvant sur un même serveur. Ce standard est aujourd’hui remis en cause par des langages où la distinction entre contenu et présentation est beaucoup plus nette comme XML (eXtensible Markup Langage) (Bray & Sperberg Mc Queen, 1996). Ce langage de balisage permet de créer des documents en distinguant la structure logique (pour le contenu sémantique) de la structure physique (pour la présentation des données).
Caractéristiques du Web
Les informations disponibles sur le Web peuvent être scindées en deux catégories par rapport aux modes d’accès possibles : le Web caché et le Web visible. Le Web caché (Bergman, 2000) correspond à l’ensemble des documents accessibles par l’intermédiaire d’un serveur « dédié » comme un serveur de base de données. Le seul moyen d’y accéder est d’interroger le serveur grâce à une requête adéquate ou à un formulaire. Le Web visible correspond à l’ensemble des documents directement accessibles sans avoir besoin de formuler une quelconque requête ou de remplir un quelconque formulaire.
La grande différence entre ces deux modes d’accès réside dans le fait que les informations accessibles par le Web caché sont plus nombreuses. De plus, les informations que contient le Web caché sont plus « contrôlées » que celles du Web visible. Le Web visible est constitué de plus de 4 milliards de documents Web et est en plein essor avec une évolution approximative de plus de 7 millions de documents par jour (Murray & Moore, 2000).
Limites des Informations du Web
L’utilisateur a donc facilement accès à un nombre important de documents contenant des informations aussi diverses qu’abondantes. Cependant, outre le volume important d’information disponible, le Web a des limites qui lui sont inhérentes. Ces limites sont (BaezaYates & Ribeiro-Neto, 1999) :
− la non-persistance de l’information : le Web possède une dynamique très importante et l’information naît, évolue et disparaît rapidement. Un document visité à un moment t ne sera pas forcément le même que celui consulté au moment (t+∆). Il a d’ailleurs été estimé que 40% des informations disponibles sur le Web changent tous les mois (Kahle, 1996).
− l’instabilité de l’information : le Web repose sur une architecture informatique qui peut connaître diverses pannes ou dysfonctionnements. De ce fait, l’information n’est pas accessible de façon permanente et il se peut qu’à tout moment celle-ci ne soit plus accessible.
− le manque de qualité de l’information : le Web est un média ouvert, dans le sens où il n’y a pas d’organisme contrôlant les contenus disponibles. De ce fait, les informations disponibles sont souvent sujettes à des problèmes de véracité, de fautes de langages ou erreurs typographiques. De plus, tout un chacun peut créer sa page Web et y insérer les informations qu’il souhaite.
− la redondance d’information : une expérimentation (Shivakumar & Garcia-Molina, 1998) réalisée à partir d’une collection de 24 millions de pages Web montre que plus de 30% de l’information est redondante. Cette proportion peut être encore plus importante si l’on considère une redondance sémantique ou partielle des informations.
− l’hétérogénéité de l’information : sur le Web cohabitent des informations dans des médias différents (image, son…), des formats différents (jpeg, mp3…) et des langues différentes (français, chinois…).
− le volume d’information disponible. Ce dernier point qu’est le volume d’information implique que la couverture du Web par les outils de recherche reste assez faible. La plupart de ces problèmes sont difficilement gérables de façon automatique (stabilité, hétérogénéité de l’information). Certains d’entre eux sont relatifs à la nature humaine (contenu inexact ou mal formé des documents par exemple). Du point de vue de l’internaute, le problème principal du Web vient de son architecture. En effet, il n’existe aucune organisation spécifique des informations, aucun index général référençant les informations existantes. Les informations peuvent être situées n’importe où, voire dupliquées, d’où le problème de la localisation de l’information. Ce problème est d’autant plus important que le nombre de documents disponibles est grand. Cependant, ce problème n’est pas récent, il était déjà d’actualité dès les débuts d’Internet avec les premiers outils de recherche tels que ‘Gopher’, mais il ne fait que s’accentuer avec le temps.
|
Table des matières
INTRODUCTION
1CHAPITRE 1 RECHERCHE D’INFORMATION : DE LA REQUETE AUX DOCUMENTS
1.1 INTRODUCTION
1.2 INTERNET ET LE WEB
1.2.1 HISTORIQUE D’INTERNET
1.2.2 CARACTERISTIQUES DU WEB
1.2.3 LIMITES DES INFORMATIONS DU WEB
1.3 FONDEMENTS DE LA RECHERCHE D’INFORMATION
1.3.1 LA RECHERCHE DOCUMENTAIRE
1.3.2 LES SYSTEMES DE RECHERCHE D’INFORMATION
1.3.3 LA TACHE DE NAVIGATION
1.3.4 LA TACHE DE RECHERCHE
1.3.5 L’INDEXATION
1.3.5.1 L’ESPACE D’INDEXATION
1.3.5.2 LES ENTITES D’INDEXATION
1.3.5.3 LES LANGAGES D’INDEXATION
1.3.5.3.1 Le Langage Libre
1.3.5.3.2 Le Langage Contrôlé
1.3.5.4 LES TYPES D’INDEXATION
1.3.5.4.1 Indexation Manuelle
1.3.5.4.2 Indexation Automatique
1.3.5.4.3 Indexation Semi-Automatique
1.3.5.5 CAS DE L’INDEXATION AUTOMATIQUE
1.3.5.5.1 Extraction des Termes d’Indexation
1.3.5.5.2 Réduction du Langage d’Indexation
1.3.5.5.3 Pondération des Termes d’Indexation
1.4 MODELES DE RECHERCHE D’INFORMATION ET DE REPRESENTATION
1.4.1 LE MODELE BOOLEEN
1.4.2 LE MODELE VECTORIEL
1.4.3 LE MODELE PROBABILISTE
1.4.4 LE MODELE LOGIQUE
1.5 ENVIRONNEMENTS DE RECHERCHE
1.6 EVALUATION DE LA RECHERCHE D’INFORMATION
1.7 LA RECHERCHE D’INFORMATION SUR LE WEB
1.7.1 CARACTERISTIQUES DE LA RECHERCHE D’INFORMATION SUR LE WEB
1.7.2 LES PROBLEMES DE LA RECHERCHE D’INFORMATION SUR LE WEB
1.7.3 PROBLEMES LIES AU PROCESSUS DE RECHERCHE SUR LE WEB
1.7.4 APPROCHES EXISTANTES POUR L’AIDE A LA RECHERCHE D’INFORMATION SUR LE WEB
1.7.4.1 LES FACTEURS HUMAINS
1.7.4.2 LE PROCESSUS DE RECHERCHE
1.7.4.2.1 La Tâche de Navigation
1.7.4.2.2 La Tâche de Recherche
1.7.4.2.3 Les Méta-Moteurs de Recherche d’Information
1.7.4.3 LA VISUALISATION DES RESULTATS
1.7.4.4 LES AGENTS
1.7.4.4.1 Les Agents de Recherche
1.7.4.4.2 Les Agents de Recommandation
1.7.4.4.3 Approches Multi-Agents
1.9 CONCLUSION
CHAPITRE 2 RECHERCHE DE DOCUMENTS EN SANTE : CAS DU CATALOGUE CISMEF
2.1 INTRODUCTION
2.2 STRUCTURE DES DOCUMENTS
2.2.1 LES METADONNEES
2.2.2 LE THESAURUS MESH
2.2.3 LA TERMINOLOGIE CISMEF
2.2.3.1 LES TYPES DE RESSOURCES
2.2.3.2 LES METATERMES
2.2.4 LE MODELE CISMEF POUR LA RECHERCHE D’INFORMATION
2.3 LA METHODOLOGIE DE MISE A JOUR
2.3.1 LE RECENSEMENT
2.3.2 LA SELECTION
2.3.3 LA DESCRIPTION
2.4 RECHERCHE D’INFORMATION DANS LE CISMEF
2.4.1 ACCES STATIQUE
2.4.1.1 LES DEFINITIONS
2.4.1.2 LES ‘VOIR AUSSI’
2.4.1.3 LES ARBORESCENCES
2.4.2 ACCES DYNAMIQUE
2.4.2.1 LA NAVIGATION DYNAMIQUE
2.4.2.2 LA RECHERCHE SIMPLE
2.4.2.3 LA RECHERCHE AVANCEE
2.4.2.4 LA RECHERCHE BOOLEENNE
2.4.2.5 LA RECHERCHE PAS-A-PAS
2.4.2.6 OPTIONS DE RECHERCHE
2.4.2.6.1 Options par Défaut
2.4.2.6.2 Option Arborescence
2.4.2.6.3 Option Explosion
2.4.2.6.4 Option Majeur/Mineur
2.4.3 LES AFFILIATIONS
2.4.3.1 AFFILIATION DE QUALIFICATIFS
2.4.3.2 AFFILIATION DE TYPES DE RESSOURCES
2.4.4 LES REQUETES PREFORMATEES
2.4.4.1 LES STRATEGIES DE RECHERCHE
2.4.4.2 CISMEF-PATIENTS
2.4.4.3 LE PROJET COGNI-CISMEF
2.4.5 CATEGORISATION DES DOCUMENTS
2.5 QUELQUES PROBLEMES RENCONTRES
2.5.1.1 AJOUT D’AUTRES TYPES DE SYNONYMES
2.5.1.2 UTILISATION DE CONNAISSANCES
CHAPITRE 3 TRAITEMENTS LINGUISTIQUES : DE LA CHAINE DE CARACTERES A LA REQUETE
3.1 INTRODUCTION
3.2 PROBLEMES LIES AU TRAITEMENT DE LA LANGUE
3.3 LE TRAITEMENT MORPHOLOGIQUE
3.3.1 LE MODELE MORPHOLOGIQUE
3.3.2 APPLICATION DE LA MORPHOLOGIE A LA RECHERCHE D’INFORMATION
3.4 ACQUISITION DE RESSOURCES LINGUISTIQUES
3.4.1 LOGICIELS D’ACQUISITION DE TERMINOLOGIE
3.4.2 ACQUISITION DE CONNAISSANCES MORPHOLOGIQUES
3.4.3 DOMAINE MEDICAL
3.4.3.1 METHODE D’ACQUISITION DE RESSOURCES MORPHOLOGIQUES
3.4.3.2 LE PROJET UMLF
3.5 ACQUISITION DE CONNAISSANCES MORPHOLOGIQUES POUR LE MESH FRANÇAIS
3.5.1 DESCRIPTION DE ‘LEXIQUE’
3.5.2 CONSTITUTION ET EVALUATION DES FAMILLES EXTRAITES
3.6 TRAITEMENTS LINGUISTIQUES POUR LA RECHERCHE D’INFORMATION
3.6.1 UTILISATION DE CONNAISSANCES MORPHOLOGIQUES
3.6.1.1 TRAVAUX INITIATEURS
3.6.1.2 ETUDE DU VOCABULAIRE DES UTILISATEURS
3.6.1.3 EXPERIENCES AVEC DES RESSOURCES ADAPTEES AU VOCABULAIRE
3.6.2 RESULTATS
3.6.2.1 DESCRIPTION DES REQUETES
3.6.2.2 RESULTATS AVEC LES UNITERMES
3.6.2.3 RESULTATS AVEC LES TERMES COMPOSES
3.6.3 EXPERIENCES DE PHONEMISATION
3.6.3.1 TRAVAUX ANTERIEURS : SOUNDEX / SOUNDEX 2 / PHONEX
3.6.3.2 PHONEMISATION DE TERMES MEDICAUX
3.6.3.3 APPLICATION A LA RECONNAISSANCE DE TERMES
3.6.4 CORRECTION ORTHOGRAPHIQUE
3.6.4.1 ALGORITHME
3.6.4.2 EVALUATION DES RESULTATS
3.7 TRAITEMENTS EN LIGNE
3.7.1 APPARIEMENT A BASE DE CONNAISSANCES MORPHOLOGIQUES
3.7.2 AUTRES TRAITEMENTS
CONCLUSION