Le Web sémantique appliqué à la recherche d’information
Introduction au Web sémantique
Tim Berners-Lee [Berners-Lee et al. 2001] (fondateur et président du Consortium World Wide Web „W3C‟) a attribué l‟expression du Web sémantique en faisant référence à la vision du Web de demain comme un vaste espace d‟échange de ressources entre humains et machines permettant une meilleure exploitation de masses de données disponibles sur le Web. L’objectif n’est pas de permettre aux machines de se comporter comme des êtres humains, mais simplement de développer des langages pour exprimer des informations d’une manière traitable par des machines. En effet, le traitement automatisé des données requiert une représentation de la sémantique compréhensible et échangeable par les machines.
Le Web sémantique peut être défini comme un substrat supportant des fonctions avancées pour la collaboration (homme-homme, homme-machine, machine-machine), qui permet de partager des ressources et de raisonner sur le contenu de ces dernières [Berners-Lee et al. 2001]. L‟idée est de rendre explicite la sémantique des documents au travers de métadonnées ou d‟annotations, afin de permettre aux agents logiciels d‟effectuer des tâches de recherche et de sélection des ressources pour les utilisateurs. Les recherches actuellement réalisées dans le domaine du Web sémantique s‟appuient sur un existant riche venant de différents domaines. Par exemple, les systèmes de recherche en Intelligence Artificielle, les systèmes de représentation et/ou l‟ingénierie des connaissances ont permis d‟étudier les problèmes liés à l‟accès aux collections d‟informations structurées, aux règles d‟inférences et aux raisonnements automatiques bien avant le développement du Web. Cependant, l‟application des résultats de ces recherches pose d‟autres problèmes dus au changement du contexte de déploiement, le Web et ses dérives (Internet, Extranet, Intranet), la nécessité d‟un niveau élevé d‟interopérabilité, la diversité des usages, les standardisations, etc. Le défi du Web sémantique est de fournir un langage [Legrand, 2001] :
– Qui exprime à la fois les données et les règles de raisonnement sur ces données;
– Qui permette aux règles de n‟importe quel système de représentation des connaissances d‟être transférées sur le Web.
L‟architecture du Web sémantique proposée par W3C (World Wide Web Consortium) s‟appuie sur une pyramide de langages dont seulement les couches basses sont aujourd‟hui relativement stabilisées.
Au niveau le plus bas se trouvent les données brutes codées par le standard Unicode, ces données possèdent une adresse URI (Uniforme Ressource Identifier) qui permet d‟attribuer un identifiant unique à un ensemble de ressources. Ces données peuvent être structurées grâce à un langage de balises tels que XML (eXtensible Markup language), NS (NameSpace) ou xmlshema. La syntaxe XML peut être considérée comme un premier niveau de sémantique, elle permet aux utilisateurs de structurer les données en fonction de leur contenu sans rien dire de la signification des structures. Pour attribuer une signification à cette structure et relier d‟une façon pertinente les différents éléments, Tim Berners-Lee propose le standard RDF comme standard de représentation, développé par le W3C. Les Topic Maps ont été définies par l‟ISO (International Standards Organisation) pour accomplir la même tâche. Ces langages ont pour but de donner une organisation plus structurée des informations présentes sur le Web à travers une description sémantique des données fournies par XML. La signification sémantique des données XML représentées par RDF ou Topic Maps, est largement insuffisante pour assurer une bonne distinction des différents concepts. Ce problème peut être résolu grâce à l‟utilisation des ontologies.
Dans ce qui suit, nous présentons les techniques de structuration sémantique des données et les ressources utilisées pour l‟annotation de ces données dans le cadre du Web sémantique, nous présentons tout d‟abord les thésaurus, nous évoquons ensuite la notion de métadonnées et après, nous présentons trois standards de représentation de connaissances RDF/RDFS, Topic Maps et OWL. RDF, RDFS et OWL sont développés par le W3C, les Topic Maps par l‟ISO.
Modèles de représentation de connaissances dans le cadre du Web sémantique
Le processus d‟annotation sémantique consiste à ajouter (semi-)automatiquement des métadonnées structurées aux ressources documentaires du Web. Les annotations décrivent aussi bien le document dans son ensemble, comme son titre, son auteur, etc., que son contenu par des descripteurs provenant de ressources terminologiques et ontologiques [Bourigault et al. 2004] (comme les taxonomies, thésaurus, ontologies) pour normaliser la sémantique des annotations documentaires comme celle des concepts du domaine concerné. Nous allons présenter les deux principales ressources permettant de représenter et de modéliser la connaissance d‟un domaine : les thésaurus et les ontologies ensuite nous présentons les principaux langages et modèles utilisés pour l‟annotation sémantique des ressources dans le cadre du Web sémantique.
Les Thésaurus
Un thésaurus est fondé sur une structuration hiérarchisée d’un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d’une ou plusieurs langues naturelles et les relations entre notions par des signes conventionnels (AFNOR 1987). Les normes (ISO 2788 et ANSI Z39) ont permis d‟uniformiser leur contenu en termes de relations entre unités lexicales: équivalence, relations hiérarchiques et relations non taxonomiques (liens associatifs).
Un thésaurus est donc considéré comme un vocabulaire contrôlé et structuré dans lequel les relations entre les termes du domaine considéré sont clairement spécifiées formant ainsi un réseau terminologique. La structuration hiérarchisée correspond à la relation d‟hyperonymie permettant de structurer les termes du vocabulaire. On dit alors qu‟un terme X est plus générique que (EPG) ou est plus spécifique que (EPS) qu‟un terme Y, par exemple « Véhicule » a un sens plus général que « Automobile ».
D‟autres relations constituent le réseau terminologique comme les relations de synonymie et les relations associatives .
Synonymie : un terme X est utilisé pour désigner (UPD) ou utilisé plutôt (UP) qu‟un terme Y, par exemple « Voiture » et « Automobile ».
Associative : un terme X est lié à un terme Y s‟il y a une sorte de relation non sémantiquement spécifiée entre les deux, par exemple le terme « Conduite » est souvent associé au terme «Véhicule ».
Nous voulons ici souligner le fait que les thésaurus ne sont pas des ontologies : ils permettent de modéliser le vocabulaire d‟un domaine ou d‟une application mais ne fournissent pas de représentation de la connaissance de ce domaine ou de cette application. Par contre, ils peuvent être comme ressources pour l‟aide à la création des ontologies [Charlet et al. 2004] ou de Topic Maps comme nous le verrons plus tard dans notre approche. D‟un point de vue de la représentation des connaissances, les thésaurus ont un faible degré de formalisation. Ce sont des collections de termes qui sont organisées suivant une ou plusieurs hiérarchies avec des relations entre termes. Les thésaurus n‟ont pas de niveau d‟abstraction conceptuelle [Soergel et al. 2004]. La distinction entre un concept et sa lexicalisation n‟est pas clairement établie. Les relations de synonymies sont établies entre les termes mais les concepts ne sont pas identifiés. Ceci s‟explique par l‟utilisation initiale des thésaurus, qui n‟ont pas pour objectif de refléter comment le monde peut être compris en termes de sens mais en termes de terminologie et de catégories servant à l‟indexation manuelle de documents d‟un domaine.
De plus, la couverture sémantique des thésaurus est limitée. En effet, les relations entre termes sont vagues et ambiguës. Les liens sémantiques qu‟ils contiennent reflètent parfois l‟utilisation prévue du thésaurus plutôt que les liens sémantiques réels entre termes. Ces relations peuvent ainsi englober les relations « est une instance de » ou « est une partie de ». La relation associative « est lié à » est souvent difficile à exploiter car elle connecte des termes en considérant différents types de relations sémantiques.
|
Table des matières
CHAPITRE 1 INTRODUCTION
1.1 Contexte de travail
1.2 Problématique
1.3 Contributions
1.4 Organisation du mémoire
CHAPITRE 2 ETAT DE L’ART
2.1 Le Web sémantique appliqué à la recherche d’information
2.1.1 Introduction au Web sémantique
2.1.2 Modèles de représentation de connaissances dans le cadre du Web sémantique
2.2 Recherche d’information multilingue
2.2.1 Problèmes liés à la recherche d’information multilingue
2.2.2 Utilisation de traducteur automatique
2.2.3 Utilisation de dictionnaire bilingue
2.2.4 Utilisation de corpus alignés (parallèles ou comparables)
2.2.5 Quelques travaux sur la recherche d’information multilingue
2.3 Etat de l’art sur les approches de construction de Topic Maps
2.3.1 Introduction
2.3.2 Extraction de concepts et de relations à partir de documents textuels
2.3.3 Méthodes de construction d’ontologies
2.3.4 Intégration de schémas conceptuels et d’ontologies
2.3.5 Approches de construction de Topic Maps
2.3.6 Outils d’édition et de visualisation de Topic Maps
2.3.7 Interrogation de Topic Maps
2.3.8 Comparaison des approches de construction de Topic Map
2.4 Synthèse
CHAPITRE 3 APPROCHE GÉNÉRALE ET MÉTA-MODÈLES
3.1 Problématique et objectifs
3.2 Notre approche générale
3.3 Méta-modèles proposés
3.3.1 État de l’art sur les méta-modèles de Topic Map existants
3.3.2 Notre méta-modèle de Topic Maps
3.3.3 Notre méta-modèle du référentiel de documents
3.3.4 Combinaison des méta-modèles du référentiel et de Topic Map pour la recherche d’information
3.4 Types de recherche offerts par notre approche
3.4.1 Recherche par navigation
3.4.2 Recherche basée sur des scénarios de questions préparés à partir de FAQ
3.4.3 Recherche par requête en utilisant un langage de requêtes
3.5 Conclusion
CHAPITRE 4 DESCRIPTION DÉTAILLÉE DE L’APPROCHE PROPOSÉE
4.1 Construction du référentiel de documents
4.1.1 Prétraitement des documents
4.1.2 Segmentation thématique des documents textuels
4.1.3 Indexation sémantique des documents sources
4.1.4 Génération du référentiel de documents
4.2 Construction incrémentale de la Topic Map
4.2.1 Extraction de Topics et d’associations à partir d’un document
4.2.2 Enrichissement de la Topic Map par des liens ontologiques à partir du thésaurus
4.2.3 Enrichissement de la Topic Map par les synsets et les liens de WordNet et de WOLF
4.2.4 Enrichissement de la Topic Map avec les liens d’usage
4.2.5 Enrichissement de la Topic Map globale par la Topic Map associée au document di
4.2.6 Annotation de la Topic Map globale par les documents et leurs segments thématiques
4.3 Gestion du multilinguisme dans la construction de la Topic Map
4.5.1 Le modèle des Topic Maps pour la gestion du multilinguisme
4.5.2 Les liens de synonymie et les liens hiérarchiques pour la gestion du multilinguisme
4.4 Conclusion
CHAPITRE 5 PRISE EN COMPTE DE LA QUALITÉ : MÉTHODE D’ÉLAGAGE DE LA TOPIC MAP
5.1 Introduction
5.2 La qualité dans les systèmes d’information
5.2.1 Travaux sur la qualité des ontologies
5.2.2 Travaux sur la qualité des schémas conceptuels
5.3 Travaux sur la qualité dans les systèmes de recherche d’information
5.3.1 Critères de qualité
5.3.2 Campagnes d’évaluation
5.3.3 Les mesures du Rappel, de la Précision et de F-mesure
5.4 Travaux sur la qualité d’une Topic Map
5.4.1 Les approches qui s’intéressent à la qualité de la visualisation de la Topic Map
5.4.2 Les approches qui s’intéressent à la qualité de la recherche à base de Topic Map
5.5 Problématiques particulières à la qualité des Topic Maps
5.6 Notre approche de gestion du volume de la Topic Map
5.6.1 Notation de Topics
5.6.2 Analyse des notes
5.6.3 Utilisation des méta-propriétés pour améliorer l’affichage de la Topic Map
5.7 Conclusion
CHAPITRE 6 CONCLUSION