Introduction générale
La diversité des sources d’information distribuées et leur hétérogénéité est l’une des principales difficultés rencontrées par les utilisateurs du Web aujourd’hui. Cette hétérogénéité peut provenir du format ou de la structure des sources (sources structurées : bases de données relationnelles, sources semi-structurées : documents XML,ou non structurées : textes) [1]. D’ailleurs, le futur web, dénommé web sémantique,compte parmi ses principaux objectifs la résolution de cette problématique : fournir des mécanismes d’accès à des sources de données distribuées et hétérogènes de manière normalisée et intelligible pour les machines et les humains .Le web sémantique décrit une infrastructure permettant à des agents logiciels de faciliter l’acc`es des difiérents utilisateurs aux ressources du web (sources d’information et services). C’est dans cette infrastructure que l’intégration des informations d’une variété de sources peut être réalisée et facilitée. Cette infrastructure requiert la construction de systèmes devant ofirir à l’utilisateur une vue uniforme et centralisée des données distribuées, une vue pouvant correspondre à une vision plus abstraite, condensée des données et donc, plus signiflcative pour l’utilisateur. De tels syst`emes sont connus sous le nom de systèmes de médiation. Ces systèmes sont, par ailleurs, très utiles, en présence de données hétérogènes, car ils donnent l’impression d’utiliser un système homogène.Une des techniques récemment utilisée pour intégrer des données dans les systèmes de médiation, est l’utilisation des services web [3]. En efiet, les services web sont particulièrement adaptés et abondamment exploités pour fournir un accès uniforme aux informations pouvant être distribuées. Les services Web permettent de disposer d’un système basé sur un ensemble de services logiciels distribués, fonctionnant indépendamment les uns des autres afln de réaliser une fonctionnalité globale. Ceci facilitera la découverte des sources d’informations pertinentes étant donnée une requête posée,et simplifle l’accès aux sources pertinentes, évitant ainsi à l’utilisateur d’interroger lui même chacune d’elles et combiner automatiquement les réponses partielles obtenues de plusieurs sources de façon à obtenir une réponse globale à ses besoins.
Web sémantique
Selon Tim Berners-Lee [5] : le web sémantique n’est pas un web distinct mais bien un prolongement du web que l’on connait, dans lequel, on attribue à l’information une signiflcation clairement déflnie, ce qui permet aux ordinateurs et aux humains de travailler en plus étroite collaboration.Et dans une autre déflnition : c’est un immense espace d’échanges de ressources entre machines permettant à des utilisateurs d’accéder à de grands volumes d’informations et à des services variés [5].La structure du web actuel est essentiellement syntaxique, son contenu est lisible par des humains et par des machines, mais il n’est compréhensible que pour les humains.L’idée est de changer la structure du web actuel, que l’on appelle web « présentable » ou « syntaxique », vers une autre structure, que l’on appelle web « intelligent » ou « compréhensible » par les machines, (voir la Figure 1.1). C’est de l`a qu’est née l’initiative du web sémantique : un web qui parle aux machines [4]. Pour ce faire, il est nécessaire de standardiser des langages et des outils adaptables à un maximum d’applications tout en conservant des propriétés permettant leur emploi dans les conditions d’échelle et de performance requises pour le web [6].
Services web
L’intéret des services web est de favoriser une architecture orientée services, intégrant des systèmes hétérogènes complexes, fortement distribués et permettant la coopération et de nouvelles formes de collaboration entre les applications distantes. Un de ses intérêts est donc de faciliter l’interconnexion entre ces difiérentes applications, indépendamment des plateformes et des langages de programmation utilisés. Les services web semblent être la solution de l’avenir pour implémenter les systèmes distribués,aujourd’hui, ces services sont distribués à large échelle sur Internet [4].En général, un service web se concrétise par un agent, réalisé selon une technologie informatique donnée. Un demandeur (utilisateur) utilise ce service à l’aide d’un agent de requête, il rentre alors des Inputs et attend des Outputs (saisir des entrées précises et avoir des sorties correspondantes). Le fournisseur et le demandeur partagent une meme sémantique du service web, tandis que l’agent et l’agent de requête partagent une même description du service pour coordonner les messages qu’ils échangent.
Approche de la construction d’index
Les services web d’indexation présentés précédemment doivent exploiter et rechercher dans des index physiques qui ont été créés suite à une indexation. Dans ce que suit nous présentons l’approche de l’indexation suivie dans ce travail, c’est à dire les étapes de la construction des index.L’indexation est une forme de reformulation. Indexer, c’est reformuler le contenu d’un document dans une forme plus adaptée à son contexte d’exploitation dans une application donnée, on indexe donc, en vue d’une application. On ne parle plus seulement d’indexation mais également d’enrichissement, d’annotation, de marquage et de métadonnées.Nous avons au départ un ensemble de ressources (fichiers) hétérogènes. Selon le type de la ressource, deux traitements sont possibles :
1. Indexation automatique : liée aux documents textuels, ex : flchiers textes.
2. Indexation manuelle : »ca concerne les annotations faites par des humains (e.g. médecins, etc.) sur les ressources non textuelles, e.g. une vidéo, une image.
Recherche dans l’index
Quatre index seront utilisés par les services web d’indexation :
Pour l’indexation automatique, le service web S1 utilisera (Index Sem) et le service web S2 utilisera (Index Sem Inv). Pour l’indexation manuelle, le service web S1 utilisera (Index Sem Man) et le service web S2 utilisera (Index Sem Man inv).Pour les deux services web, la recherche est efiectuée dans les index manuels et dans les index automatiques. La recherche se fait en évaluant la requ^ete avec le respect d’un seuil et la prise en considération des pondérations dans le cas de l’indexation automatique.
1. Index Sem (Service S1) : permet de faire entrer un code d’un document (un fichier), et la liste des concepts que contient ce document sera retournée et ordonnée par la pondération pour l’indexation automatique après avoir filtrer les concepts ayant une pondération inférieure à un certain seuil. Les fichiers indexés manuellement sont retournés automatiquement (Index Sem Man).
2. Index Sem inv (Service S2) : permet de faire entrer un concept, et la liste de documents qui concerne le concept sera retournée, ils seront ordonnés par ordre décroissant du tf (fréquence d’apparition du concept dans le document).On considère pour l’index manuel inversé (Index Sem Man inv) qu’un document est automatiquement retourné et qu’il est pertinent pour le concept, car il a été annoté manuellement par un expert.
Conclusion générale et perspectives
Dans ce mémoire, nous avons présenté une approche d’indexation sémantique des sources de données hétérogènes et distribuées qui se base sur des services web. Ces services web exploitent les index générés de l’indexation.Le but des services web d’indexation proposés est non seulement d’exploiter les index, et alors de rendre possible la recherche dans des sources de données (semi ou non structurées), mais aussi d’être intégrés et réutilisés dans un cadre global d’intégration, et par d’autres services web d’interrogation qui concernent les sources de données structurés.Le but de cette intégration est de gérer l’hétérogénéité, de considérer toutes les sources d’information, et les rendre en réponse aux utilisateurs. Cela est possible grace à une réécriture des requêtes qui se fera selon des vues spéciflques aux difiérents services web déflnis en RDF dans le syst`eme d’intégration global. Notre approche n’est donc qu’une premi`ere phase dans le cadre général d’un travail de recherche concernant la composition des services web pour l’interrogation des sources de données hétérogènes et distribuées.L’approche d’indexation proposée dans ce travail, peut être considérée comme une indexation des sources semi ou non structurées dans un cadre applicatif qui est le domaine médical, l’approche s’appuie sur deux types d’indexation : { Une indexation manuelle pour les sources non textuelles tel que les vidéos, les images,… etc. Ce type d’indexation s’efiectue manuellement par des experts. { Une indexation automatique pour les documents textuels. Elle se fait automatiquement en deux phases, une phase d’indexation syntaxique et une autre phase d’indexation sémantique.Nous avons pu proposer deux services web d’indexation qui exploitent les index issus de notre approche d’indexation, et représentent des vues intégrables dans le système global. { Le premier service web S1i : permet d’avoir tous les concepts qui indexent un flchier. { Le deuxi`eme service web S2i : permet d’avoir les flchiers portant sur un concept. Les concepts sont identiflés en se basant sur un exemple d’ontologie de médiation du domaine médical.
|
Table des matières
Remerciements
Résumé
Table des figures
Liste des tableaux
Glossaire
Introduction générale
I Notions de base et etat de l’art
1 Quelques aspects sur le web sémantique
1.1 Introduction
1.2 Web sémantique
1.3 Services web
1.4 Systèmes de médiation
1.5 Ontologies
1.6 RDF/RDFS/SPARQL
1.7 Conclusion
2 Etat de l’art sur l’indexation sémantique
2.1 Introduction
2.2 Techniques d’indexation
2.3 Indexation sémantique et ontologies
2.4 Quelques travaux connexes à l’indexation sémantique
2.5 Conclusion
II Approche d’indexation sémantique à base de services web
3 Conception des services web d’indexation
3.1 Introduction
3.2 Contexte général : Médiation à base de services Web
3.2.1 Description de l’architecture globale
3.2.2 Approche proposée
3.3 Ontologie de médiation
3.4 Services web d’interrogation
3.5 Services web d’indexation
3.6 Exemple d’intégration des services web
4 Construction des index
4.1 Approche de la construction d’index
4.1.1 Indexation automatique
4.1.2 Indexation manuelle
4.2 Recherche dans l’index
4.3 Conclusion
III Prototype
5 Conception d’un prototype
5.1 Introduction
5.2 Environnement de développement
5.3 Pourquoi java ?
5.4 Description du fonctionnement de notre prototype
5.4.1 Accès à l’application
5.4.2 Utilisation du prototype
5.5 Conclusion
Conclusion générale et perspectives
Bibliographie
Télécharger le rapport complet