Intégration des données par fusion des Ontologies 

Intégration des données par fusion des Ontologies 

Intégration des données par fusion des Ontologies

Le caractère décentralisé, réparti, autonome et hétérogène des données du web ainsique la multitude de sources d’informations et leurs diversités a rendu indispensable leur intégration au sein des entreprises intéressées par ces mêmes données. Le rôle des systèmes d’intégration de données est de répondre aux besoins des utilisateurs à travers des interfaces d’accès uniformes aux sources contenant ces données (Zerdazi & Lamolle, 2005). Le défi de l’intégration de données est de faire cohabiter les sources hétérogènes, de plus en plus nombreuses, souvent réparties et indépendantes, dans un seul système uniforme, appelé système d’intégration, sans contraindre le comportement ni l’autonomie de chacune d’elles.
Dans notre cas d’étude, les services SEMEP sont spécialisés entre autre de la vaccination des individus et le suivi du programme élargi de la vaccination (PEV). A cet effet, ces services collectent des données des différentes PMI, des services médicaux et de l’état civil. L’interprétation de ces données permet aux responsables des SEMEP de mieux cerner les désordres qui se produisent lors de la couverture vaccinale et garantir ainsi un bon PEV. Ces différents services donnent lieu à plusieurs résultats consignés dans des comptes rendus ou des carnets de vaccination ou même des bases de données que les dirigeants sont contraints de consulter pour effectuer une bonne prise de décision.
Les données issues des différents services que nous avons évoqués ci-dessus sont de natures diverses et sont stockées sur des supports différents : bases de données, des pages web ou même des fichiers textes. Il appartient ensuite aux dirigeants de combiner manuellement les données fournies par les différentes sources s’ils veulent avoir une vue globale de l’information souhaitée. Ce travail peut rapidement devenir complexe, même si ces dirigeants disposent d’une expertise qui leur permet d’établir des liens entre les données. Dans cet optique, proposer des mécanismes pour un accès unifié à des données dispersées dans plusieurs sources est l’objectif principal de l’intégration des données et notre travail de thèse se situe dans ce cadre.
L’illustration, que nous avons présentée est issue d’un domaine de prévention médicale mais le problème de l’intégration des données est cependant beaucoup plus général et est fréquemment rencontré dans le domaine des entreprises commerciales, où le besoin d’intégration de données issues de différents systèmes d’information devient de plus en plus crucial. La croissance exponentielle des informations et des ressources échangées entre les différents systèmes, qu’ils soient publics ou privés (Internet, bases de données, etc), augmente le taux d’hétérogénéité des informations et rend leur compréhension et leur analyse très difficiles. Un problème crucial découlant de cette hétérogénéité concerne la préservation du sens de l’information échangée. C’est ce que l’on appelle l’interopérabilité sémantique. Une définition est communément admise pour l’interopérabilité sémantique : « elle donne un sens aux informations échangées et s’assure que ce sens soit commun dans tous les systèmes entre lesquels des échanges doivent être mis en œuvre » (Mellal, 2007). La prise en compte de cette sémantique permet aux systèmes distribués de combiner les informations reçues avec des informations locales et de traiter l’ensemble de manière cohérente.
Pour assurer l’interopérabilité sémantique, l’information échangée entre systèmes doit d’abord être décrite dans une structure formelle permettant de préserver sa sémantique. Ce grand défi est omniprésent dans le domaine de l’ingénierie des connaissances, où des méthodologies et des techniques sont proposées pour percevoir, identifier, analyser, organiser et partager des connaissances entre différentes organisations. Parmi ces techniques, les ontologies connaissent un essor très important depuis une dizaine d’années et apparaissent comme le moyen efficace pour la représentation des connaissances.
L’interopérabilité sémantique requiert l’utilisation de techniques et de méthodologies qui établissent sémantiquement des liens de dépendances entre les services fournis par les entités communicantes du système distribué. Dans la littérature, la recherche de ces liens s’appelle l’alignement des ontologies. Il vise à trouver les correspondances entre les concepts appartenant à différentes ontologies au sein d’une même application. Nous montrerons par la suite que cet aspect est au cœur de notre travail.
En ce qui concerne l’intelligence artificielle, et plus particulièrement la représentation des connaissances et le raisonnement, l’interopérabilité apparaît comme une étape cruciale vers une unification de la sémantique des connaissances distribuées. Les ontologies sont précisément un des moyens contribuant à faciliter la compréhension des informations échangées entre les systèmes interopérables en essayant de standardiser la représentation des concepts et de leurs relations.Intégration des données par fusion des Ontologies.
Vu le contexte dans lequel nous avons défini notre problématique, notre travail s’apparente, d’une part, à des travaux sur l’intégration des données du Web. Plus précisément l’intégration des sources de données autonomes et hétérogènes, et d’autre part, à des travaux sur l’intégration des données guidée par une ontologie qui étudient, quant à eux, comment trouver des correspondances entre les ontologies des sources de données à intégrer et comment les utiliser. C’est dans cette connectivité que nous avons dressé le contenu de ce chapitre, d’abord, sur l’intégration des données du Web (Parent & Spaccapietra, 2011) et ensuite sur l’intégration des données via des ontologies. Dans le cadre de nos travaux, nous considérons l’intégration comme étant un concept générique incluant le concept d’interopérabilité que nous développerons dans ce chapitre. L’ontologie dans le contexte de l’interopérabilité des entreprises est un pont entre différents systèmes qui sert à définir le format d’échange entre ces systèmes (Mellal, 2007).

Intégration des données du Web

L’intégration des données est un processus qui consiste à rapatrier des données à partir de différentes sources hétérogènes pour, soit les traiter localement (Approche médiateur) (Lamarre, et al., 2004) soit les stocker dans une base commune (Approche Entrepôt de Données) (Kimball, 1998). Dans l’approche médiateur, le système d’intégration génère, à partir d’une requête de l’utilisateur, autant de sous-requêtes qu’il y a de sources de données à interroger, ensuite, il construit la réponse finale à partir du résultat de chaque sous-requête et la transmet à l’utilisateur. Cette approche est bien adaptée lorsque l’information change rapidement, lorsque les requêtes des utilisateurs ne sont pas prévisibles et lorsque le nombre de sources de données et le nombre de données sont très élevés. L’approche Entrepôt de données consiste à construire une base de données réelle et centralisée, selon un schéma particulier. Cette approche est caractérisée par sa performance en termes de temps de réponse des requêtes. L’intégration des données s’effectue également en deux étapes : le système d’intégration fusionne et stocke les différentes sources de données dans un seul entrepôt de données, puis la requête de l’utilisateur est alors posée à cet entrepôt sans accès aux sources de données d’origine.
Dans l’une ou dans l’autre des approches, la complexité du problème reste la même dû au fait que les informations sous-jacentes se trouvent dans des sites différents (Boussaid, et al., 2006). Selon (Nguyen, 2006), les approches d’intégration peuvent être classifiées suivant trois critères : selon la manière de stocker les données à intégrer ou selon la manière de relier les schémas des sources locales avec le schéma global ou encore sur le degré d’automaticité d’intégration.
Il peut exister plusieurs approches permettant d’appréhender le problème d’intégration. Principalement, nous pouvons distinguer trois types fondamentaux. Il s’agit respectivement en fonction de leur degré de complexité, de l’intégration de données, de processus, et des applications (Tebib, 2014).Intégration des données par fusion des Ontologies  .

Intégration de données

C’est la forme la plus simple de l’intégration. Elle apparaît au niveau des bases de données. D’une part, elle est assurée par duplication des copies d’une partie ou de toute la base de données dans une ou plusieurs applications. D’autre part, l’intégration s’effectue par le transfert des données, en utilisant des outils pour permettre aux données d’émigrer d’une application à une autre. Ce transfert de données est généralement réalisé par ETL (Extract, Transform and Load). ETL est un moteur qui extrait, transforme, épure puis charge les données à partir de différentes applications vers des entrepôts de données. Il est aujourd’hui la solution la plus préconisée dans l’intégration des données.

Intégration des applications

L’intégration d’applications (AI : Application Integration) porte sur l’interconnexion d’applications hétérogènes, le plus souvent développées de façon indépendante voire de façon incompatible. L’AI permet principalement de faire communiquer tout type d’applications (CRM – Customer Relationship Management, ERP -Entreprise Ressource Planning, SCM – Supply Chain Management, etc.), ce qui peut constituer des enjeux énormes notamment pour les grosses entreprises qui disposent d’une masse importante d’applicatifs. Sur le terrain, l’AI s’affiche par une multitude de produits commerciaux portant des logos assez variés tels que EAI ou l’ESB (Business Work de Tibco, Integrator de Mercator, e*Gate Integrator de SeeBeyond, Websphere d’IBM, Biztalk de Microsoft, Businessware de Vitria, Intégration Server de WebMethods, EntireX de SoftwareAG, XMLBus d’Iona, Sonic ESB de Sonic Software, etc.), et dont l’objectif est de permettre de rationaliser et fluidifier le système d’information afin de le rendre plus flexible et plus réactif.

Intégration des processus

C’est la forme la plus complexe de l’intégration. Elle sert à rendre valable une application dans le contexte d’une autre sans la dupliquer. Elle permet aussi de construire de nouveaux processus métier à base des applications et progiciels existants. Ceci crée de nouvelles opportunités pour l’organisation à moindre coût. Les données circulant dans la nouvelle organisation sont accédées et maintenues selon une logique de métier (business logic) qui a des règles et une sécurité de données. Ces données ne sont plus simples mais des objets métier (BOD : Business Object Document, ex : bon de commande) qui portent déjà un sens. Grâce à cette forme d’intégration, les nouveaux processus métier qui les manipulent sont créés.

Intégration des données via des ontologies

Plusieurs systèmes d’intégration à base d’ontologies, ou par ontologies ont vu le jour et ont apporté un plus considérable dans divers domaines (Mena, et al., 2000). Selon Bellatreche, (2006), il existe deux catégories de ces systèmes : les premiers utilisent une structure à base d’une ontologie unique comme les Projets OntoBroker, SIMS, COIN, Picsel cités dans (Khouri, 2009) mais ils souffrent de manque d’autonomie au niveau des sources Intégration des données par fusion des Ontologies.
locales. Les deuxièmes sont à base d’ontologies multiples et apportent une meilleure solution tels que les projets ONION et caBIG cités dans (Khouri, 2009). Dans les approches à base d’ontologies multiples chaque source est décrite sémantiquement par sa propre ontologie, appelée ontologie locale qui est mise en correspondance avec une ontologie partagée modélisant un domaine particulier, qu’on appelle ontologie globale. Dans cette catégorie nous trouvons, entre autre, les travaux de (Diallo, 2011) qui propose une Architecture à Base d’Ontologies pour la Gestion Unifiée de deux types de données Structurées et non Structurées basée sur une approche de médiation par ontologies. Sa conception repose sur l’utilisation des technologies du Web Sémantique et de plusieurs types d’ontologies pour la caractérisation sémantique des sources non structurées (textuelles). Les ontologies servent d’une part à définir le schéma global d’intégration (ontologie globale) et, d’autres parts, les différentes sources à intégrer. Des correspondances sont établies entre l’ontologie globale et les différentes ontologies locales. Saïs (2007), propose un système d’Intégration Sémantique de Données structurées représentant des tableaux collectés et extraits à partir du Web. Cette intégration de type entrepôt de données rentre dans le cadre du projet eDot guidée par une Ontologie du domaine.
Sa contribution est une méthode générique et automatique d’enrichissement sémantique d’informations structurées représentant des tableaux pour découvrir des relations candidates à l’enrichissement d’un entrepôt et d’une ontologie. Cette étude monte l’intérêt et la faisabilité d’approches complètement automatiques, non supervisées et guidées uniquement par une ontologie.
L’objectif de Zimmerman, (2013), est de modéliser la sémantique d’un ensemble des connaissances produites indépendamment les unes des autres, formant un réseau et mises en correspondances. Dans chaque nœud du réseau se trouve une ontologie, reliée aux autres par des correspondances formant des alignements d’ontologies. Afin de favoriser l’utilisation d’ontologies indépendantes et préexistantes, il définit une sémantique formelle exploitant le principe de médiation. Il a mis en place un formalisme qui exploite au mieux les logiques locales déjà établies, les met en corrélation par un procédé original qui distingue d’un côté la représentation locale, propre à chaque nœud dans le réseau, et la représentation des connaissances inter-ontologies propre au médiateur. Cependant, son travail se trouve confronté à la complexité du raisonnement distribué.
Les travaux de Dibie (2009), portent sur l’intégration des données guidée par une ontologie à travers la réalisation du projet ONDINE (ONtology-based Data INtEgration). Ceci consiste en l’intégration et l’interrogation d’une BD relationnelle et d’une base des graphes conceptuels. Son système d’intégration repose sur une ontologie de domaine qui est construite à partir des bases locales (à partir de leurs schémas, de leurs attributs et des contraintes associées).
De ces recherches nous remarquons que l’intégration des données passe par les étapes suivantes : elle associe, d’abord, à chaque source son ontologie locale ; Ensuite elle intègre les ontologies des sources en établissant des relations sémantiques (équivalence, subsomption…) entre leurs concepts et, enfin, elle peuple les données dans l’entrepôt en exploitant les correspondances ontologiques établies dans l’étape précédente.

 

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

SOMMAIRE
Liste des Figures
INTRODUCTION GENERALE  
1. Contexte de la thèse
2. Problématique
3. Objectifs
4. Contributions de la thèse
5. Organisation de la thèse
Chapitre 1 : Fondements des Ontologies 
1.1 Quelques définitions
1.1.1 Définition philosophique
1.1.2 Définition informatique
1.1.3 Définition littéraire
1.1.4 Définition Formelle
1.2 Les Constituants d’une Ontologie
1.2.1 Concepts
1.2.2 Les Relations
1.2.3 Les fonctions
1.2.4 Les axiomes
1.2.5 Instances
1.3 L’intérêt d’une ontologie
1.4 Construction des ontologies
1.4.1 Les Principes
1.4.2 Les Méthodologies
1.4.3 Les Outils
1.5 Langages et plates-formes pour les ontologies
1.6 La classification des ontologies
1.6.1 Classification selon l’objet de conceptualisation
1.6.2 Classification selon le niveau de détail ou de granularité
F.Z Abdelouhab Page 9
1.6.3 Classification selon le formalisme de représentation
1.6.4 Classification selon le niveau de complétude
1.6.5 Classification selon la richesse de la structure interne
1.7 Apports des ontologies
1.8 Problématique des ontologies
1.9 Conclusion  
Chapitre2 : Intégration des données par fusion des Ontologies 
2.1 Intégration des données du Web
2.1.1 Intégration de données
2.1.2 Intégration des applications
2.1.3 Intégration des processus
2.2 Intégration des données via des ontologies
2.3 Composants théoriques de l’intégration
2.4 Hétérogénéité des données
2.5 Interopérabilité des données
2.6 Interopérabilité sémantique
2.6.1 Techniques pour l’interopérabilité sémantique
2.7 La fusion d’ontologies
2.7.1 Les méthodes de fusion d’ontologies
2.7.2 Les approches de Fusion
2.7.3 Réutilisation des ontologies
2.8 Conclusion  
Chapitre3 : Mises en correspondance des ontologies 
3.1 Définition de l’Alignement
3.1.1 Terminologies (Klein, 2001)
3.1.2 Le processus d’alignement
3.1.3 Extraction de l’alignement
3.2 Alignement des ontologies
3.2.1 Domaine d’application de l’alignement des ontologies
3.2.2 Les approches d’alignement des ontologie
F.Z Abdelouhab
3.2.2 Les méthodes de calcul de similarité
3.2.3 La classification des méthodes de Matching
3.2.4 Les stratégies de combinaison de Matchers
3. 2.5. Les outils d’alignement des ontologies
3.2.6 Les Frameworks d’alignement d’ontologies
3.2.7 Comparaison des différents outils et Frameworks
3.3 Alignement extensionnel des ontologies
3.3.1 Alignement Extensionnel des Ontologies : Etat de l’Art
3.3.2 Alignement extensionnel : Règles d’association
3.4 Alignement des ontologies et le passage à l’échelle
3.4.1 Alignement pair-wise
3.4.2 Alignement holistique
3.5 Conclusion  
Chapitre4 : Une approche cellulaire d’intégration 
4.1 La machine cellulaire ????
4.1.1 Configuration de la machine ????
4.1.2 La dynamique de la machine ????
4.2 L’approche proposée
4.2.1 Phase1 : Génération des ontologies
4.2.1.1 Règle de construction de classes
4.2.1.2 Règles de Construction de Propriétés
4.2.1.3 Règle de Construction de Relation d’Héritage
4.2.1.4 Règles de Construction des Axiomes
4.2.1.5 Règles de Construction des Instances
4.2.2 Phase2 : Alignement des ontologies
4.2.2.1 Alignement structurel
4.2.2.2 Alignement extensionnel
4.2.3 Phase3 : La fusion des ontologies
4.2.4 Phase 4 : Stockage booléen
4.3 La fusion booléenne des ontologies
4.3.1 Modélisation booléenne d’une ontologie
4.3.2 Inférence booléenne de l’ontologie  F.Z Abdelouhab
4.3.3 Génération de l’ontologie finale
4.3.4 Formalisation de l’ontologie booléenne
4.4 Discussion
4.4.1 Discussion sur le 1er point
4.4.2 Discussion sur le 2ème point
4.4.3 Discussion sur le 3ème point
4.5 Conclusion 
Chapitre5 : Alignement extensionnel des ontologies par les règles d’association 
5.1 Exemple d’illustration
5.2 Formalisation de l’ontologie contextualisée
5.3 Les difficultés d’alignement des ontologies
5.4 L’approche proposée
5.4.1 Génération de la base d’instance
5.4.4 Interprétation des Résultats
5.4.5 Génération de l’Ontologie Finale
5.4.6 Stockage de l’ontologie finale
5.5 Expérimentation
5.5.1 En tant que système cellulaire
5.5.2 En tant que système de Matching
5.5.3 En tant que système d’extraction des règles d’association
5.5.4 En tant que système de fusion holistique
5.6 Expérimentation de l’approche dans la vaccination
5.6.1 La mission des SEMEP
5.6.2 Le Processus de Vaccination
5.7 Conclusion  
CONCLUSION GENERALE & PERSPECTIVES 
Annexe A : Ontologie de Vaccination
Références

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *