Méthodes et méthodologie de construction d’ontologie

Méthodes et méthodologie de construction d’ontologie

Introduction

Les ontologies sont devenues un moyen indispensable pour représenter et exploiter les données et les connaissances d’un domaine, et plus particulièrement celles du domaine médical. plusieurs systèmes terminologiques ont été proposés et développés : des vocabulaires contrôlés pour annoter des gènes et classer les documents, et des thesaurus pour guider et faciliter la recherche d’informations. Néanmoins, le succès de ces systèmes est limité en raison de leur dépendance à des cas et des tâches spécifiques et de l’absence de possibilités de raisonnement.
Afin de compenser les limites de ces ressources, la communauté biomédicale s’est intéressée aux ontologies qui visent à représenter les connaissances indépendamment de leur cadre d’utilisation.
Dans cette partie, nous présentons des méthodes et méthodologies de construction d’ontologies et aussi quelques projets des ontologies dans le domaine médical et nous donnons aussi des outils utilisés pour implémenter une ontologie.

Méthodes et méthodologies de construction d’ontologies

Le processus de développement d’une ontologie est un processus complexe Pour cela, il est nécessaire d’utiliser des méthodes ou méthodologies pour seconder le processus de construction des ontologies.
Les méthodes et les méthodologies recensées permettent la construction d’ontologies à partir de zéro c.-à-d. à partir des données brutes ,ou par réutilisation d’autres ontologies, la réingénierie, l’intégration ou fusion avec d’autres ontologies, la construction collaborative ainsi que l’évolution des ontologies construites.

La méthodologie METHONTOLOGY

Cette méthodologie a été développée par le groupe d’Ontologie à l’Université Polytechnique de Madrid. METHONTOLOGY prend ses racines dans les activités principales identifiées par le processus de développement logiciel et dans les méthodologies d’ingénierie de connaissance. Cette méthodologie inclue : l’identification du processus de développement, un cycle de vie basé sur des prototypes évolutifs, et les techniques pour effectuer chaque tâche dans les activités de gestion, de développement et de support.
METHONTOLOGY a été proposée pour la construction d’ontologie par la FIPA (Foundation for Intelligent Physical Agents), qui favorise l’interopérabilité à travers les applications.

La méthodologie On-To-Knowledge

On-To-Knowledge recommande un procédé itératif de développement, et comporte quatre phases principales : une phase de spécification de condition, une phase d’amélioration, une phase d’évaluation et une phase d’application et d’évolution. On-To-Knowledge propose l’acquisition des connaissances en spécialisant une ontologie générique.METHONTOLOGY inclut une méthode de réingénierie pour résoudre certains des problèmes liés à la construction d’une ontologie par la réutilisation d’une autre ontologie.Elle propose de construire l’ontologie en tenant compte de la manière dont elle sera utilisée dans d’autre applications. Par conséquent, les ontologies développées avec cette méthodologie sont fortement dépendantes de l’application.

La Méthode 101

La Méthode 101 cherche à construire des ontologies formelles par la reprise et l’adaptation des ontologies déjà existantes, et propose de suivre les démarches ci-après :
− Déterminer le domaine et la portée de l’ontologie ;
− Considérer la réutilisation des ontologies existantes ;
− Enumérer les termes les plus importants dans l’ontologie ;
− Définir les classes et hiérarchie des classes ;
− Définir les propriétés des classes ;
− définir les facettes des attributs ;
− Construire les instances.

ARCHONTE[23]

B. Bachimont s’est basé sur la sémantique diﬀérentielle pour proposer la méthodologie ARCHONTE (ARCHitecture for ONTological Elaborating) . Selon cette méthodologie, la construction d’une ontologie passe par trois étapes principales :
1. choisir les termes pertinents du domaine et normaliser leurs sens puis justifier la place de chaque concept dans la hiérarchie ontologique en précisant les relations de similarités et de différences que chaque concept entretient avec ses concepts frères et son concept père.
2. formaliser les connaissances, ce qui implique par exemple d’ajouter des propriétés à des concepts, des axiomes, de contraindre les domaines d’une relation, etc.
3. représenter l’ontologie dans un langage formel de représentation des connaissances.

Ressources terminologiques et ontologiques en médecine

Il existe dans le domaine médical un grand nombre de ressources terminologiques et ontologiques (RTO) construites pour répondre à des besoins précis et divers connaissances. Dans cette partie, nous présentons quelques projets de construction d’ontologies.

CIM

CIM( Classification internationale des maladies) permet le codage des maladies, des traumatismes et de l’ensemble des motifs de recours aux services de santé. Elle est publiée par l’Organisation Mondiale de la Santé et est utilisée à travers le monde pour enregistrer les causes de morbidité et de mortalité, à des fins diverses, parmi lesquelles le financement et l’organisation des services de santé ont pris ces dernières années une part croissante10.
Elle bénéficie d’une remise à niveau régulière, la version la plus récente étant la révision (publiée en 1993). Il s’agit d’une classification monoaxiale avec 21 chapitres principaux dont 17 concernent des maladies et 4 concernent les signes et résultats anormaux, les causes de traumatismes, d’empoisonnement ou de morbidité, l’état de santé et les facteurs de recours aux soins. Les catégories de maladies sont définies en fonction d’un caractère commun qui peut être l’étiologie par exemple (1 = maladies infectieuses, lettres A et B), la topographie (9 = maladies de l’appareil circulatoire, lettre I). le chapitre des maladies infectieuses est le plus gros et le plus détaillé parce que ces maladies sont la première cause mondiale de morbidité et de mortalité.

MeSH

Le MeSH est un thésaurus médical conçu par la NLM (National Library of Medicine) aux États-Unis. Il est utilisé en particulier par PubMed (l’interface de la NLM à la base de données bibliographiques MEDLINE qui couvre tous les domaines médicaux) pour l’indexation et la recherche de publications scientifiques.Il compte 24 767descripteurs dans sa version de 2008. Les descripteurs MeSH sont organisés en 16 catégories :la catégorie A pour les termes anatomiques, la catégorie B pour les organismes, la catégorie C pour les maladies, etc. Chaque catégorie est subdivisée en sous-catégories.A l’intérieur de chaque catégorie, les descripteurs sont structurés hiérarchiquement, du plus général au plus spécifique.

CISMeF

l’équipe CISMeF du Centre Hospitalier Universitaire de Rouen a initié le projet CISMeF (Catalogue et Index des Sites MEdicaux Francophones) , Ce catalogue indexe les principaux sites et documents francophones de qualité médicale contrôlée. En décembre 2007, il a dépassé les 41300 ressources indexées avec une moyenne de 80 nouvelles ressources par semaine. Cette liste de sites contient un classement thématique, en particulier des spécialités médicales, un classement alphabétique, et un accès par type de ressources. Depuis juin 2000, l’outil associé, Doc’CISMeF, permet d’effectuer des recherches dans le catalogue de ressources, et oﬀre des possibilités de recherches plus étendues . CISMeF utilise deux outils standards pour organiser l’information : le thésaurus MeSH (Medical Subject Headings), utilisé notamment par la base de données bibliographique Medline, et le format de métadonnées du Dublin Core.

SNOMED

La SNOMED est une nomenclature pluri-axiale couvrant tous les champs de la médecine et de la dentisterie humaines, ainsi que de la médecine vétérinaire.SNOMED-CT(SNOMED Clinical Terms) représente la dernière version de la nomenclature mais seule la version SNOMED 3.5 (appelée également SNOMED International) a été traduite en français. La SNOMED 3.5 comporte 11 axes ( Figure 2.2 )Dans chaque axe, les concepts sont représentés par une série de termes au sein de laquelle on peut distinguer une formulation préférée et des synonymes de diverses natures syntaxiques. La version française comporte 97 485 concepts désignés par 144 796 termes. Par ailleurs, chaque axe représente une hiérarchie simple de concepts qui peuvent représenter une combinaison de concepts.La recherche en informatique médicale a montré que la SNOMED est la terminologie la plus adaptée à l’indexation des informations du dossier patient. Cependant, elle contient des éléments non pertinents à l’indexation.Ce sont les éléments de l’axe G contenant les qualificatifs et termes de relations qui n’ont pas de sens lorsqu’ils ne sont pas reliés aux autres termes SNOMEDpar exemple : “sans”, “disponible”, etc.

UMLS

UMLS a été mis en place dans le but d’améliorer l’accès à l’information médicale à partir de sources diverses : bases de données bibliographiques, bases de données d’enregistrements cliniques et bases de connaissances médicales . Un des moyens d’UMLS est alors de définir un vocabulaire médical de base, un « métathésaurus » qui reprend et dédoublonne les termes de l’ensemble des 95 ressources terminologiques qu’il inclut (MeSH,SNOMED .…). Ce métathésaurus propose une description hiérarchique des connaissances mé-dicales utilisées dans divers documents et systèmes à base de connaissances.L’intérêt d’UMLS réside dans sa grande couverture du domaine médical (1 276 301 concepts dans la version A du 1er trimestre 2006) et dans sa disponibilité.
Chaque concept UMLS a un identifiant unique, le CUI (Concept Unique Identifier). A chaque concept est associé un ensemble de termes dans différents lexiques. Chaque CUI a dans chaque langue un terme préféré unique appeler SUI (String Unique Identifier). Chaque SUI est lié à un ou plusieurs termes selon ses différentes variations lexicales, qui sont les LUI (Lexique Unique Identifier). Les SUI dans les différentes langues sont nécessaires pour la communication, mais le vrai identifiant du concept est son CUI.

FMA

La FMA (Foundational Model of Anatomy) est une ontologie de référence dans le domaine de l’anatomie. Elle vise à représenter les entités anatomiques et les relations nécessaires pour la modélisation symbolique de la structure phénotypique du corps humain sous une forme qui soit compréhensible par l’homme et qui soit également traitable par une machine.
Les entités anatomiques sont représentées dans FMA, allant des macromolécules biologiques aux cellules, tissus, organes, systèmes d’organes, les majeures parties du corps, y compris le corps entier. Elle contient actuellement autour de 75 000 entités (concepts) anatomiques et plus de 120 000 termes.

Ontologie de gènes – GO

L’ontologie de gènes (GO – Gene Ontology) est une ressource terminologique destinée à structurer la description des gènes et des produits géniques dans le cadre d’une ontologie commune à toutes les espèces. Ce projet, qui s’inscrit dans la démarche plus large d’Open Biomédical Ontologies (OBO) regroupant d’autres projets bioinformatiques dans le domaine biomédical, poursuit trois objectifs :
– gérer et enrichir son vocabulaire contrôlé décrivant les gènes et leurs produits,
– gérer les annotations, c’est-à-dire les informations rattachées aux gènes et à leurs produits,
– fournir les outils permettant d’accéder aux informations structurées dans le cadre du projet.

GALEN

GALEN (General Architecture for Language, Encyclopedia and Nomenclature) est un projet européen qui avait pour but de proposer des terminologies réutilisables et partageables pour le domaine médical.
GALEN utilise un formalisme appelé GRAIL (Galen Representation and Integration Language) qui permet de saisir la connaissance terminologique dans le domaine médical.
Ce formalisme est hautement génératif et permet de définir des concepts complexes, composés de concepts plus élémentaires. Tous les concepts, et les relations qui les lient, sont représentés indépendamment du langage dans lequel ils sont exprimés.
La version actuelle de GALEN comprend une hiérarchie assez riche de concepts (~ 25000 concepts) ainsi qu’un ensemble de relations associatives permettant de définir des structures complexes.

MENELAS

MENELAS est un projet européen son but était la conception et l’implémentation d’un système de pilotage capable d’accéder à des rapports médicaux rédigés en langage naturel dans trois langues : l’anglais, le français et le néerlandais. Ce système devait pouvoir analyser le contenu de rapports médicaux (comptes rendus d’hospitalisation ou CRH) et l’archiver dans une base de données sous la forme d’un ensemble de structures conceptuelles (graphes conceptuels ). Ces structures, qui constituent la représentation de chaque CRH, devaient pouvoir ensuite être consultées pour accéder à des informations spécifiques contenues dans le CRH. Une partie des informations était encodée à l’aide de nomenclatures internationales, ce qui permettait leur échange à partir de CRH écrits en différentes langues. Le projet a été confronté aux problèmes habituels de la compréhension de textes en langage naturel.
Cet ontologie couvrant le domaine des maladies coronariennes comporte plus de 1800 concepts et 300 relations.

Outils de construction d’ontologies

De nombreuses plateformes logicielles utilisant des formalismes variés et offrant différentes fonctionnalités ont été développées pour supporter les ontologistes dans les différentes activités du cycle de vie d’une ontologie. Nous présentons ici brièvement les principaux outils de construction d’ontologies.

Les outils dépendants du formalisme de représentation

Ontolingua [4]

Le serveur Ontolingua est le plus connu des environnements de construction d’ontologies en langage Ontolingua. Il consiste en un ensemble d’environnements et de services qui supportent la construction en coopération d’ontologies, entre des groupes séparés géographiquement. Il supporte plusieurs langages et dispose de traducteurs permettant de passer de l’un à l’autre.. Il y a trois différentes possibilités d’intégrer les ontologies Ontolingua :
 Inclusion : Une ontologie inclut et utilise les définitions d’autres ontologies;
 Restriction : l’ontologie importe les définitions depuis d’autres ontologies et les rend plus spécifiques;
 Raffinement polymorphe : on redéfinit une définition importée depuis n’importe quelle ontologie.

OntoSaurus [12]

OntoSaurus est composé de deux modules : un serveur utilisant LOOM comme langage de représentation des connaissances, et en un serveur de navigation créant dynamiquement des pages HTML qui affichent la hiérarchie de l’ontologie; le serveur utilise des formulaires HTML pour permettre à l’usager d’éditer l’ontologie. Il utilise LOOM comme langage de représentation des connaissances. On peut représenter les concepts, la taxonomie des concepts, les relations entre les concepts, les fonctions, les axiomes et les instances.

OilEd [22]

OILEd a été conçu pour éditer des ontologies dans le langage de représentation OIL, il est souvent considéré comme une simple interface . Cet éditeur offre également les services d’un raisonneur, FaCT(un moteur d’inférences bâti sur OIL) qui permet de tester la satisfiabilité des définitions de classes et de découvrir des subsomptions restées implicites dans l’ontologie. L’outil dispose de mécanismes pour la classification et le contrôle de la cohérence des ontologies.

Les outils indépendants de formalisme de représentation

Protégé2000 [21]

Protégé est une plate-forme Open Source autonome, qui fournit un environnement graphique permettant l’édition, la visualisation et le contrôle (vérification des contraintes) d’ontologies. Le modèle de représentation de connaissances de PROTÉGÉ, est issu du modèle des frames. Ce dernier contient des classes (pour modéliser les concepts), des slots (pour modéliser les attributs des concepts) et des facettes (pour définir les valeurs des propriétés et des contraintes sur ces valeurs), ainsi que des instances des classes.
PROTÉGÉ introduit la notion de métaclasse, dont les instances sont des classes.
L’interface très complète ainsi que l’architecture logicielle extensible permettant l’insertion de plusieurs plug-ins offrant de nouvelles fonctionnalités, notamment des pluggins pour gérer les représentations sous forme graphique, par exemple OWLViz et la prise en charge de nouveaux langages.
Toutes ces caractéristiques ont participé à son succès et le rendent l’éditeur d’ontologie jouissant de la plus grande renommée à l’heure actuelle.

ODE et WebOde [12]

L’outil ODE (Ontology Design Environment) permet de construire des ontologies au niveau connaissance, comme le préconise la méthodologie METHONTOLOGY.L’utilisateur construit son ontologie dans un modèle de type frame, en spécifiant les concepts du domaine, les termes associés, les attributs et leurs valeurs,les relations de subsomption. L’ontologie opérationnelle est alors générée en utilisant les formalismes ONTOLINGUA

OntoEdit [26]

OntoEdit (Ontology Editor) est également un environnement de construction d’ontologies indépendant de tout formalisme. Il permet l’édition des hiérarchies de concepts et de relations et l’expression d’axiomes algébriques portant sur les relations, et de propriétés telles que la généricité d’un concept. Des outils graphiques dédiés à la visualisation d’ontologies sont inclus dans l’environnement.
Ontoedit intègre un serveur destiné à l’édition d’une ontologie par plusieurs utilisateurs. Un contrôle de la cohérence de l’ontologie est assuré à travers la gestion des ordres d’édition.

Conclusion

nous avons présenté dans ce chapitre les méthodes et les méthodologies les plus utilisées pour seconder le processus de construction d’une ontologie .
Nous avons aussi décrit les principales ressources termino-ontologiques les plus utilisées dans le domaine médical. Ainsi que les principaux outils pour supporter et construire une ontologie.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie ?avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 : état de l’art sur les ontologies
1.1 Introduction
1.2 Donnée, information et connaissance
1.3. Notion d’ontologie
1.4. Les composants d’une ontologie
1.5. Pourquoi développer une ontologie ?
1.6. Différentes sortes d’ontologies
1.6.1 La précision sémantique
1.6.2 Le niveau de granularité
1.6.3 Le niveau formel de représentation des connaissances
1.6.4 L’objet de conceptualisation
1.7 Cycle de vie d’une ontologie
1.8 .Processus de construction d’une ontologie
1.8.1 Conceptualisation
1.8.2 Ontologisation
1.8.3 Opérationnalisation
1.9.Langages de représentation
1.9.1 XML
1.9.2 RDF et RDF-S
1.9.3DAML+OIL
1.9.4 OWL (Web Ontology Language)
1.10. Usages des ontologies
1.11. Conclusion
Chapitre 2 :Méthodes et méthodologie de construction d’ontologie
2 .1. Introduction
2.2. Méthodes et méthodologies de construction d’ontologies
2.2.1. La méthodologieMETHONTOLOGY
2.2.2. La méthodologie On-To-Knowledge
2.2.3. La Méthode 101
2.2.4. ARCHONTE
2.3. Ressources terminologiques et ontologiques en médecine
2.3 .1. CIM
2.3 .2. MeSH
2.3 .3. CISMeF
2.3 .4. SNOMED
2.3 .5. UMLS
2.3.6. FMA
2.3 .7. Ontologie de gènes – GO
2.3 .8. GALEN
2.3.9. MENELAS
2.4 Outils de construction d’ontologies
2 .4.1. Les outils dépendants du formalisme de représentation
2 .4.2. Les outils indépendants de formalisme de représentation
2 .5.Conclusion
Chapitre 3 : La modélisation
3.1. Introduction
3.2 Le Langage UML
3.3 Choix de la méthode de construction de l’ontologie
3.4 Construction de l’ontologie de domaine
3.5 Diagramme de cas d’utilisation
3.6 Diagramme de classe
 Explication de quelques classes
 Les classess les plus interessantes et ses relations
3.7 Conclusion
Chapitre 4 : Application
4.1 Introduction
4.2 Outils et langages utilisés
4.2.1. NetBeans
4.2.2 JENA
4.2.3. Protégé 4.3
4.3 Interfaces
4.4 CONCLUSION
Conclusion générale
Bibliographie