Télécharger le fichier pdf d’un mémoire de fin d’études
L’approche de la sémiologie et de la sémiotique pour la modélisa-tion des connaissances
L’utilisation du terme sémiotique tend à se généraliser, pour désigner la science qui étudie les signes. Cependant, à l’origine de cette science, à la fin du 20ème siècle, nous distinguions deux approches différentes. La sémiologie tout d’abord, qui a fait son appa-rition avec les travaux de Ferdinand de Saussure. Il l’a définit dans son Cours de linguiste générale [De Saussure, 1989] comme « la science générale de tous les systèmes de signes (ou de symboles) grâce auxquels les hommes communiquent entre eux ». Cette approche est qualifiée de sociale, car elle vise à mettre en évidence l’organisation du langage en tant que système de communication. En parallèle aux travaux de Saussure, le terme sé-miotique est apparu dans les travaux de Peirce [Peirce, 1978] pour désigner « une doctrine quasi nécessaire ou formelle des signes », « la science formelle des conditions de la vérité des représentations ». Cette approche est qualifiée par son auteur de « logique », elle vise à mettre en évidence les processus en œuvre dans la signification.
Les théories sémiotiques sont aujourd’hui au cœur de nos systèmes informatiques pour la gestion des connaissances sémantiques. Elles s’expriment au travers des concepts que nous définissons dans les SOC, au travers des faits que nous modélisons dans les ontologies, au travers des relations qui nous permettent de lier des concepts entre eux. Nous centrons notre propos sur les grandes notions de la sémiotique et en particulier sur l’étude du signe linguistique, en lien avec les travaux des deux pères fondateurs de cette science, Ferdinand De Saussure et Charles Sanders Peirce.
Un point sur les classifications utilisées en psychiatrie
Les classifications en psychiatrie sont dominées par deux courants de méthodologie antinomiques : la « pensée catégorielle » et l’« approche dimensionnelle » [Möller, 2008]. La « pensée catégorielle » domine les classifications actuelles en psychiatrie, mais est vi-vement critiquée depuis les années 1980 [Demazeux, 2008] au profit d’une « approche dimensionnelle ». La « pensée catégorielle » consiste à définir des catégories précises de troubles, de syndromes décrits par un ensemble de symptômes et de faits chronologiques. La version 10 de la Classification statistique Internationale des Maladies et des problèmes de santé connexes [WHO et al., 1992] (CIM), ainsi que la 4ème édition du Diagnostic and Statistical Manual of Mental Disorders (DSM) appartiennent à cette catégorie de clas-sification. Les opposants à cette pensée lui reprochent en particulier son inadéquation avec la réalité clinique et la catégorisation excessive doublée d’une trop grande rigidité des catégories diagnostiques [Demazeux, 2008, Widakowich et al., 2013]. Ces difficultés posent la question de la délimitation des syndromes, dont les symptômes, bien souvent, appartiennent à plusieurs catégories diagnostiques. Le problème des « cas limites » est une parfaite illustration de la difficulté à poser un diagnostic via la classification catégo-rielle. En effet, certains patients présentent des symptômes qui peinent à entrer dans une sous-catégorie rigoureuse. Afin qu’ils ne soient exempt des codages diagnostiques, une solution est d’avoir recours aux « NOS » Not Otherwise Specified, qui permettent d’attri-buer une étiquette à un patient dont les symptômes ne permettent pas d’attribuer une sous-catégorie diagnostique définie.
Une seconde approche, dite « dimensionnelle » a émergé dans les années 1980 en réac-tion à la « pensée catégorielle » [Demazeux, 2008]. Les prémisses des classifications di-mensionnelles sont visibles dans les travaux de Hempel [1965]. L’auteur met en avant l’intérêt non pas de classer des symptômes, mais d’ordonner des individus les uns par rapport aux autres selon des caractéristiques. Le but de cette approche est de faire ap-paraître « des distinctions plus subtiles que dans une classification » [Hempel, 1965, De-mazeux, 2008]. Une telle approche cherche à mesurer des différences quantitatives d’un même trouble en établissant des degrés d’intensité dans les symptômes [Widakowich et al., 2013]. Nous disposons pour cela d’outils d’évaluation clinique, tels que l’échelle de PANSS Positive and Negative Syndrome Scale pour la schizophrénie, ou l’IMC Indice de Masse Corporel pour les troubles alimentaires. Ces outils permettent de quantifier la sévérité d’un symptôme et non de définir de façon binaire, sa présence ou son absence [Widakowich et al., 2013]. La dernière édition du DSM, la cinquième (voir 1.3.3) fait partie de ce type de classification, mais elle a été très mal reçue par la communauté scientifique, dont les critiques ont résonné dans la presse généraliste 5. Allen Frances, le psychiatre responsable de l’édition du DSM-IV a publié un ouvrage critique sur la « médicalisation de la normalité » [Frances et al., 2013] dans lequel il affirme que le « DSM-5 va convertir des millions de personnes normales en patients atteints de maladies mentales ». Ce fut ensuite au tour de l’Institut Américaine de la Santé Mentale (National Institute of Mental Health, NIMH) de se désolidariser de cette édition et de poser par la même occasion la question de la pertinence des classifications catégorielles.
Dans la section suivante, nous présentons plus en détail différentes classifications re-latives au domaine médicale et à la psychiatrie en particulier.
SNOMED 3.5VF and SNOMED CT
La première Systematized Nomenclature of Medicine (SNOMED) a été créée par le Dr Roger Cote en 1975. Ce système a évolué en (1) la SNOMED 3.5VF 6 en 1998, une termino-logie multi axiale traitant des domaines de la médecine animale (y compris l’homme) et de la dentisterie humaine et (2) la SNOMED Clinical Term (CT) 7 en 2002, une ontologie qui représente une terminologie médicale clinique multilingue. La différence importante de ces classifications, par rapport au DSM ou à la CIM, est l’absence de règles ou de cri-tères pour définir des catégories descriptives ou des symptômes.
La SNOMED3.5VF est détenue et distribuée par l’Agence des Systèmes d’Information Partagés de Santé (ASIP Santé) 8, une agence d’État chargée de la e-santé en France. La SNOMED3.5VF attribue un code à tous les termes médicaux utilisés par les praticiens en santé. Elle fonctionne comme un vocabulaire de santé contrôlé et unifié. Elle permet de stocker des informations médicales individuelles dans des entrepôts de données. Ce stockage vise à établir des outils d’analyse décisionnelle, à faciliter les décisions théra-peutiques, à contribuer aux études épidémiologiques et à l’enseignement. La première version française de la SNOMED a été réalisée en 1998. Des mises à jour de cette pre-mière version ont été effectuées depuis cette date, indépendamment des mises à jour de la SNOMED Internationale.
La SNOMED CT est détenue et distribuée par l’International Health Terminology Stan-dards Development Organisation (IHTSDO) 9. Les concepts sont uniques et représentent des aspects cliniques. Ils sont décrits en termes lisibles par l’homme et associés à une «ba-lise sémantique». Certains concepts sont liés à d’autres par des relations, qui fournissent également des définitions formelles ou des propriétés à ces concepts. La SNOMED CT vise à faire partie intégrante des applications pour soutenir l’information clinique. Tout comme la version française, elle fonctionne comme un vocabulaire contrôlé, une termi-nologie ou une classification, mais ne s’occupe pas des critères diagnostiques.
Les deux versions de la SNOMED contiennent un module qui ne traite que du contexte « social », qui vise à représenter les aspects sociaux qui peuvent influencer la santé et le traitement du patient.
Classification statistique Internationale des Maladies et des problèmes de santé connexes
La classification de référence pour le codage médical dans les hôpitaux est actuelle-ment la Classification statistique Internationale des Maladies et des problèmes de santé connexes [WHO et al., 1992] (CIM) dont le Chapitre 05 « Troubles mentaux et du com-portement » comporte plus de 1300 codes (extrait de la classification en annexe C). Elle est élaborée par l’Organisation Mondiale de la Santé (OMS) et principalement utilisée pour le codage du « Programme de médicalisation du système d’information » (PMSI). Le PMSI vise à introduire des concepts de comptabilité analytique dans la gestion admi-nistrative des hôpitaux : les diagnostics et actes effectués dans un établissement de santé sont codés et comptabilisés, rapportés à un patient et aux différents coûts de la struc-ture. Cela permet de bâtir des indices de coûts relatifs par groupe homogène de malades. Le PMSI utilise un système de codage international, la CIM-10, pour les diagnostics, et un système français, développé grâce à une approche ontologique, la CCAM 10, pour les actes. Le codage des diagnostics se fait en posant un diagnostic principal et, si nécessaire – au maximum 5 –, des diagnostics associés. Le PMSI a évolué vers une comptabilité qui vise à analyser le coût de chaque acte : c’est la tarification à l’activité ou T2A mais elle ne concerne pas la psychiatrie [Richard et al., 2013]. Ce qui rend la CIM-10 populaire est également sa gratuité et sa facilité d’utilisation par des praticiens extérieurs à la psychia-trie (infirmières ou neurologues pour ne citer qu’eux), qui peuvent être impliqués dans le parcours de soin des patients. La CIM-10 comporte également un chapitre destiné à coder les facteurs environnementaux des maladies : le « Chapitre XXI : Facteurs influant sur l’état de santé et motifs de recours aux services de santé ». Ce chapitre est composé de sept sous groupes et d’un peu plus de 800 codes.
Disorders (DSM) [APA et al., 2013] de l’Association Psychiatrique Américaine (APA) décrit et classifie les troubles mentaux. L’APA indique sur son site internet 11 que le DSM est destiné aux milieux cliniques et aux cliniciens d’horizons théoriques différents. Il est à l’attention des professionnels des sec-teurs de santé mentale et autres, tel les psychiatres, les physicien(ne)s, psychologues, tra-vailleur(e)s sociaux, infirmier(ère)s ou encore thérapeutes. La cinquième édition du DSM peut aussi être utilisée dans le cadre de recherches cliniques ou bien en tant qu’outil de collecte et de communication de statistiques sur la santé publique. Les trois composantes majeures du DSM sont :
† une classification des diagnostics : composée de la liste officielle des troubles men-taux reconnus par le DSM. Un code est associé à chaque diagnostic et utilisé pour le recueil de données ainsi qu’à des fins financières.
† un ensemble de critères associés à chaque diagnostic : indiquant les symptômes qui peuvent être présents ou liés à d’autres troubles.
† une description textuelle : qui accompagne chaque trouble répertorié, afin de four-nir des informations concernant entres autres, les caractéristiques du diagnostic, le développement du trouble, les facteurs de risques, un diagnostic différentiel.
Le DSM est utilisé spécifiquement en France par les chercheurs cliniciens. Aux Etats-Unis, où il est plus populaire, il est utilisé aussi bien par les cliniciens que par les sociétés d’assurance, pharmaceutiques (pour la définition de critères de dosage thérapeutique et d’indications d’autorisation) ou par les pouvoirs publics et les dirigeants, pour les études de santé publique en particulier. Les utilisations du DSM sont également multiples, al-lant de l’aide au diagnostic, à la recherche, en passant par le codage médical. Le DSM est vivement critiqué en particulier dans sa version 5. Les détracteurs pointent par exemple, l’arbitrarité des catégories qui ne sont pas justifiées par des recherches étiologiques en biologie, des mécanismes neuronaux, des transmissions de maladies ou des prédisposi-tions génétiques [Weinberger et al., 2015]. Ces dernières années ont vu naitre de nom-breuses initiatives qui tentent de répondre aux manques et de combler les vides laissés par les catégories descriptives des troubles mentaux établies par l’APA.
Classification Française des Troubles Mentaux de l’Enfant et de l’Adolescent
La Classification Française des Troubles Mentaux de l’Enfant et de l’Adolescent (CFT-MEA) établie sous la direction du Professeur Roger Misès a pour but de pallier certains manques dans le DSM ou la CIM sur les troubles propres à l’enfant ou à l’adolescent [Mi-sès et al., 2012]. La première édition de la CFTMEA a vu le jour dans les années 1980. Elle s’articule autour de deux axes : l’axe I des « catégories cliniques de base », et l’axe II des « facteurs antérieurs, éventuellement étiologiques ». La version de 2012 est alignée sur les codes de la CIM-10 pour faciliter le transcodage des patients. L’originalité de la CFTMEA est son approche classificatoire dimensionnelle inspirée de la psychanalyse. Le patient est un sujet qui possède une certaine structure psychique évolutive. Les diagnostics sont donc une vue de cette organisation qui peut évoluer dans le temps et selon les interven-tions thérapeutiques. La classification est divisée en catégories principales qui « fixent la conduite à tenir et évaluent les risques à long terme » et de catégories complémentaires pour apporter des précisions au diagnostic. La CFTMEA en est actuellement à sa 5ème édi-tion [Misès, 2012].
Le Research Domain Criteria
Le projet Research Domain Criteria (RDoC) a débuté en 2009 sous l’égide de la Na-tional Institute of Mental Health (NIMH) et sous la direction de Bruce Cuthbert. Il est de loin le projet innovant le plus abouti en ce qui concerne la classification dimension-nelle en psychiatrie. Il offre un cadre de recherche pour étudier les maladies mentales sous un nouveau paradigme. Les classifications actuelles peinent à prendre en compte les avancées majeures réalisées dans les domaines de la génétiques, des neurosciences, de la cognition, et des maladies mentales en général depuis les années 1960 [Insel et al., 2010, Weinberger et al., 2015]. RDoC a donc pour ambition l’intégration de ces nouvelles connaissances pour mettre en lumière les fonctionnements de l’ensemble du comporte-ment humain sur un axe allant de la normalité à l’anormalité. En outre, les auteurs de ce projet critiquent l’approche diagnostique actuelle, fondée uniquement sur un ensemble de symptômes. Ils questionnent également la validité de ces diagnostics en l’absence de tests ou de marqueurs biologiques justifiant les catégories descriptives des troubles men-taux [Insel, 2014]. L’objectif affiché dès le début du projet est le développement de nouvelles méthodes pour classifier les troubles mentaux à des fins de recherche [Insel et al., 2010, Morris et Cuthbert, 2012]. RDoC n’est donc pas à l’heure actuelle à considérer comme un nouveau système de classification complet et « prêt à l’emploi » [Cuthbert, 2014]. Morris et Cuth-bert [2012] ajoutent qu’à long terme le projet veut permettre de (1) valider les tâches uti-lisées dans les essais cliniques, (2) identifier de nouvelles cibles pour le développement de traitements, (3) définir des sous-groupes cliniques significatifs en vue de la sélection des traitements, et (4) ouvrir la voie à des changements dans les décisions cliniques. Plus récemment, Insel [2014] et Cuthbert [2015] ont réaffirmé les objectifs du projet : « créer un système de classification expérimentale afin de faire un premier pas vers une mé-decine de précision 12 pour les troubles mentaux » [Cuthbert, 2015] ; « le but ultime de RDoC est la médecine de précision pour la psychiatrie, un système de diagnostic fondé sur une meilleure compréhension des bases biologiques et psychosociales d’un ensemble de troubles. » [Insel, 2014].
Typologie des arborescences ontologiques
Dans le cas d’ontologies sous formes d’arbre, les concepts se placent à un niveau pré-cis de l’arborescence de l’ontologie. Un ensemble de concepts placés au même niveau de la hiérarchie aura un degré conceptuel différent de l’ensemble de concepts modélisés au dessus ou en dessous dans l’arbre. Cette distinction de niveau conceptuel amène à distin-guer différents types d’ontologies. La typologie la plus utilisée dans le domaine distingue trois niveaux dans les ontologies, relatifs à trois degrés d’abstraction : les top-ontologies, les ontologies génériques, les ontologies de domaine et de tâche [Guarino, 1997, Stenz-horn et al., 2007]. Les ontologies de représentation sont également un type particulier d’ontologies, mais elles n’entrent pas dans la catégorisation topologique en degrés d’abs-traction, nous les présentons donc à part.
1. Les top-ontologies : aussi appelées upper-level ontologies ou ontologies fondation-nelles (ce dernier terme ayant l’avantage de décrire le rôle de ces ontologies, et pas seulement la place dans le niveau conceptuel). Elles décrivent des connaissances de haut niveau, modélisent des concepts « généraux » sur le monde tel que le temps, l’espace ou l’action [Guarino, 1997, Stenzhorn et al., 2007]. L’ensemble de ces concepts et leurs relations doivent pouvoir être utilisés dans toutes les disciplines, car l’on-tologie fondationnelle ne contient pas de concept relatif à un domaine particu-lier [Guarino, 1997, Declerck et al., 2012]. BASIC FORMAL ONTOLOGY (BFO) 1 est un exemple de top-ontologie qui est actuellement utilisée par environ 130 ontologies.
2. Les ontologies génériques : aussi appelées core-domain ontologies, top-domain ontologies ou ontologies noyaux. Elles sont le lien entre les top-ontologies et les on-tologies de domaine [Stenzhorn et al., 2007]. Elles contiennent ainsi des concepts généraux relatifs à un domaine. BIOTOP 2 est un exemple d’ontologie noyau, elles regroupent les concepts généraux relatifs au domaine de la biologie. Declerck et al. [2012] mentionnent qu’il peut être difficile de différencier « concepts généraux » et « concepts particuliers » d’un domaine particulier. Les auteurs prennent en exemple une ontologie noyau de la médecine. Elle modélisera les concepts généraux de ma-ladie ou de symptôme, les concepts qui couvrent tous les sous-domaines de la mé-decine. Alors que l’ontologie de domaine modélisera les concepts propres à un sous-domaine de la médecine, telle que la psychiatrie (« schizophrénie » ou «trouble du comportement »).
3. Les ontologies de domaine ou de tâche : nous distinguons les ontologies qui dé-crivent les concepts spécifiques d’un domaine particulier, dans le but de décrire ce domaine (les ontologies de domaine) et les ontologies qui décrivent les concepts utilisés pour réaliser une tâche, dans le but de décrire cette tâche (les ontologies de tâches) [Drame, 2014]. Ces ontologies vont servir les applications [Declerck et al., 2012]. Guarino [1997] les place d’ailleurs toutes deux au même niveau conceptuel. Nous pouvons citer l’ontologie ONTOLURGENCE 3 pour la modélisation des urgences médicales.
4. Les ontologies de représentation : regroupent un ensemble de concepts relatifs aux primitives logiques qui représentent l’ontologie [Charlet et al., 2004]. ONTOLINGUA de Gruber et al. [1993] ou ONTOCLEAN de Guarino et Welty [2009] (cf 4.2.2) sont des exemples d’ontologies dont le but est de décrire d’autres ontologies.
Contexte : le Web Sémantique (WS)
Naissance du Web 2.0
Une discussion sur les ontologies ne saurait se passer d’une présentation du Web Sé-mantique. La naissance des méthodes, standards et technologies misent en œuvre dans la construction d’ontologies a été possible grâce au développement de ce Web 2.0. C’est le W3C 4 qui a formellement défini les objectifs du WS, les langages permettant de les at-teindre et le projet majeur de formatage des connaissances non structurées dans des on-tologies, en vue d’une interopérabilité et d’une interprétation de ces connaissances par un ordinateur. L’idée du WS est formulée par Berners-Lee et al. [2001] et révolutionne le Web de l’hypertexte. Cependant, le WS implique que les connaissances disponibles sur le Web sous la forme de données soient liées entre elles. Et cette étape indispensable peine à se mettre en place. Seulement cinq ans après la proclamation du Web Sémantique, celui ci est renommé Web de Données. Une nouvelle définition est apportée, afin de se concen-trer sur l’interconnexion des données du Web et soutenir le développement de ce projet et des technologies qui en dépendent [Shadbolt et al., 2006]. Un an plus tard, l’un des plus gros projets pour l’interconnexion des données ouvertes et liées (DOL) du Web est lancé entre l’Université libre de Berlin et l’Université de Leipzig, avec en collaboration OpenLink Software, DBPedia 5. Le but de ce projet est de fournir une version structurée et normali-sée en langage du Web Sémantique du contenu de Wikipédia 6. Une version française de DBPédia est réalisée par SémanticPédia 7, une plateforme de collaboration entre le Mi-nistère de la culture et de la communication, l’Inria et Wikimedia France. DBPedia est une ontologie, qui utilise le format de données RDF et contient une couche sémantique sous OWL (voir en section 2.2.2). Par la suite, les gouvernements de différents états vont répondre à l’appel de Tim Berneers Lee les invitant à mettre leurs données publiques à disposition du Web 8. Le projet communautaire du « Linking Open Data » vise donc à pu-blier sur le Web les données ouvertes (les données numériques libres d’accès et d’usage telles que les textes de lois, résultats d’élections, horaires de trains en temps réel, etc) pour ensuite mettre en relation ces données via le formalisme RDF.
Les composants de la modélisation ontologique
Une ontologie est construite à partir de trois composants : les classes qui sont les concepts organisés hiérarchiquement dans l’ontologie, les attributs ou propriétés qui dé-crivent les concepts par le biais de relations et les restrictions qui limitent l’interprétation des attributs [Noy et al., 2001]. Ces composants peuvent être écrits manuellement ou re-présenté dans une ontologie computationnelle en utilisant un langage d’ontologie, dont ceux présentés en section 2.2.2.
Notion de classes et d’instances de classe
Les classes correspondent aux nœuds de l’arbre taxonomique [Noy et al., 2001]. Elles sont la structure hiérarchique conceptuelle de l’ontologie. Une classe permet de regrou-per des ressources qui ont des caractéristiques similaires. Les classes sont associées à une intention, une description sémantique sous la forme de restrictions ou propriétés, et à une extension, l’ensemble des instances qui répondent à l’intention de la classe. Une classe est donc un concept du monde réel, tel que Médecin, Maladie ou encore Patient dont l’intention est : « personne affectée par une maladie ». Et l’extension est l’ensemble des personnes qui répondent à cette définition. Une ontologie peut ne contenir aucun individu, aucune instance, alors qu’elle contient obligatoirement des classes. L’intention d’une classe est donc décrite à travers une liste d’instances, et l’extension par une liste de restriction. Une classe peut être définie quand elle est dérivée d’autres classes ou primi-tive quand elle ne l’est pas. Par exemple, on peut créer une ontologie dans laquelle par relation de subsomption, la classe Humain est définie par l’union des classes primitives Femme et Homme : Humai n µ Femme [ Homme.
La limite entre instance et classe peut sembler parfois un peu floue et se décide prin-cipalement selon le niveau de granularité souhaité dans l’ontologie. En effet, une grippe peut être instance de la classe maladie, mais peut également être une sous classe de la classe maladie, car la grippe se définie elle même par un ensemble de différents virus. Nous insistons donc ici sur le fait que le langage de modélisation oblige lui même à faire des choix préalablement au développement du modèle [Smith et al., 2004].
Notion de propriétés, d’attributs, de rôles
La relation de subsomption (is a) caractérise la hiérarchie taxonomique de classes et sous-classes dans une ontologie. Un « Humain » est un « Être vivant ». La classe « humain » est une sous classe de la classe « Être vivant », donc la classe « Être vivant » subsume la classe « Humain ». Toutes les instances de « Humain » sont aussi instances de « Être vivant ».
La relation de méronymie (est une partie de) est une autre relation couramment modélisée dans une ontologie. Un « organe vital » est une partie du « corps humain ». Dans ce cas les instances de l’un ne sont pas les instances de l’autre, car les deux classes ne partagent pas les mêmes propriétés.
Les relations binaires permettent de lier les classes de deux manières : par une relation qui relie une instance de classe à une donnée (les dataproperties) ou par une relation qui relie deux instances de classe (les objectproperties). Pour cela nous définissons un domaine (sujet) et un co-domaine (objet) à la relation. Si le domaine ou le co-domaine sont défini à l’aide de plusieurs classes, ils deviennent l’intersection des classes.
Ces relations peuvent êtres définies tout comme les classes au travers de quantificateurs pour spécifier la relation entre les classes. Par exemple un patient est définie par le rôle de personne malade : Pat i ent µ Humai n \ 8aPour Mal ad i e.Mal ad i e.
Ce concepts indique que toutes les instances de Humain reliées par la relation aPour-Maladie seront reliées à une instance de la classe Maladie. Cette relation n’est pas définie comme équivalente, car un humain malade n’est pas forcément un patient. Il doit être engagé dans un parcours de soin pour l’être. Nous pouvons ajouter :
Pat i ent · Humai n.
\ (8aPour Mal ad i e.Mal ad i e).
\ (8aPour Sui vi Med i c al .Sui vi Med i c al ).
Ainsi, chaque instance de la classe Humain reliée par la relation aPourMaladie à une instance de la classe maladie et reliée par la relation aPourSuiviMedical à une instance de la classe SuiviMedical sera considéré par le raisonneur comme une instance de la classe Patient.
Les relations permettent de donner du sens au vocabulaire de l’ontologie, composé des classes et de leurs instances. Elles construisent l’interprétation du modèle du do-maine.
Synthèse
Les ontologies sont de puissants outils de modélisation, qui viennent enrichir les SOC, dans le but de répondre à des problématiques d’organisation des connaissances.
Dans ce chapitre, nous avons défini l’ontologie en tant que représentation formelle d’un domaine du monde réel, des entités de ce domaine et des relations entre ces entités. Une ontologie permet de définir un vocabulaire commun et une représentation consen-suelle d’un domaine donné. Les ontologies sont représentées par des graphes porteurs d’informations sémantiques. Elles permettent de partager de l’information aussi bien au niveau humain qu’au niveau machine. Les ontologies ont d’ailleurs été popularisées bien avant l’essor du Web Sémantique, grâce au besoin d’intégration de données de disciplines majeures, telles que la biologie et la médecine dans les années 1990. Aujourd’hui, leur rayonnement et les technologies qui y sont liées font partie intégrante du développe-ment du Web Sémantique. Et des disciplines habituellement laissées à l’écart des nou-velles technologies, telle la psychiatrie, s’intéressent à leur puissance de modélisation, de partage de l’information et de raisonnement.
Nous verrons dans le chapitre suivant les techniques dont nous disposons pour créer, construire, développer des ontologies informatiques.
Engagement sémantique, ontologique et computationnel
Bachimont [2000], dans le cadre du développement de la méthode ARCHONTE (pré-sentée en section 3.2.2) propose une définition originale de la modélisation d’ontologies, caractérisée par trois niveaux d’engagement : sémantique, ontologique et computation-nel.
L’engagement sémantique consiste à définir un certain nombre de primitives de repré-sentation, propres au domaine que nous souhaitons modéliser. Ces primitives sont alors les concepts de l’ontologie, liés à un libellé linguistique de la langue du domaine. Les concepts sont discriminés par le principe différentiel, qui permet de déterminer la signifi-cation d’un concept selon sa position dans l’arbre (relation de subsomption), par identités et différences avec ses voisins (concept parents et concept(s) frère(s)). L’engagement sé-mantique est résumé comme tel par l’auteur : « ensemble de prescriptions interprétatives qu’il faut respecter pour que le libellé fonctionne comme une primitive ». Cette démarche de différenciation des concepts entre eux peut s’apparenter à une analyse sémique telle que décrite en section 1.2.
L’engagement ontologique défini l’extension des concepts, soit les objets qui répondent à la définition sémantique du concept. Il sert à modéliser les instances des concepts, ou les nouveaux concepts qui vont pouvoir être modélisés par intersection de la liste des ins-tances partagées par deux mêmes concepts. L’auteur prend l’exemple suivant : si dans une ontologie nous avons un concept « Acteur » et un concept « Être humain » toutes les ins-tances qui sont à l’intersection de ces concepts sont des « Personne-Acteur ». Ce nouveau concept ne devient pas un concept sémantique répondant au principe de l’engagement sémantique, mais est un concept formel définit par son extension et ses concepts parents. Per sonneAc t eur · Per sonne \ (8aPour Met i er.Ac t eur ).
Ces concepts formels existent grâce à l’engagement ontologique. L’ontologie résul-tante de cet engagement n’a plus la forme d’un arbre, mais la forme d’un treillis.
L’engagement computationnel correspond au niveau axiomatique, c’est à dire au niveau des opérations réalisables sur les concepts. Ces opérations confèrent aux concepts leur sémantique d’un point de vue computationnel, calculatoire. Par exemple : [Etre humain : John Wayne] -> (a_pour_fonction) -> [acteur].
Recommandations à l’attention des ontologues
Aimé et Charlet [2013] analysent les « points critiques » qui peuvent être rencontrés au début du développement collaboratif d’une ontologie. Les auteurs s’intéressent aux on-tologies en tant (1) qu’« objet de la psychologie cognitive », car elles sont la représentation des connaissances mentales consensuelles propres aux individus et en tant (2) « qu’ob-jet de la psychologie sociale », car elles permettent à partir des connaissances partagées par un groupe d’individus, d’établir un consensus autour de la compréhension d’un do-maine. Ils se penchent sur les notions de normalisation et de conformisme qui entrent en œuvre au sein des ontologies. Ils rappellent à cette occasion, l’influence des experts sur le groupe et les individus qui le constitue. L’étude permet alors de poser un certain nombre de recommandations qui viennent compléter les engagements de [Bachimont, 2000] et étayer l’ontologue dans la construction des ontologies.
1. Privilégier l’approche collaborative : chaque personne ayant quelque chose de par-ticulier à apporter au modèle.
2. Avoir un coordinateur-modérateur : pour assurer la gestion du groupe et garantir une modélisation adéquate.
3. Privilégier une approche ontologique de type modulaire : car chaque personne à quelque chose de particulier à apporter selon son domaine d’expertise.
4. Analyser l’écosystème : afin de cerner le fonctionnement du groupe et la représen-tation conceptuelle du domaine propre à chacun.
5. Choisir les experts : une personne reconnue dans son domaine de compétence, voire plusieurs personnes allant du niveau junior au niveau senior afin de faire va-rier le niveau de représentation.
Processus de développement des ontologies
La construction d’ontologies met en jeu différentes étapes qui permettent de transfor-mer des données en modèles ontologiques, qui seront ensuite intégrés dans un système à base de connaissances (SBC).
1. Évaluation des besoins : formulation des besoins liés à l’ontologie et définition de la granularité (que nous avons présenté en introduction de ce manuscrit) : [Noy et al., 2001] rappelle très justement l’importance de répondre aux questions sui-vantes avant d’entamer le processus de modélisation et le développement de l’on-tologie : « Quel domaine va couvrir l’ontologie ? » ; « Dans quel(s) but(s) utiliserons nous l’ontologie ? » ; « À quels types de questions l’ontologie devra-t-elle fournir des réponses ? » ; « Qui va utiliser et maintenir l’ontologie ? ». Ces questions permettent de limiter la portée du modèle, la granularité ou encore d’orienter la conceptualisa-tion. 2. Recueil des connaissances : qui constitueront la base de connaissances à modé-liser. Cette étape est certainement la plus ardue en ingénierie des connaissances, étant donné l’importance des facteurs extérieurs qui conditionnent sa réussite. Tel que le rappel [Schvartz et al., 2007] « la disponibilité de l’expert est cruciale, mais pas toujours assurée ». Au prémisse de l’ingénierie des connaissances, l’acquisition des connaissances était vu comme un transfert de données de la tête d’un expert à un système organisé. Force est de constater avec les difficultés que représente l’ac-quisition des connaissances, qu’il en est tout autre. C’est aussi pour cette raison que de plus en plus de systèmes sont développés pour réaliser cette tâche de manière automatique et indépendante de tout expert [Schreiber et al., 1994, Schvartz et al., 2007]. Ce point est abordé dans les chapitres 5 et 6 de ce manuscrit.
3. Développement du modèle : avec « construction d’un schéma de modèle concep-tuel » et « définition du modèle conceptuel » [Charlet et Bachimont, 1998] : par ap-proche ascendante, descendante ou hybride. Le développement de notre ontologie est décrite au chapitre 5 et au chapitre 6.
4. Validation du modèle : par «implémentation de ce dernier dans une base de connais-sances opérationnelle » [Charlet et Bachimont, 1998]. La validation est également réalisée selon les techniques et méthodes présentées au chapitre 4 . Dans le cadre de notre projet, nous avons développé notre propre méthode de validation d’onto-logies, présentée et expérimentée au chapitre 7 .
Développement du modèle par approche ascendante (bottom-up)
Les méthodes ascendantes se concentrent sur la définition et l’identification de be-soins initiaux, qui guident ensuite l’analyse de données et le développement du modèle conceptuel. Ces méthodes mettent en œuvres des techniques pour le recueil de données, l’extraction d’informations, la fouille de connaissances, ou encore la structuration des données [Charlet et Bachimont, 1998]. Le point central de ces méthodes est l’acquisi-tion des connaissances du domaine, qui seront modélisées dans l’ontologie. Actuellement deux méthodes dominent : l’une s’appuie sur des terminologies existantes, et l’autre sur des outils du Traitement Automatique des Langues (TAL). La figure 3.1 illustre ce chemi-nement qui va du recueil des connaissances expertes aux modèles et structures en réseau.
Méthodes « manuelles »
Les premières méthodes d’aide à la construction d’ontologies qui ont vu le jour à par-tir des année 1990 étaient dites « manuelles ». En opposition aux méthodes qui utilisent des traitements automatiques pour construire tout ou partie de la base de concepts. Elles proposent un processus très détaillé pour guider l’ontologue durant le développement de son ontologie, sans assistance logiciel autre que les éditeurs d’ontologies.
Les logiciels pour l’acquisition automatique de termes à partir de textes
Acquisition de termes via des thésaurus et les outils de balisage et d’extraction associés.
Le méta-thésaurus 3 Unified Medical Language System (UMLS) [Bodenreider, 2004] fournit de nombreuses ressources pour l’extraction de termes médicaux selon des domaines spécialisés. Actuellement, 145 thésaurus 4 sont disponibles dans 20 langues dont l’anglais, le français, l’allemand, le japonais et le russe. En France, différents projets ont été développés tel que l’Unified Medical Lexicon for French (UMLF) [Zweigenbaum et al., 2005], puis InterSTIS [Cartoni et Zweigenbaum, 2010], ou encore le Catalogue et Index des Sites Médicaux de langue Française (CISMeF) [Darmoni et Joubert, 2000]. Ils visent à dé-finir, pour le français, des ressources aussi complètes que celles contenues dans l’UMLS. Ces méthodes s’appuient notamment sur des outils de repérage qui permettent de retrou-ver dans les documents, les termes contenus dans les thésaurus. Ces méthodes sont donc pertinentes lorsqu’on a déjà une idée des concepts que l’on veut extraire de nos docu-ments, et que l’indépendance face à des bases de connaissances pré-existantes n’est pas recherchée.
Acquisition de termes via des extracteurs de termes candidats (ETC)
Cette approche s’appuie sur l’extraction de termes candidats en corpus spécialisés. Les outils développés utilisent principalement des techniques du traitement automa-tique du langage (TAL), telles que les analyses syntaxiques (permettant de reconnaître les phrases correspondant à la syntaxe d’une langue), les annotations morpho-syntaxiques (attribuant à chaque mot d’un texte son étiquette grammaticale), et les méthodes de sta-tistiques linguistiques, afin d’obtenir une liste de termes candidats à valider manuelle-ment. Parmi les outils utilisant ces méthodes, nous pouvons citer BIOmedical Term EX-traction (BioTex) [Lossio-Ventura et al., 2014], Yet Another Term extrActor (Yatea) [Aubin et Hamon, 2006, Hamon, 2012], SYNTEX-UPERY [Bourigault et Lame, 2002], TTC TERM-SUITE [Rocheteau et Daille, 2011] – anciennement ACABIT – ou THERMOSTAT [Drouin, 2003]. Ces méthodes sont à privilégier quand nous n’avons pas d’idée préalable des concepts que nous allons extraire, et que cette recherche ne doit pas être influencée par des bases de connaissances pré-existantes.
BIOTEX a été développé dans le cadre de la thèse de Juan Antonio Lossio Ventura, dans le Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM) 5. Cet outil s’appuie sur la combinaison de méthodes linguistiques et statistiques à l’aide de patrons syntaxiques et de différentes mesures statistiques (LIDF-value, L-value, C-value, Okapi BM25, TFIDF). Ce logiciel est disponible aussi bien pour le français que pour l’an-glais et l’espagnol. L’extraction se fait en plusieurs étapes :
1. Annotation morpho-syntaxique du corpus : l’annotation morpho-syntaxique d’un texte consiste à attribuer à chaque mot une étiquette indiquant sa catégorie gram-maticale (par exemple, verbe, nom, pronom).
2. Extraction des termes candidats : avant l’application de mesures statistiques, Bio-Tex sélectionne les termes correspondants à des patrons linguistiques spécifiques. Ces derniers ont été établis à l’aide de l’observation des plus fréquentes structures syntaxiques des termes biomédicaux issus de l’UMLS (pour l’anglais) et du MeSH (pour le français) [Lossio-Ventura et al., 2013].
3. Classement des termes candidats : selon l’ordre d’adéquation au domaine à l’aide des mesures F-TFIDF-C ou F-OCapi (décrites dans Lossio-Ventura et al. [2014]) et de LIDF-value (décrite dans Lossio-Ventura et al. [2014]). Ces mesures permettent notamment de combiner des valeurs telles que la fréquence inverse de document (idf ) qui permet de mesurer la rareté d’un terme, la distribution des mots dans le corpus, les informations linguistiques et statistiques, entre autres.
4. Calcule des cooccurrences : pour améliorer le classement des termes candidats (plus un mot à de voisins, moins il est considéré comme spécifique, car utilisé dans des contextes généraux). L’originalité de cet outil est donc la combinaison de diffé-rentes mesures statistiques pour classifier les termes extraits avec les patrons syn-taxiques. Le but est de proposer en premier à l’utilisateur les termes les plus perti-nents de son corpus (par exemple, dans le cadre d’un corpus de psychiatrie, le can-didat terme unigramme « émoussement » n’a pas d’intérêt, cependant le candidat terme 3-grammes « émoussement des affectes » est lui pertinent). Une aide à la va-lidation est ensuite proposée en explicitant les termes candidats extraits du corpus qui sont aussi présents dans l’UMLS ou le MeSH-fr.
SYNTEX-UPERY 6 se compose de deux modules. L’analyseur syntaxique SYNTEX crée un ré-seau de dépendances entre les mots et les syntagmes. Chaque syntagme constitue un can-didat terme et est caractérisé par une fréquence d’apparition dans le corpus. UPERY va ensuite permettre de rapprocher les termes du réseau et leurs contextes syntaxiques via des mesures de proximité distributionnelle.
TERMOSTAT 7 à la particularité de s’appuyer sur la mise en opposition d’un corpus spécia-lisé et non spécialisé. Il s’utilise uniquement en ligne et ne garantit donc pas la confiden-tialité des données.
TTC TERMESUITE 8 utilise des corpus bilingues comparables afin d’aligner les termes spé-cialisés.
YATEA 9 a été développé dans le cadre du projet ALVIS 10. Il permet d’identifier des groupes nominaux qui peuvent correspondre à des termes spécialisés d’un corpus. Il fournit une analyse syntaxique dans un fichier xml, sous forme d’une décomposition en tête et modi-fieur. L’extraction des termes est réalisée avec des patrons d’analyse simple. Une désambi-guïsation endogène est réalisée au préalable, puis des mesures de pondération statistique permettent de discriminer les termes candidats. YATEA prend en entrée des données éti-quetées morphologiquement via l’annotateur TREETAGGER 11 pour le français. TREETAG-GER est un étiqueteur morphosyntaxique développé par Helmut Schmid à l’Université de Stuttgart 12 en Allemagne.
Comparaison des extracteurs de termes candidats YATEA et BIOTEX
Au cours de notre étude, nous avons été amenés à utiliser ces deux extracteurs de termes. YATEA dans un premier temps, pour le développement du module des « facteurs sociaux et environnementaux », nous a semblé être la solution adéquate, car nous souhai-tions travailler avec la plateforme TERMINAE. Cependant, cela n’a pas été possible à cause de la taille de notre corpus, qui outrepassait les limites de TERMINAE, ainsi que de YATEA. Nous nous sommes donc tournés vers l’ETC BIOTEX pour le développement du module des « maladies ».
Afin de comparer ces deux logiciels de manière optimale, nous les avons étudiés sur le même corpus et dans le but d’extraire des termes candidats du même domaine. Le cor-pus utilisé est un extrait de notre corpus, composé uniquement de 5 003 mots. Ceci afin de rendre réalisable les divers traitements manuels par une seule personne. Nous avons commencé par réaliser une extraction manuelle des termes relatifs au domaine du médi-cal (trouble, maladie, symptôme et traitement). Nous avons retenu 528 termes (sur 5 003 que compte le corpus test) pouvant faire partie d’une RTO. Nous avons ensuite réalisé l’extraction avec les deux ETC, en précisant pour BIOTEX que nous ne souhaitions pas ex-traire d’unigram, car YATEA ne propose pas l’extraction d’unigram. Ensuite, nous avons compté dans la liste des termes candidats proposés par chacun des extracteurs, le nombre de termes appartenant à la liste des termes validés manuellement. À ce compte, nous avons ajouté les termes candidats dérivés d’un terme validé manuellement. Par exemple, si nous avions validé manuellement : « altération mnésique antérograde » et que l’extrac-teur nous proposait le terme « altération mnésique » nous le comptions en terme candidat valide obtenu par dérivation.
Pour calculer la performance technique des ETC, nous les avons testés sur notre cor-pus comparatif, ainsi que sur la totalité du corpus. Nous constatons la difficulté de traite-ment d’un gros corpus (les corpus de plusieurs Méga-octets et millions de mots). YATEA est en échec, et il faut plusieurs heures à BIOTEX pour arriver au bout de l’analyse. Ce-pendant, les options proposées par BIOTEX à l’attention des gros corpus permettent de réduire ce temps.
Développement du modèle par approche hybride (bottom-up et top-down)
Tel qu’il est dit par Charlet et Bachimont [1998], les méthodes de constructions tendent naturellement vers une des deux approches présentées : soit vers les approches descen-dantes, quand la réutilisation est fortement recherchée ; soit vers les approches ascen-dantes, quand c’est le développement d’un nouveau modèle qui est souhaité. La majo-rité des méthodes sont donc hybrides. En effet, un modèle construit par méthode ascen-dante peut très bien être enrichi avec un modèle existant. Et vice versa, un modèle exis-tant peut permettre d’engager une modélisation. Nous pouvons rappeler en outre que les chercheurs en IC s’accordent à dire que la méthodologie choisie dépend principalement du but visé par la modélisation et des données disponibles pour la construction.
Macao
MACAO est un outil d’acquisition de connaissances développé dans le cadre de la thèse de Aussenac-Gilles [Aussenac-Gilles, 1989, 2005]. L’outil est indépendant de la tâche et du domaine. La méthode est partisane d’une plus grande collaboration entre les ontologues et les experts du domaine, qui devraient prendre part activement au processus de déve-loppement des ontologies de domaine.
Le but de cette méthode est d’extraire les connaissances d’un domaine sans préjugé de l’utilisation que l’ontologue pourra en faire. L’étape 1 permet de survoler l’ensemble du domaine à modéliser, pour en comprendre les enjeux et problématiques. Les étapes 2 et 3 visent à l’obtention de connaissances du domaine, en démarrant la modélisation concep-tuelle. L’étape 2 suit une approche bottom-up, avec le développement d’un premier cadre conceptuel. L’étape 3 suit une approche top-down, dans le but d’affiner le modèle et de le compléter, par le biais de modèles déjà existants. Enfin, la dernière étape vise à l’opéra-tionnalisation de l’ontologie dans un SBC afin de la valider.
ToReuse2Onto
Cette méthode a été développée dans le cadre de la thèse de Drame [2014]. Elle re-prend les bases de la méthodologie TERMINAE, avec une approche multilingue réalisée par un module d’alignement de termes, et la réutilisation de RTO effectuée dès la phase de conceptualisation. TOREUSE2ONTO se décompose en cinq étapes [Drame, 2014] :
1. La constitution du corpus : qui doit répondre aux exigences de couverture du do-maine et d’adéquation aux tâches d’extraction automatique de termes et relations.
2. L’extraction des candidats termes : est réalisée à l’aide de méthodes et outils du TAL développés pour l’acquisition de termes à partir de textes (voir en section 3.2.3).
3. La construction du noyau de l’ontologie : est l’étape de construction de l’arbo-rescence conceptuelle, à partir des termes extraits à l’étape précédente. L’auteur conseille de réaliser cette étape à l’aide de ressources sémantiques existantes. Ces dernières permettent de faire un alignement avec les termes extraits pour cibler les concepts.
4. L’enrichissement de l’ontologie : a pour but l’intégration de nouveaux artefacts, qui peuvent être des concepts ou des relations et les termes associés. Pour l’intégra-tion de nouveaux concepts se sont les dépendances syntaxiques qui sont analysées. Ces dernières permettent d’inférer une relation taxonomique entre deux termes. Par exemple, les termes « schizophrénie », « schizophrénie affective » et « schizophrénie paranoïde » de part leur tête syntagmatique commune ont de forte chance d’être des concepts reliés par une relation taxonomique. Pour trouver de nouveaux termes, il est possible de réaliser un alignement de termes de langues différentes, basé sur des corpus parallèles.
5. La validation et la formalisation de l’ontologie : permet de vérifier et valider l’on-tologie. Cette méthode se fonde sur le savoir des acteurs du domaine modélisé.
Cette méthodologie a été mise en œuvre dans le cadre du développement d’une onto-logie sur la maladie d’Alzheimer [Dramé et al., 2014].
Discussions sur les méthodes de construction d’ontologies
Les méthodologies s’articulent autour de deux axes : ascendant et descendant. Le pre-mier offre un cadre méthodologique pour le développement d’ontologies à partir de don-nées brutes. Que les méthodes ascendantes soient manuelles ou semi-automatisées, elles sont souvent coûteuses et fastidieuses à mettre en œuvre. Elles demandent une interven-tion humaine importante. Les outils qui permettent d’extraire les connaissances automa-tiquement sont venus apporter un soutien pour l’acquisition des connaissances. Toute-fois, ces outils nécessitent des ressources linguistes importantes, dans une langue adapté
à l’outil, ainsi qu’une expertise manuelle complexe des connaissances extraites. On ob-serve également que ces méthodes de construction d’ontologies ont engendré un effa-cement progressif des acteurs du domaine et placé l’ontologue au centre du processus. Cependant, ces acteurs du domaine demeurent les détenteurs de la connaissance ency-clopédique et pratique qui peut faire défaut à l’ontologue. On observe également que ces méthodes automatiques ont permis de développer des ontologies de taille plus impor-tante, entraînant du même coup une plus grande difficulté à assurer une modélisation adéquate et correcte. La validation d’ontologies est par conséquent devenue une problé-matique à part entière de l’ingénierie des connaissances (IC). En parallèle, les approches descendantes offrent des solutions méthodologiques, pour la réutilisation de modèles déjà existants. Ces méthodes présentent de nombreux freins. La réutilisation d’un modèle impose d’en adopter son formalisme et l’incomplétude de ces modèles de base peut, in fine, demander autant d’effort de recueil de connaissances ou d’expertise manuelle, que le développement d’un modèle à partir de données brutes. En outre, ces méthodes ont participé à la naissance d’un intérêt particulier pour le dé-veloppement modulaire, qui permet de s’approprier plus facilement des ontologies déjà existantes.
Enfin, des méthodes plus récentes ont vu le jour, elles proposent l’utilisation de ces deux approches. Ces méthodes hybrides tiennent compte des modèles existants et misent sur leur appropriation et leur enrichissement, par l’ajout de nouvelles connaissances. Se-lon les domaines d’application, ces méthodes peuvent s’avérer très efficaces. Par exemple, en biomédical, les classifications et thésaurus sont très présents et il sont des systèmes 3.6 La modularité ontologique : l’ergonomie au service du développement du modèle.
d’organisation des connaissances déjà validés par la communauté scientifique. De plus, le partage des ontologies biomédicales est facilité par les plateformes dédiées telles que BioPortal 15. Toutefois, des difficultés persistent, notamment concernant les outils d’extraction au-tomatique de connaissances. Ces outils basés sur des techniques linguistiques ou/et de statistiques demandent encore une expertise manuelle très importante. Nous avons expé-rimenté cette contrainte dans nos travaux présentés au chapitre 5. De plus, leur utilisation est contrainte par la langue du corpus. Ensuite, la réutilisation de modèles existants, bien que plus rapide à mettre en œuvre et permettant d’obtenir des résultats plus prévisibles présente aussi des limites. En effet, le choix du modèle de départ contraint fortement l’on-tologie résultante. Nous avons également expérimenté cette contrainte dans nos travaux présentés au chapitre 6.
La modularité ontologique : l’ergonomie au service du développe-ment du modèle
Pour conclure ce chapitre consacré à la construction d’ontologies, nous présentons la modularité ontologique. Elle est une des solutions permettant de gérer efficacement les ontologies : leurs réutilisations, leurs maintenances, leurs personnalisations entre autres. Nous avons nous-mêmes, dès le début de notre projet, choisi une approche modulaire pour modéliser différents sous-domaines propres à la psychiatrie.
|
Table des matières
Introduction
Contexte de recherche et problématiques
Enjeux et objectifs
Contributions à la croisée de plusieurs disciplines
Organisation du manuscrit
I État de l’art
1 L’organisation des connaissances
1.1 Les systèmes d’organisation de la connaissance (SOC)
1.2 L’approche de la sémiologie et de la sémiotique pour la modélisation des connaissances
1.3 Un point sur les classifications utilisées en psychiatrie
1.4 Synthèse
2 Système de représentation ontologique
2.1 L’ontologie informatique
2.2 Contexte : leWeb Sémantique (WS)
2.3 Les composants de lamodélisation ontologique
2.4 Synthèse
3 Construction d’ontologies informatiques
3.1 Engagements méthodologiques des ontologues et recommandations pour la construction d’ontologies
3.2 Développement du modèle par approche ascendante (bottom-up)
3.3 Développement du modèle par approche descendante (top-down)
3.4 Développement du modèle par approche hybride (bottom-up et top-down)
3.5 Discussions sur lesméthodes de construction d’ontologies
3.6 La modularité ontologique : l’ergonomie au service du développement du modèle
3.7 Synthèse
4 L’art de valider une ontologie
4.1 La définition des critères de validation
4.2 Validation de la structure
4.3 Validation de la sémantique
4.4 Synthèse
II Contributions scientifiques théoriques et pratiques
5 Construction du module ontologique « facteurs sociaux et environnementaux des maladies psychiatriques » (OntoPsychiaFSE)
5.1 Choix de ce module
5.2 Présentation du corpus
5.3 Méthode de construction par approche hybride
5.4 Résultats
5.5 Synthèse
6 Construction du module ontologique « maladies psychiatriques »
6.1 Choix du module
6.2 Méthode de construction des deux modules
6.3 Résultats
6.4 Les limites du module d’alignement des classifications
6.5 Synthèse
7 La validation de l’ontologie sur les facteurs sociaux et environnementaux avec la méthode interactive LOVMI
7.1 Validation de la structure de l’ontologie sur les facteurs sociaux et environnementaux
7.2 Validation sémantique de l’ontologie sur les facteurs sociaux et environnementaux
7.3 Proposition de la méthode LOVMI pour la validation d’ontologies
7.4 Synthèse
Conclusion
Bibliographie
Télécharger le rapport complet