Identification des problèmes pour des ontologies construites automatiquement

Les composants de base d’une ontologie

Quelles que soient les définitions, les composants élémentaires d’une ontologie sont les concepts et les relations qui peuvent avoir des instances. Dans cette section introductive, nous complétons la liste de ces composants élémentaires par les axiomes. Mais nous ne les considérons plus dans la suite car dans le domaine de la construction automatique qui nous intéresse ici leur intégration est encore un problème largement ouvert.

Les concepts

Dans le dictionnaire, un concept est défini comme étant une « idée générale et abstraite que se fait l’esprit humain d’un objet de pensée concret ou abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions qu’il en a, et d’en organiser les connaissances ».
Cette notion a été illustrée à l’aide d’un triangle sémiotique (figure 2.1) [25]. Chaque concept est défini par trois aspects :
1. son extension, ou sa définition référentielle : l’ensemble des êtres, objets ou faits auxquels le concept fait référence ;
2. son intension, ou sa définition différentielle : l’abstraction conceptuelle d’un ensemble des caractéristiques essentielles communes aux êtres, objets ou faits auxquels le concept fait référence et qui lui permettent de se différencier des autres concepts ;
3. un ou plusieurs termes, ou étiquettes (labels) : les expressions verbales qui permettent la désignation du concept dans un langage.
Les êtres, objets ou faits qui constituent l’extension d’un concept sont les instances du concept. L’extension d’un concept peut être vide, notamment dans le cas des concepts abstraits comme, par exemple, la « Vérité ». Deux concepts peuvent avoir la même extension mais des intensions différentes. Par exemple, un ensemble composé des deux jeunes { Jean, Paul} peut être l’extension du concept « Etudiant » et du concept « Humain », qui ont des intensions différentes. La plupart des auteurs considèrent que l’intention d’un concept permet à elle seule de définir le sens du concept.
Plusieurs termes peuvent être l’étiquette d’un même concept (par exemple, « four », « fourneau », « fournil »). Un terme peut être l’étiquette de plusieurs concepts (par exemple, le terme « kiwi » peut être l’étiquette du concept « oiseau terrestre incapable de voler, endémique de la Nouvelle-Zélande et appartenant à l’ordre Apterygiformes » mais aussi du concept « fruit de plusieurs espèces de lianes du genre Actinidia »).
Un concept peut être caractérisé par des propriétés valuées, appelées aussi des attributs. Par exemple, le concept « Etudiant » a les attributs « Date de naissance » et « Numéro d’étudiant ». Les attributs peuvent avoir des valeurs différentes pour chacune des instances associées au concept.
Certains auteurs distinguent les concepts « primitifs » des concepts « définis » [87]. Les concepts primitifs, « dont on postule l’existence » [87], sont décrits par des propriétés nécessaires (mais non suffisantes), alors que les concepts définis sont décrits par des propriétés nécessaires et suffisantes.

Les relations

Les relations, appelées aussi « propriétés d’objet » dans le cadre du langage OWL et des « rôles » dans le cadre des langages de la logique de description, décrivent des associations entre deux concepts . Un ou plusieurs termes peuvent être associés à une relation en tant qu’étiquettes, tout comme un ensemble de règles spécifiant les propriétés logiques de la relation (la transitivité, la symétrie, la fonctionnalité, etc.).
La relation taxonomique (ou de subsomption) est un type particulier de relation entre les concepts. Elle est prédéfinie dans tous les langages pour la représentation des ontologies.
C’est une relation transitive, asymétrique et réflexive. Elle définit un ordre partiel entre les concepts de l’ontologie et permet leur organisation dans une hiérarchie avec des héritages multiples.
La relation taxonomique (« is a ») est l’ossature des ontologies. Certaines se réduisent d’ailleurs à cette relation ; on parle alors de « taxonomie ». D’autres intègrent d’autres relations mais dont le rôle structurant reste modeste devant la relation taxonomique. Par exemple, sans rentrer ici dans le débat sur l’association de WordNet à une ontologie, une analyse a montré que la hiérarchie de subsomption (ici définie par les relations d’hyponymie et de hypéronymie) contenait près de 80% des relations (pour un ensemble de plus de 140000 noeuds).

Les axiomes

Les axiomes sont des expressions logiques qui permettent de préciser la signification des concepts et des relations. Les axiomes sont aussi nommés des « connaissances inférentielles » parce qu’ils spécifient des règles de raisonnement qu’un moteur d’inférence peut utiliser pour déduire des nouvelles connaissances. Ils précisent la signification des concepts et des relations en définissant, par exemple, des restrictions sur les valeurs des attributs ou sur les arguments des relations.
Par exemple, les deux relations Amis(Humain, Humain) et Ennemis(Humain, Humain) ont un apport sémantique limité. Mais leurs significations peuvent être précisées à l’aide de trois axiomes : (1) Les amis de mes amis sont mes amis, (2) Les ennemis de mes ennemis sont mes amis et (3) Les ennemis de mes amis sont mes ennemis.

Représentation des ontologies. Le langage OWL

La définition de la notion d’ontologie proposée par Gruber précise que celle-ci est une spécification formelle sans détailler le formalisme qui doit être utilisé pour spécifier les connaissances. Depuis le début de années 1990, une multitude de formalismes (frames, logiques de description, graphes conceptuels) et de langages (RDF, OIL, DAML, OWL) ont été proposés.
En 2004 une première version du langage OWL (Web Ontology Language) a été normalisée par W3C et proposée comme standard pour la représentation des connaissances sur Internet. Trois sous-langages ont été associés, classés par ordre d’expressivité croissante : OWL-Lite, OWL-DL et OWL-Full.
OWL-Lite a été conçu pour permettre la représentation de hiérarchies de concepts avec une expressivité limitée ; par exemple, il ne permet pas de définir des concepts comme l’union d’autres concepts, mais il permet de les définir comme l’intersection d’autres concepts, et les seules contraintes de cardinalité acceptées sont 0 et 1.
OWL-DL (OWL Description Logic) est un surensemble de OWL-LITE conçu pour offrir une expressivité maximale tout en garantissant la complétude du calcul (toutes les inférences sont assurées) et la décidabilité des algorithmes d’inférence. Par exemple, parmi les éléments interdits en OWL-Lite et acceptés en OWL-DL on peut citer les concepts définis comme l’union d’autres concepts, comme une énumération ou comme une négation ou encore les axiomes de disjonction entre concepts.
OWL-FULL offre, en plus d’une expressivité maximale, la liberté syntaxique de RDF (par exemple, le recouvrement de types : un concept peut aussi être une propriété ou un individu, et réciproquement) avec en contrepartie la perte de la garantie de complétude et de décidabilité des inférences.
Toute ontologie OWL-Lite conforme est une ontologie OWL-DL conforme et toute ontologie OWL DL conforme est une ontologie OWL-FULL conforme.
Quelle que soit sa mouture, les éléments les plus importants proposés par le langage OWL sont les classes, les individus et les propriétés. Différents types d’axiomes peuvent être utilisés pour mieux formaliser leur sémantique : disjonction, équivalence, inverse, symétrie, réflexivité, transitivité, etc

NeOn

La méthodologie NeOn [128] a été proposée en 2008 et, à notre connaissance, elle est la plus récente. Elle vise à répondre à un nouveau paradigme apparu dans le développement des ontologies :
– la construction d’ontologies basée sur la réutilisation, la restructuration, la modification et l’adaptation des différentes sources de connaissances déjà existantes (des ontologies ou des patrons pour la conception d’ontologies) ;
– la réutilisation dynamique dans une ontologie des concepts définis dans d’autres ontologies disponibles en ligne. Ce phénomène a conduit à l’apparition des « réseaux d’ontologies » ; ces ontologies sont interconnectées et interdépendantes ;
– le rôle de plus en plus important de la collaboration et de l’argumentation durant la construction des ontologies. Des acteurs géographiquement éloignés, avec des cultures et des objectifs différents peuvent collaborer pour la construction d’une ontologie.
Cette situation contraste avec la manière dont les ontologies étaient développées quand Methontology a été proposée : un groupe restreint d’ingénieurs et d’experts identifie les connaissances qui doivent faire partie de l’ontologie, puis les structure et les formalise pour obtenir une ontologie qui est indépendante des autres.
La méthodologie NeOn a été conçue pour répondre à ce nouveau paradigme et à la diversité des scénarios possibles pour la construction d’une ontologie. C’est une méthodologie complexe qui couvre 59 types d’activités qui, en fonction du scénario de construction envisagé, peuvent faire partie du processus de construction de l’ontologie. La figure 3.6 présente une classification de ces activités.
Une présentation détaillée de la méthodologie NeOn dépasse le cadre de cette thèse. La figure 3.7 résume les points pour lesquels cette méthodologie est novatrice. On peut retenir notamment la proposition de règles très détaillées pour faciliter la création du document contenant les spécifications de l’ontologie à construire, pour la planification des différentes activités et pour la réutilisation de différents types de ressources dans le processus de développement.

Construction semi-automatique d’ontologies

Comme nous l’avons mis en évidence au début de la Section 3.2, le processus de construction d’une ontologie peut être analysé selon au moins deux aspects :
1. du point de vue des activités et des tâches qui le composent.
2. par rapport aux techniques qui sont utilisées pour l’exécution des différentes tâches.
Dans cette section, nous analysons d’abord l’automatisation du processus de construction d’une ontologie par rapport aux activités et aux tâches qui le composent. Dans un deuxième temps, nous présentons les différentes techniques utilisées par les approches pour automatiser les tâches de l’activité de conceptualisation – l’activité centrale du processus de développement. Plus précisément, nous nous intéressons aux techniques pour l’extraction d’éléments.

Le rôle de l’automatisation dans le processus de construction

La présentation de différentes méthodologies dans la section précédente a permis de souligner que le processus de construction d’une ontologie intègre un nombre très important d’activités et de tâches et ce, de l’analyse du problème et de la constitution des spécifications que doit respecter l’ontologie jusqu’à son évaluation et sa maintenance.
La construction automatique des ontologies est encore un domaine récent et, à notre connaissance, aucune des approches qui ont été proposées ne prend en compte l’automatisation de toutes les tâches de toutes les activités du processus de construction. Il existe néanmoins des approches (par exemple, Text2Onto [27]) qui proposent une construction partiellement automatisée, si on leur fournit en entrée les ressources contenant toutes les informationsnécessaires. Nous reviendrons au chapitre 4 sur la qualité de leurs résultats.
Blomqvist, 2009 [13] a regroupé en six activités les 28 tâches et sous-tâches qui, dans son interprétation, doivent être exécutées pour la construction d’une ontologie. Elle a ensuite analysé le nombre d’approches de construction automatique qui proposent l’automatisation des différentes tâches (figure 3.8). Son analyse a montré que des approches automatiques existent pour 19 des 28 tâches, mais que ces approches permettent l’obtention de résultats considérés comme satisfaisants seulement pour 4 des 28 tâches. Elle a notamment mis en évidence qu’il n’existe pas d’approches automatiques pour les tâches qui concernent :
– la constitution des spécifications ;
– l’identification et l’évaluation des ressources qui sont utilisées pour l’apprentissage de l’ontologie ;
– l’extraction d’éléments complexes comme les axiomes et la hiérarchisation qui peuvent exister entre les relations sémantiques ;
– l’utilisation des connaissances de base sur l’objectif de l’ontologie : la résolution des conflits qui peuvent apparaître lors de la composition de l’ontologie ; la restructuration de l’ontologie ; l’ajustement du niveau d’abstraction ; le nettoyage et l’ajout de connaissances manquantes dans l’ontologie.

Approches de construction automatique

Dans cette section nous présentons synthétiquement sept approches de construction (semi) automatique associés à des outils logiciels opérationnels : Terminae, TextToOnto / Text2Onto, Sprat, Asium, OntoLearn, OntoGen et OntoLT.

Terminae

L’approche Terminae [6, 7] (figure 3.9) propose un outil logiciel qui assiste l’utilisateur dans la construction de l’ontologie en s’appuyant sur les résultats des outils de traitement automatique des langues (extracteur de termes, analyseur syntaxique, détecteur de synonymie, etc.). Lors de la conceptualisation, l’utilisateur identifie et structure manuellement les éléments constitutifs de l’ontologie (concepts, relations, instances) à partir des éléments linguistiques (termes, relations lexicales et syntaxiques) extraits automatiquement à partir du corpus.
L’utilisateur associe d’abord des « termino-concepts » à chaque terme extrait à partir du corpus. Ensuite, il structure manuellement les termino-concepts en un « réseau terminoontologique ». Dans la dernière étape, le réseau termino-ontologique est formalisé en une ontologie. Pendant la construction Terminae maintient une traçabilité entre les concepts de l’ontologie en cours de construction et le corpus (dans la figure 3.1 les lignes pointilléesindiquent la traçabilité).

Text-To-Onto et Text2Onto

L’approche Text2Onto [27] a repris et enrichi une approche précédente, nommée Text-ToOnto [79, 82]. L’outil logiciel associé à l’approche Text-To-Onto propose des modules pour l’extraction de concepts, d’instances, de relations taxonomiques et d’autres relations sémantiques. Chaque module permet de choisir parmi plusieurs algorithmes qui implémentent des techniques différentes. Les concepts sont identifiés soit à l’aide d’une technique statistique (les termes ayant une fréquence d’apparition dans le texte supérieure à un seuil sont considérés comme des concepts), soit à l’aide d’une technique linguistique grâce à un extracteur de termes intégré. Les instances sont identifiées à l’aide de techniques linguistiques et de patronsprédéfinis. L’utilisateur peut valider manuellement les concepts et les instances extraits.
Deux algorithmes sont proposés pour l’identification des relations taxonomiques. Le premier utilise une technique distributionnelle : l’analyse de concepts formels (ACF). Le deuxième algorithme combine l’utilisation de patrons prédéfinis, de ressources externes (WordNet) et d’heuristiques exploitant la structure des termes. Les relations non taxonomiques sont extraites à l’aide de patrons prédéfinis ou par un algorithme classique d’extraction de règles d’association (dans ce dernier cas, le nom des relations doit être précisé manuellement).
L’outil associé à l’approche Text2Onto (figure 3.10) a proposé quelques nouveaux algorithmes et a repris une partie de ceux diponibles dans Text-To-Onto. Il apporte en plus la possibilité de combiner les résultats des différents algorithmes proposés pour la même tâche (par exemple, on peut utiliser en même temps tous les algorithmes pour l’extraction de relations taxonomiques) et une nouvelle architecture centrée sur l’évolution de l’ontologie construite en fonction de l’évolution du corpus. Text2Onto utilise l’architecture GATE pour l’analyse des textes.
Pour l’extraction des concepts Text2Onto propose un seul algorithme, basé sur une technique linguistique. Il permet le calcul d’une mesure de confiance entre 0 et 1 pour les concepts extraits. Cette mesure combine différents scores statistiques, en fonction du choix de l’utilisateur : la TF-IDF, l’entropie, etc. Pour l’extraction des relations taxonomiques Text2Onto propose trois algorithmes : un premier basé sur des patrons d’extraction « à la Hearst », un deuxième basé sur WordNet et un troisième qui utilise une technique structurelle basée sur 36 Construction d’ontologies : des approches manuelles ` a la construction automatique
Figure 3.10: L’outil associé à l’approche Text2Onto. l’inclusion syntaxique des termes. Text2Onto propose aussi un algorithme basé sur une technique linguistique pour l’extraction d’instances et un algorithme basé sur des patrons pour l’identification des relations « instance-of ».
Les éléments extraits par les différents algorithmes sont combinés automatiquement et le résultat peut être exporté sur la forme d’une ontologie OWL. L’utilisateur peut accepter ou rejeter les résultats obtenus par les différents algorithmes, mais il ne peut pas les modifier ourevenir aux parties du corpus dont ils sont issus.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Remerciements
Table des matières
Table des figures
Liste des tableaux
1 Introduction
1.1 De nouveaux besoins en ingénierie des ontologies
1.2 Une motivation liée à un contexte applicatif
1.3 Contributions de la thèse
1.4 L’organisation du manuscrit
2 Les ontologies en ingénierie des connaissances
2.1 Introduction
2.2 Des données aux connaissances
2.3 Des connaissances aux ontologies
2.4 Les composants de base d’une ontologie
2.4.1 Les concepts
2.4.2 Les relations
2.4.3 Les axiomes
2.5 Représentation des ontologies. Le langage OWL
2.6 Définitions formelles
2.6.1 Définition d’une ontologie en tant que structure composée
2.6.2 Définition de l’ontologie en tant que conceptualisation
2.6.2.1 Qu’est-ce qu’une conceptualisation ?
2.6.2.2 Qu’est-ce qu’une spécification formelle et explicite d’une conceptualisation ?
2.7 Conclusion
3 Construction d’ontologies : des approches manuelles à la construction automatique
3.1 Introduction
3.2 Méthodologies de construction d’ontologies
3.2.1 Methontology
3.2.2 On-To-Knowledge
3.2.3 DILIGENT
3.2.4 NeOn
3.3 Construction semi-automatique d’ontologies
3.3.1 Le rôle de l’automatisation dans le processus de construction
3.3.2 Approches pour l’extraction et la composition d’éléments significatifs à partir du texte
3.3.2.1 Extraction de termes et formation de concepts
3.3.2.2 Classification des termes et extraction de relations de subsomption
3.3.3 Approches de construction automatique
3.3.3.1 Terminae
3.3.3.2 Text-To-Onto et Text2Onto
3.3.3.3 Sprat
3.3.3.4 Asium
3.3.3.5 OntoLearn
3.3.3.6 OntoGen
3.3.3.7 OntoLT
3.4 Conclusion
4 Comparaison d’outils logiciels de construction automatique
4.1 Introduction
4.2 Critères d’analyse et de comparaison
4.2.1 Etat de l’art
4.2.2 Limitations des travaux existants
4.2.3 Notre proposition
4.2.3.1 Comparaison basée sur le degré de complétude et d’automatisation
4.2.3.2 Comparaison basée sur les caractéristiques des outils
4.2.3.3 Comparaison basée sur la qualité des résultats
4.2.3.4 Schéma d’analyse pour la comparaison des approches
4.3 Analyse comparative de quatre approches
4.3.1 Comparaison par rapport au référentiel de tâches
4.3.2 Comparaison technique
4.3.3 Comparaisons expérimentales
4.3.3.1 La configuration utilisée
4.3.3.2 Analyse des resultats – concepts et instances
4.3.3.3 Analyse des resultats – relations taxonomiques
4.3.3.4 Analyse des resultats – autres aspects
4.4 Conclusion
5 L’évaluation de la qualité des ontologies
5.1 Introduction
5.2 Etat de l’art
5.2.1 L’évaluation de la qualité des ontologies
5.2.1.1 Les modèles de qualité
5.2.1.1.1 Modèles de qualité inspirés d’autres domaines
5.2.1.1.2 Modèles de qualité basés sur la dialectique
5.2.1.1.3 Modèles de qualité associés à des définitions de la notion d’ontologie
5.2.1.1.4 Le modèle de qualité oQual
5.2.1.2 Les méthodes d’évaluation
5.2.1.2.1 L’évaluation de la dimension structurelle
5.2.1.2.2 L’évaluation de la dimension fonctionnelle
5.2.1.2.3 L’évaluation de la dimension d’utilisabilité
5.2.2 Problèmes affectant la qualité d’une ontologie
5.2.2.1 Les erreurs de taxonomie
5.2.2.2 Les anomalies de conception
5.2.2.3 Les anti-patrons
5.2.2.4 Les embûches
5.2.2.4.1 Positionnement par rapport aux dimensions de l’ontologie
5.2.2.4.2 Positionnement par rapport à la typologie des erreurs de taxonomie
5.2.2.5 Les défauts logiques
5.3 Vers une typologie des problèmes
5.3.1 Cadre formel
5.3.1.1 Les dimensions du cadre formel
5.3.1.1.1 Erreurs et situations indésirables
5.3.1.1.2 Aspect logique et aspect social
5.3.2 Proposition d’une typologie
5.3.2.1 Problèmes qui affectent l’aspect logique des ontologies
5.3.2.1.1 Erreurs logiques
5.3.2.1.2 Situations indésirables logiques
5.3.2.2 Problèmes qui affectent l’aspect social des ontologies
5.3.2.2.1 Erreurs sociales
5.3.2.2.2 Situations indésirables sociales
5.4 Positionnement des problèmes de l’état de l’art dans le cadre formel
5.5 Conclusion
6 Identification des problèmes pour des ontologies construites automatiquement
6.1 Introduction
6.2 Compromis d’implémentation associés aux problèmes de qualité
6.2.1 Retour sur l’implémentation des tâches du processus de construction
6.2.2 Origine des problèmes
6.2.3 Discussion
6.3 Retours d’expériences du cadre applicatif
6.3.1 Cadre expérimental
6.3.2 Problèmes identifiés
6.3.3 Discussion
6.4 Conclusion
7 Vers la détection automatique des problèmes
7.1 Introduction
7.2 Méthodes pour la détection des problèmes de qualité
7.2.1 La détection des problèmes affectant l’aspect logique des ontologies
7.2.1.1 Les problèmes intrinsèques
7.2.1.1.1 Inconsistance logique (L1) et Insatisfiabilité (L10)
7.2.1.1.2 Eléments de l’ontologie équivalents (L6), indifférenciables (L7) ou correspondant à un ET (L8) ou un OU (L9)
7.2.1.1.3 Complexité élevée des inférences (L11)
7.2.1.1.4 Ontologie non minimale (L12)
7.2.1.2 Les problèmes extrinsèques
7.2.2 La détection des problèmes affectant l’aspect social des ontologies
7.3 La détection des problèmes S8 – concepts ayant une étiquette polysémique
7.3.1 Un rapide état de l’art
7.3.2 Un nouvel algorithme pour la détection d’étiquettes polysémiques dans les ontologies construites par Text2Onto
7.3.3 Expérimentation : détection manuelle vs. détection automatique
7.3.4 Discussion : avantages et inconvénients de l’algorithme proposé
7.4 Conclusion
8 Conclusion Générale et Perspectives
A Les définitions des problèmes de qualité de l’état de l’art
A.1 Les embûches
A.2 Les anti-patrons
A.2.1 Les anti-patrons logiques
A.2.2 Les anti-patrons cognitifs
A.2.3 Les conseils
B Extrait du code OWL décrivant l’ontologie construite manuellement
Bibliographie
Liste de publications