Construction d’ontologies à partir de textes

Les ontologies, structures de connaissances dont l’idée remonte à Aristote, représentent un moyen d’expression, de partage, de mutualisation et de réutilisation des connaissances. Elles sont idéalement utilisables à la fois par les machines et par les humains. Une définition communément acceptée d’une ontologie est celle proposée par (Studer et al., 1998) : Une ontologie est une spécification formelle d’une conceptualisation d’un domaine, partagée par un groupe de personnes, qui est établie selon un certain point de vue imposé par l’application construite. Pratiquement, une ontologie est constituée d’un ensemble de concepts organisés à l’aide de relations hiérarchiques et spécialisées. Des axiomes, des règles et des instances peuvent parfois venir la compléter.

L’utilité des ontologies est maintenant reconnue, notamment au sein de la mouvance du web sémantique. Toutefois, leur élaboration reste une tâche fastidieuse et complexe qui requiert à la fois une expertise du domaine que l’on souhaite modéliser et des connaissances en modélisation. L’ingénierie des connaissances (IC) est la discipline qui étudie cette problématique. Elle propose des méthodologies d’élaboration des ontologies qui les englobent depuis la spécification des besoins jusqu’à la maintenance, c’est le cycle de vie d’une ontologie.

Le cycle de vie d’une ontologie détermine dans quel ordre les étapes de développement d’une ontologie doivent être effectuées. La Methontology (Fernandez-López et Juristo, 1997) est une formalisation de ce processus, mais il en existe d’autres, notamment pour (Cimiano et al., 2006). Ces méthodologies proposent une vue d’ensemble, mais ne sont pas très détaillées sur le processus de conceptualisation. C’est à ce processus que nous nous intéressons ici. Cette phase de conceptualisation représente la pierre angulaire du développement des ontologies: privées de celle-ci toutes les autres étapes deviennent caduques. Nous appelons conceptualisation l’identification des concepts clés d’un domaine et l’explicitation de leurs caractéristiques.

Cette phase de conceptualisation nécessite une interaction soutenue avec les experts du domaine, qui ne sont pas toujours disponibles. Une piste pour diminuer le travail de l’expert consiste à utiliser conjointement une autre source de connaissances, que sont les textes. Le recours aux textes est légitimé par l’idée qu’ils sont porteurs de connaissances stabilisées et partagées par des communautés de pratiques. Même s’ils ne les remplacent pas totalement, les textes sont plus facilement disponibles que les experts qui manquent de temps pour participer au processus de modélisation. Un autre avantage d’utiliser les textes pour la construction d’ontologies est qu’ils permettent d’y inclure des informations linguistiques. Ces informations vont faciliter l’utilisation de l’ontologie dans des systèmes qui travaillent sur les textes, par exemple dans les tâches d’extraction d’informations. En revanche, le fait que les connaissances soient inscrites dans les textes peut donner une vision déformée du domaine à modéliser.

Tout l’enjeu de la construction d’ontologies à partir de textes consiste donc à exploiter au mieux les éléments fournis par ceux-ci, tout en s’affranchissant de leur empreinte linguistique et discursive pour élaborer un modèle conceptuel. C’est le défi que cette thèse cherche à relever.

Ce travail s’inscrit dans la tradition héritée du groupe TIA (Terminologie et Intelligence Artificielle) qui s’est intéressé au rôle de la terminologie dans le processus de modélisation des connaissances. L’utilisation des textes pour la construction d’ontologies est étudiée depuis une quinzaine d’années au sein du LIPN, qui a créé la notion d’« ingénierie des connaissances textuelles (ICT  ) ». Ce domaine de recherches vise à combiner des méthodes de traitement automatique des langues (TAL) avec des stratégies de modélisation issues de l’IC. La méthode Terminae a été conçue dans ce contexte pour formaliser le passage des textes à une ontologie via une approche terminologique (Biebow et Szulman, 1999; Aussenac-Gilles et al., 2008). Un nouvel essor a été donné à ce courant de recherches par le projet Dafoe (Szulman et al., 2009) de développement de plateforme de construction d’ontologies de grande taille.

L’une des difficultés de cette approche terminologique, que ce soit dans l’outil Terminae ou dans Dafoe, est la masse de données terminologiques à analyser. Ce travail reste essentiellement manuel. Nous proposons dans cette thèse d’étudier comment des méthodes de regroupement, issues de l’apprentissage, permettraient d’outiller Terminae. Nous nous focalisons sur une approche symbolique, l’Analyse de Concepts Formels (ACF). Cette approche propose une formalisation de la notion de concept dans une structure de treillis. Des travaux antérieurs (Cimiano et al., 2005) avaient montré, en effet, que cette approche propose des regroupements plus pertinents dans une perspective ontologique que des méthodes concurrentes. Nous avons développé une méthode qui exploite à la fois les connaissances terminologiques traditionnelles de Terminae et l’approche ACF initialement proposée sur les mots. Les expériences que nous avons menées mettent cependant en évidence un certain nombre de difficultés. La méthode paraît extrêmement sensible à la nature du corpus d’acquisition utilisé. La taille du treillis obtenu en sortie rend difficile son exploitation. Enfin, la transformation du treillis en ontologie soulève des problèmes d’interprétation non négligeables. Nous avons proposé plusieurs manières de prendre en compte les données textuelles dans l’ACF, adaptées à différents types de corpus, et des guides d’interprétation du treillis en ontologie.

La thèse est structurée, de façon assez classique, en deux parties. La première présente un état de l’art de la construction d’ontologies à partir de textes (COT), structuré en trois chapitres. Dans le premier chapitre, nous définissons la notion d’ontologie au travers d’un survol historique et nous étudions les éléments remarquables des textes qui peuvent aider à leur construction.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction 
I La Construction d’Ontologies à partir de Textes (COT) 
2 Des textes et des ontologies
3 Des textes à l’ontologie
4 Analyse de Concepts Formels (ACF)
II L’ACF pour outiller la construction d’ontologies à partir de textes 
5 Premières expérimentations, des problèmes
6 Propositions
7 Nouvelles expérimentations, vers un treillis de meilleure qualité
8 Questions d’évaluation
9 Conclusions et perspectives
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *