Construction d’ontologie à partir des textes techniques

Télécharger le fichier pdf d’un mémoire de fin d’études

Le point de vue de la linguistique

La Linguistique est concernée par la question des ontologies dans la mesure où les données dont on dispose pour élaborer les ontologies consistent en des expressions linguistiques de connaissances. La caractérisation du sens de ces expressions conduit à déterminer des signifiés contextuels, dépendants des contextes (documents) où les expressions apparaissent. Ces signifiés contextuels doivent alors être normés, ce qui revient à fixer une signification pour un contexte de référence, celui de la tâche (application) pour laquelle l’ontologie est élaborée [Aussenac-Gilles2002]. L’ontologie régionale (non universelle) que l’on obtient est ainsi une spécification de signifiés normée.

De point de vue du Sciences Naturelles et Taxinomie

La science a toujours eu pour premier but de repérer et classifier les objets du monde pour les comprendre, comprendre leur fonctionnement et leur genèse. La recherche s’est systématisée en sciences naturelles, d’abord en botanique et ensuite pour tout le règne animal. Les classifications ainsi construites sont des taxinomies. Elles comportent la classification elle-même et les critères d’icelle. Sa définition rend compte de cette nature.
Taxinomie (déf. 1) : Étude théorique des bases, lois, règles, principes, d’une classification.
Taxinomie (déf. 2) : Classification d’éléments (Le Petit Robert).

LES CARACTERISTIQUES DES ONTOLOGIES

Les ontologies à trois caractéristiques nous permettent de préciser ce qu’on peut représenter avec une ontologie :
4.1 Les propriétés. Une ontologie est non seulement le repérage et la classification des concepts mais c’est aussi des caractéristiques qui leur sont attachées et qu’on appelle ici des propriétés. Ces propriétés pouvant être values. Par exemple un patient a un âge qui a une certaine valeur ou est soigné par tel médecin.
4.2 Le type d’ontologie. Les méthodes en Ingénierie des connaissances ont répertorié plusieurs types d’ontologie liés à l’ensemble des objets conceptualisés et manipulés au sein d’un SBC. Nous allons en citer quelques-unes : on a (1) l’ontologie du domaine (cf. § 5.1), (2) l’ontologie générique ou qui se veut comme telle et qui repère et organise les concepts les plus abstraits du domaine ou autre (cf. § 5.2), (3) l’ontologie d’une méthode de résolution de problème où le rôle joué par chaque concept dans le raisonnement est rendu explicite (p. ex. signe ou syndrome dans le cadre du raisonnement médical) (cf. § 5.3), (4) l’ontologie d’application qui se veut une double spécialisation : d’une ontologie du domaine et d’une ontologie de méthode (cf. § 5.4), enfin (5) l’ontologie de représentation qui repère et organise les primitives de la théorie logique permettant de représenter l’ontologie (cf. § 5.5) (p. ex. la frame ontology d’ONTOLINGUA [Gruber 1993])).
4.3 Les liens reliant les concepts. La relation de subsomption is-a qui définit un lien de généralisation – i.e. hyperonymie – est la plus utilisées dans les ontologies et ce depuis Aristote. Mais ce n’est pas la seule possible et, surtout, pas la plus utile dans certains cas. On peut avoir besoin de relations de partie-tout ou méronymie. Ce type de conceptualisation est, par exemple, indispensable en anatomie médicale où il est nécessaire de décrire des organes ou des systèmes et ce qui les compose.
6.4 Interface Homme-Machine : la visualisation de l’ontologie permet à l’utilisateur de comprendre le vocabulaire utilisé par le SI et de mieux formuler ses requêtes.
6.5 L’indexation et la recherche d’information : Plus récemment, les travaux autour du Web sémantique (§ 6.7) ont réactivé la problématique et l’utilisation des ontologies : en plus d’un rôle de médiateur, les ontologies y sont utilisées pour l’indexation, fournissant les index conceptuels décrivant les ressources sur le Web. Ce type d’usage, ressortissant comme certains points précédents à la communication entre être humain et machines, pose la question de l’accès et la compréhension de l’ontologie. une ontologie linguistique peut permettre de comprendre les requêtes (représentation du contenu) de l’utilisateur formulé en langue naturelle.
6.6 Les ontologies dans les systèmes à base de connaissances : La première et originelle utilité d’une ontologie était liée à une volonté de réutilisation. Plus précisément, on peut dire qu’elle sert de squelette à la représentation des connaissances du domaine dans la mesure où elle décrit les objets, leurs propriétés et la façon dont elles peuvent se combiner pour constituer des connaissances du domaine complètes. La principale application des ontologies reste la gestion de données au niveau connaissance. De nombreux projets plus ou moins opérationnels existent dans différents domaines. On peut par exemple citer le projet MENELAS, et qui vise la gestion des rapports médicaux et leur analyse par un système utilisant le modèle des graphes conceptuels. Les graphes, qui représentent les connaissances médicales incluses dans les rapports, sont générés à partir des textes et stockés dans une structure ad-hoc. L’utilisation de mécanismes de raisonnement adaptés permet alors la consultation interactive de la connaissance, le système disposant des moyens d’aiguiller la recherche de l’utilisateur par des questions et/ou des propositions. D’autres projets, tournés vers la gestion des mémoires d’entreprise, sont actuellement en cours. Le projet TOVE (TORONTO VIRTUAL ENTERPRISE) a pour but de créer un modèle d’entreprise exprimé dans une ontologie, permettant à un système utilisant cette ontologie de gérer les connaissances liées à l’organisation et aux activités des entreprises. Le projet COMMA [Fabien, 2002], vise également à permettre la gestion d’une mémoire partagée des connaissances à l’intérieur d’une entreprise. Les scénarios auxquels le système doit pouvoir s’appliquer sont l’apport d’information à un nouvel employé et le support au processus de veille technologique. L’utilisation d’ontologies au sein de systèmes offrant de réelles possibilités de raisonnement est encore peu développé, du fait que les langages de représentation sont encore peu outillés à ce niveau. Certains projets ont cependant été lancés, comme le projet GINA (Géométrie Interactive et NAturelle). Le but de ce projet est de développer un système de conception assistée par ordinateur qui soit interactif et dialogue avec l’utilisateur au niveau connaissance. Ce dialogue peut servir à l’analyse de la scène en cours de conception, le système pouvant répondre à des questions du type « y a t-il des droites parallèles à telle droite ? ». Le système doit également pouvoir détecter les erreurs de conception commises par l’utilisateur et lui suggérer des modifications. Le projet GINA nécessite donc la construction d’une ontologie de la géométrie, incluant les connaissances de raisonnement, c’est-à-dire les axiomes de la géométrie. L’ontologie de l’axiomatique de la géométrie projective a déjà été représentée à l’aide du modèle des graphes conceptuels et validée par son utilisation dans un système de preuve automatique de théorèmes [Fürst, 2002].

LA CONSTRUCTION D’ONTOLOGIE A PARTIR DES TEXTES

De nombreuses méthodes de construction d’ontologies sont orientées sur des problèmes de cycle de vie de l’ontologie vue comme un logiciel (voir chapitre 1 § 7.1). Elles sont basées sur des bons principes mais ne proposent pas de réelle méthodologie. À l’inverse, la méthodologie proposée par B. BACHIMONT est linguistiquement et épistémologiquement fondée [BACHIMONT, 2000] et c’est elle que nous allons décrire dans cette partie. A titre d’information, cette méthodologie a été élaborée à la suite du projet MENELAS et de la construction de son ontologie. D’autres méthodes fondées sur des principes proches ont été élaborées au sein du groupe TIA. Ne voulant pas développer une comparaison de ces méthodes, nous renvoyons le lecteur à, par exemple, [Aussenac-Gilles 2000].
La première question qui se pose pour développer une méthodologie de construction d’ontologies, est le matériau de départ : nous avons développé au chap. 2, § 1 que l’Ingénierie des connaissances avait souvent recours aux textes comme matériel de base pour élaborer ses artefacts. Ensuite, il y a le matériau d’arrivée, ici une ontologie formelle qui doit servir dans un SBC. La question est alors de caractériser le passage d’une connaissance exprimée sous forme linguistique à une connaissance formalisée.
L’art et la manière sont proposés par B. BACHIMONT dans la méthodologie qui suit.

Constitution du corpus

A partir de la description des besoins, il s’agit de choisir des textes de façon à couvrir complètement le domaine requis par l’application. Le choix nécessite une bonne connaissance du domaine autant que des textes eux-mêmes, afin de caractériser leur type et d’évaluer leur couverture du domaine. Ce choix n’est pas le seul fait du cogniticien, qui doit s’appuyer sur les connaissances d’experts et d’utilisateurs. Un glossaire sur le domaine peut être utile pour déterminer les sous-domaines à explorer et vérifier qu’ils sont tous couverts [Aussenac-Gilles2000]. Le corpus est ensuite préparé pour être traité informatiquement si besoin. Une évaluation du contenu du corpus permet de mieux en juger la pertinence et peut conduire à le modifier.

Notion de corpus

Définition : En linguistique, un corpus désigne l’ensemble des énoncés de la langue qui sont pris en compte et analysés lors d’une étude donnée.
Avec la mise sur support informatique des documents, on parle de plus en plus de corpus en ingénierie documentaire, enextraction ou en recherche d’information. Un corpus est alors un ensemble de documents exploités avec un objectif particulier. De ce fait, il est en général construit pour cet objectif.
Dans le cas de l’acquisition de connaissances à partir de texte, les corpus sont choisis de manière à couvrir le domaine d’application, à fournir des connaissances pertinentes pour l’objectif fixé et à avoir une taille adaptée à un traitement outillé mais en partie manuel.

Caractéristiques d’un corpus

La plupart des corpus utilisés pour la construction d’ontologies d’entreprises s’appuient sur la documentation technique de l’entreprise (institut, usine, etc.), sur le contenu de bases de données semi-structurées, sur des retranscriptions d’entretiens ou encore sur des rapports internes, des fiches de retour d’expérience ou autres documents produits par l’entreprise. Il peut aussi s’agir de textes didactiques, de documents de communication interne ou externe (commerciale), de spécifications techniques, de normes, de comptes rendus d’expériences, d’articles scientifiques… Les documents d’un corpus sont caractérisés par leur auteur, leur date de production, leur style, leur taille, leur support, leurs destinataires, leur contenu, etc. Il est important de connaître ces éléments au moment de choisir d’ajouter ou non un document au corpus.
Un corpus est homogène lorsqu’il contient des documents ayant plusieurs de ces caractéristiques communes (même type de contenu ou produits lors de la même activité, etc.), hétérogène sinon [Aussenac-Gilles 2000].

Corpus / application / domaine

Finalement, constituer le corpus, c’est trouver un compromis entre des facteurs contradictoires
• Couverture la plus large possible du domaine
• Couverture la plus fine, précise du domaine
• Adéquation avec l’application
• Homogénéité et cohérence des documents (au moins par sous-ensembles)
• Volume raisonnable
• Adéquation aux traitements informatiques
• Disponibilité des documents.

La démarche de constitution

Tâches

La constitution du corpus suppose plusieurs tâches étroitement liées et effectuées de manière cyclique jusqu’à parvenir à un état stable et satisfaisant du corpus :
• choisir des documents représentatifs du domaine étudié et/ou adaptés à l’application ciblée ;
• les mettre au format informatique adéquat ;
• décider de la manière de les traiter ;
• Évaluer ces documents, leur qualité et leur apport potentiel au modèle à construire.

Choisir des documents

Il s’agit de rechercher parmi les documents disponibles, si possibles sur support informatique, les mieux adaptés à l’application. Il faut ensuite constituer à partir de là un ou plusieurs ensembles cohérents, assez homogènes et qui répondent au compromis entre représentativité (sujet, genre textuel) et taille.
Le choix de la langue des documents engage celui de la langue dans le modèle final. Aujourd’hui, il est coûteux de constituer d’un premier jet des ontologies multilingues. Il n’est pas commode de travailler des documents de langues différentes pour alimenter l’ontologie. On préfèrera alors procéder en plusieurs temps, langue par langue.

Décider de la manière de les traiter

Nous venons de souligner que, pour traiter correctement les documents et savoir quelle valeur donner aux connaissances qu’ils contiennent, comment les structurer, etc., il est fondamental d’identifier des groupes homogènes, par type de document, de sujet ou de production.
Mais alors se pose la question de savoir si chaque groupe de documents va être traité séparément, et fournir une sorte d’ontologie locale, ou bien si on va chercher uniquement les points communs aux différents groupes, pour ne faire qu’une seule ontologie commune. Cela dépend encore de l’objectif de l’ontologie, si elle doit servir de modèle unificateur, de vecteur de cohérence, ou bien si elle doit aussi rendre compte des divergences de points de vue et tracer des ponts entre eux.

Mettre des documents au format informatique adéquat

Cette phase, purement technique, peut s’avérer délicate. Il s’agit de scanner les documents sur papier, de récupérer des champs textes dans des bases de données et de toute manière de ramener des formats plus ou moins complexes à des formats ASCII, tout en se donnant les moyens de pouvoir retrouver le document dont est issue une phrase.
Cette phase suppose un travail minutieux de vérification de la qualité des résultats obtenus. Des caractères parasites peuvent avoir un effet très négatif sur les résultats des outils de TAL ou même les empêcher de bien fonctionner (par exemple, textes tout en majuscules).

Evaluer le corpus

Un des moyens de repérer des erreurs dans le corpus et d’en évaluer le contenu est d’observer les premiers résultats produits par les logiciels d’analyse.
Le corpus textuel construit représente la source privilégiée des connaissances qui permettra de caractériser les notions utiles à la modélisation ontologique. Pour ce faire, on utilise des outils terminologiques pour commencer à modéliser le domaine. Ces outils, pour la plupart, reposent sur la recherche de formes syntaxiques particulières manifestant les notions recherchées comme des syntagmes nominaux pour des candidats termes, des relations syntaxiques marqueurs de relations sémantiques, ou des proximités d’usage – ex. contextes partagés – pour des regroupements de notions. Ils font ce qu’on appelle de l’extraction terminologique et permettent d’obtenir des signifiés linguistiques avec une organisation plus ou moins structurées, souvent sous forme de réseaux.

Acquisition des termes

Pour répondre à certaines préoccupations de l’ingénierie des ontologies, cette partie présente une approche d’aide à l’acquisition de connaissances à partir de corpus d’un domaine donné. Plus précisément, il s’agit d’une approche qui permet la recherche de termes à partir de textes d’un domaine donné pour l’aide à l’acquisition de concepts liés à ce domaine. Le but est de proposer un état de l’art dans le domaine de l’acquisition des connaissances, plus particulier dans le domaine de l’acquisition des termes à partir des textes techniques.
Il existe deux méthodes pour l’acquisition des termes à partir des textes, soit l’acquisition se fait de manière manuelle ou se fait de manière automatique ou semi-automatique.

Acquisition manuelle des termes

Acquérir des connaissances manuellement à partir de corpus de texte s’avère une tâche compliquée et coûteuse en temps. Certain auteur ( voir, [OUESLATI 1999]) a tenté par exemple d’encoder des règles englobant à la fois des connaissances lexicales et sémantiques afin d’extraire manuellement des connaissances du domaine. Ces règles manuelles sont souvent incomplètes et s’appliquent difficilement à un domaine nouveau. De plus, la maintenance de ces règles devient plus difficile dès que leur nombre croit.
C’est en partie en réponse à ces inconvénients, et dans le but de rendre l’analyse de corpus le plus possible automatique, plusieurs méthodes ont été conçues.

Acquisition automatique des termes

La disponibilité croissante de données sous forme numérique, permet de traiter de grandes masses d’information textuelle. C’est pourquoi des outils de traitement de corpus sont de plus en plus disponibles. Ils permettent d’effectuer des tâches allant du simple repérage de contextes (ex. les concordanciers : Ces sont des outils qui aident à afficher la liste des cont-extes d’un mot ou d’un groupe de mots dans un corpus, en permettant souvent la prise en compte de formes fléchies et des opérateurs de restriction de la recherche de contextes.) jusqu’aux traitements les plus complexes comme par exemple l’extraction de terminologies.
Pour ce faire, certaines méthodes consistent par exemple en l’examen au moyen de calculs linguistiques ou statistiques des unités linguistiques constituants le corpus afin de les organiser et de les représenter sous une forme exploitable.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

 INTRODUCTION
Chapitre 1 : Définition, construction et utilisation des ontologies
1. INTRODUCTION
2. DONNEE, INFORMATION ET CONNAISSANCE
3. QU’EST-CE QU’UNE ONTOLOGIE ?
3.1 Le point de vue de l’ingénierie des connaissances
3.2 Le point de vue de l’Ontologie
3.3 Le point de vue de la linguistique
3.4 De point de vue du Sciences Naturelles et Taxinomie
4. LES CARACTERISTIQUES DES ONTOLOGIES
4.1 Les propriétés
4.2 Le type d’ontologie
4.3 Les liens reliant les concepts
5. CLASSIFICATION DES ONTOLOGIES
5.1 L’ontologie du domaine
5.2 L’ontologie générique
5.3 L’ontologie d’une méthode de résolution de problème
5.4 L’ontologie d’application
5.5 L’ontologie de représentation
6. À QUOI SERT UNE ONTOLOGIE ?
6.1 Communication
6.2 L’aide à la spécification de systèmes
6.3 L’interopérabilité
6.4 Interface Homme-Machine
6.5 L’indexation et la recherche d’information
6.6 Les ontologies dans les systèmes à base de connaissances
6.7 Le Web sémantique
7. LA METHODOLOGIE DE LA CONSTRUCTION 24
7.1 Le cycle de vie des ontologies
7.2 Les méthodologies de construction d’ontologies
7.2.1 L’évaluation des besoins
7.2.2 La conceptualisation
7.2.3 L’ontologisation
7.2.4 L’opérationnalisation
7.3 L’évaluation et l’évolution d’une ontologie
7.4 La fusion d’ontologies
8. LES OUTILS DE CONSTRUCTION D’ONTOLOGIES
8.1 Exemples
8.1.1 OCML : un langage facilitant l’opérationnalisation des ontologies
8.1.2 DEFONTO : un langage permettant l’expression de méta-connaissances..
8.1.3 OIL : un langage pour échanger des ontologies sur le Web
8.2 Bilan
9. CONCLUSION
Chapitre 2 : Construction d’ontologie à partir des textes techniques
1. INTRODUCTION
2. METHODES DE LA CONSTRUCTION D’ONTOLOGIE
2.1 Les anciens projets
2.2 Une méthode inspiré de l’IC
2.3 Apport méthodologique de l’Ontologie
3. LA CONSTRUCTION D’ONTOLOGIE A PARTIR DES TEXTES
3.1 Constitution du corpus
3.1.1 Notion de corpus
3.1.2 Caractéristiques d’un corpus
3.1.3 Corpus / application / domaine
3.1.4 La démarche de constitution
3.2 Acquisition des termes
3.2.2 Acquisition manuelle des termes
3.2.3 Acquisition automatique des termes
3.2.3.1 Modèles mécaniques
3.2.3.2 Modèles linguistiques
3.2.3.3 Modèles statistiques
3.2.3.4 Modèles hybrides
3.3 Normalisation sémantique
3.4 L’engagement ontologique
3.5 L’opérationnalisation
3.6 Les relations
3.7 Quelques bons principes
4. LE PROJET TERMINAE
5. CONCLUSION
Chapitre 3 : Notre méthode de la construction d’ontologie
1. INTRODUCTION
2. LES ASPECTS THEORIQUES DE NOTRE MODELES
2.1 Le textes scientifiques ou techniques
2.2 L’analyse distributionnelle
2.2.1 Les travaux de Harris
2.3 Un terme
2.3.1 Un aspect linguistique
2.3.2 L’aspect sémantique et conceptuel du terme
3. NOTRE METHODE d’AIDE DE LA CONSTRUCTION D’ONTOLOGIE
3.2 Extraction de termes
3.2.1 Le prétraitement de corpus
3.2.2 Extraction de terme
3.2.3 Décomposition et structuration des termes
3.2.4 Validation
3.3 Normalisation
3.3.1 Principe générale
3.3.2 La classification
1.3.3 Construction de la première version de l’ontologie
1.3.4 Raffinement itératif de l’ontologie
4. APPLICATION A L’EXPANSION DE LA REQUETE UTILISATEUR
4.1 Mise en œuvre de logiciel
4.2 Validation
CONCLUSION ET PERSPECTIVES
Annexe
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *