Contexte général
Les applications de TALN à l’analyse des textes de spécialité nécessitent constamment de nouvelles méthodes d’analyse sémantique et de construction terminoontologique. L’analyse sémantique est nécessaire pour l’extraction des termes et des structures sémantiques en vue d’annotation sémantique, de traduction automatique, de résumé automatique des textes mais aussi, et c’est à ce titre que nous l’évoquons, l’acquisition permanente des connaissances en vue d’amélioration d’une ressource de connaissance. La désambiguïsation du sens, l’identification des relations sémantiques et des rôles prédicatifs (ex. agent, patient, instrument, lieu etc), la définition de la structure qualia d’un terme, l’identification des traces de concept dans les textes (explicitation des concepts), la détection des événements peuvent être cités parmi les tâches d’analyse sémantique généraliste. C’est ainsi, de façon large, qu’elle sera entendue dans le présent manuscrit. La construction termino-ontologique est traditionnellement considérée comme une tâche longue et très coûteuse car elle est souvent conduite manuellement par une groupe d’experts dans une démarche descendante, en partant des concepts les plus génériques d’un domaine de spécialité et en spécifiant ces concepts. Le consensus entre les experts est à la base de cette démarche. Ainsi, le maintien et l’augmentation de même que le passage d’une langue à l’autre comme cas particulier de l’augmentation constituent des barrières importantes quant à l’interopérabilité des ressources termino-ontologiques de spécialité. Simultanément, dans un domaine de spécialité tel que la nutrition ou la gastronomie, un socle commun de connaissances partagées par plusieurs traditions gastronomiques et reflété sur le plan linguistique peut être aisément pressenti. Une méthode d’aide à la construction termino-ontologique est alors souhaitée afin de faciliter cette démarche et la gestion de granularité entre différentes langues dans le cadre multilingue de spécialité. La construction d’une ressource multilingue pouvant servir de support à la construction termino-ontologique implique l’intégration des données existantes. Incontestablement, les textes en langue naturelle sont une source très abondante de données de spécialité. De même, sachant que leur intérêt dépend du domaine de spécialité, doivent être considérées d’une part les ressources lexicales et, d’autre part, les ressources terminologiques et ontologiques préexistantes. De son côté, l’architecture de la ressource multilingue doit permettre l’augmentation permanente à la fois en circuit ouvert à savoir par intégration des ressources et par analyse sémantique et en circuit fermé soit par des méthodes endogènes de peuplement telles que l’inférence (création de nouveaux éléments à partir des éléments déjà présents dans la ressource) ou d’intégrer la ressource .
Définition 1.3
Quelques définitions des ressources issues de l’approche à la structuration des connaissances basées sur la logique :
(1) Ontologie
1. une conceptualisation d’un domaine à laquelle un ou plusieurs vocabulaires peuvent être associés. Définie avec un objectif donné, une ontologie exprime un point de vue partagé par une communauté donnée. Une ontologie est représentée dans un langage dont la sémantique permet de garantir les propriétés de celle-ci en termes de consensus, cohérence, partage et réutilisation (d’après Roche [2003]) ;
2. une spécification explicite d’une conceptualisation (d’après Gruber [1995])
(2) Terminologie (d’après ISO-1087-1 a) :
1. ensemble des désignations appartenant à une langue de spécialité ;
2. science étudiant la structure, la formation, le développement, l’usage et la gestion des terminologies
(3) Ontoterminologie : terminologie dont le système conceptuel est une ontologie formelle (d’après Roche [2007]) b.
(3) Graphe conceptuel : graphe fini, connecté, non orienté et bipartite dont les nœuds du premier type sont appelés « concepts » et les nœuds du deuxième type sont appelés « relations conceptuelles » (d’après Sowa [1976]).
a. https://edisciplinas.usp.br/pluginfile.php/312608/mod_resource/ content/1/ISO_1087-1_2000_PDF_version_\%28en_fr\%29_CPDF.pdf
b. http://ontoterminology.com/
Ce type d’approche est à l’origine de la construction des ontologies, terminoontologies, terminologies, qui s’inscrivent dans le cadre d’une approche « normative de la communication et de l’échange d’information » comme remarqué par Roche [2007]. Avec ces deux approches, l’approche intuitive semble s’opposer à une approche normative. Outre le modèle et la sémantique de ses composants, la différence entre ces deux familles d’approches réside également dans la façon de concevoir l’optimisation d’accès aux informations contenues dans la ressource. Cette optimisation concerne le coût de l’inférence d’un objet implicite par rapport au coût de la recherche d’un objet explicitement représenté (relation, objet lexical, concept etc.). Les ressources ontologiques explicitent uniquement les propriétés essentielles des objets, les informations pouvant être obtenues par raisonnement ne sont pas explicitement représentées. Les ressources qui traduisent les différents paradigmes de modélisation issues de l’intelligence artificielle peuvent contenir des informations redondantes (par exemple, toutes les formes de surface d’un terme, ses synonymes, ses variantes). Ainsi, lors du parcours de ces ressources, ces objets sont directement accessibles. Le socle commun pour ces deux groupes approches à la structuration de la connaissance inclut le langage naturel dont le référentiel est utilisé par toutes les approches ainsi que la connaissance générale sur le monde qui sous-tend toute modélisation d’un domaine de spécialité.
Consolidation
Si l’augmentation correspond à l’ajout de nouveaux éléments dans la ressource, la consolidation est l’ensemble des méthodes endogènes destinées à produire de nouveaux éléments à partir des éléments déjà présents dans une ressource langagière. Aucune donnée extérieure n’est utilisée. Il s’agit des mécanismes de raisonnement, des mécanismes discursifs (comportant des médiations soit des ensembles de prémisses). Dans le cadre du présent travail, il s’agit d’inférence des relations sémantiques ainsi que de méta-informations (annotations). L’inférence consiste à créer (inférer) de nouveaux éléments à partir des informations et structures déjà présentes dans une ressource. Dans le cadre de notre approche, les informations pré-existantes sont de termes et leurs relations présentes dans le réseau. Les structures qui nous intéresseront particulièrement sont les termes jugés similaires et leurs relations d’une part et les termes identifiés comme polysémiques et leur arbres d’usages (sens d’usage), d’autre part.
Ressources multilingues contributives et leur structuration en format de données liées
Les ressources contributives multilingues telles que Wikipedia et Wiktionnary qui utilisent un format non interopérable (format wiki 15 qui nécessite d’être décodé). Le format fait objet d’une recommandation. Ainsi, une perte d’information due à l’inconsistance de format est inévitable lors de l’extraction des informations depuis les pages Wikipedia vers les formats structurées adaptés au traitement automatique, notamment traitement automatique des langues. Wikipedia est une encyclopédie collaborative qui couvre aujourd’hui plus de 250 langues pour lesquelles elle est d’une richesse variable. Les éditions les plus importantes contiennent plusieurs millions d’articles. Ainsi, Wikipedia est une ressource très utilisée en tant que source de données non structurées (utilisation en tant que corpus), de données structurées (extraction des taxonomies à partir des catégories Wikipedia), extraction des terminologies etc. DBpedia (Bizer et al. [2007]) est une ontologie OWL qui contient les données Wikipedia compatibles avec ce format. Cette ressource est le fruit du projet communautaire et universitaire qui vise à extraire et exploiter les données contenues dans Wikipedia en les rendant ainsi accessibles au traitement automatique grâce à l’utilisation des standards du Web Sémantique. Wiktionnary est un dictionnaire collaboratif. Des particularités de format sont parfois introduites dans les recommandations fournies aux contributeurs des différente éditions. DBNary (Sérasset [2012]) est une extraction depuis Wiktionnary dans un format d’ontologie RDF en utilisant le vocabulaire OntoLex-Lemon (McCrae et al. [2017]). Il s’agit d’une ressource interopérable avec d’autres ressources qui utilisent le même format. DBNary utilise également des extensions. Un travail sur la désambiguïsation et l’alignement par sens basé sur les gloses a été effectué par Tchechmedjiev [2016]. FreeBase (Bollacker et al. [2008]) est une base de connaissances construite de façon collaborative grâce à un moteur de structuration de connaissance efficace. FreeBase a été récupéré par Google, c’est une base de connaissance structurée utilisée notamment dans le cadre de création de KnowledgeVault.
RLSMPI en tant que ressource multilingue
Les problématiques de construction du RLSMPI se rapprochent des problématiques d’alignement entre plusieurs ressources lexicales en langues différentes. En effet, compte tenu de la quantité importante des ressources pré-existantes, la ressource multilingue est amenée à en intégrer un certain nombre. Par conséquent, le choix de l’architecture pour la construction d’une ressource lexico-sémantique multilingue de spécialité repose sur le choix qui pourrait être fait pour l’alignement des ressources lexicales susceptibles d’être intégrées partiellement ou totalement dans celle-ci. Il s’agit de l’une des deux approches suivantes:
— architecture par transfert. Ce type d’architecture résulte de l’alignement des ressources deux par deux, les liens de correspondance sont ainsi des liens de correspondance directs ;
— architecture par pivot, c’est-à-dire une architecture qui va « mettre en relation les éléments équivalents venant des différentes ressources à aligner » . « Un pivot est une généralisation sur les représentations sémantiques des éléments alignés issus des différentes ressources » (Witt et al. [2009]).
Tchechmedjiev [2016] fournit une analyse détaillée de ces deux familles d’approches à l’alignement des ressources. Le choix a été fait en faveur d’une architecture avec pivot interlingue afin de se doter d’une structure qui, à terme, permettra de contourner le problème de contraste en termes de granularité (existence ou absence de certains sens). Pour éviter les difficultés inhérentes à la construction d’un pivot artificiel dont notamment la nécessité aligner N sens simultanément, le pivot interlingue du RLSMPI est amorcé à la manière d’un pivot naturel (en utilisant l’édition anglais de DBNary comme ensemble de données d’amorçage). Le pivot évolue ensuite vers un pivot interlingue de façon incrémentale. Certains sens présents dans le pivot se retrouvent fusionnés, d’autres émergent à partir des structures observées dans les partitions de la ressource.
|
Table des matières
1 Contexte et problématiques
1.1 Contexte général
1.2 Interopérabilité des ressources
1.3 Domaine de l’alimentation comme contexte applicatif
1.4 Mécanismes de construction des ressources de connaissance
1.4.1 Intégration
1.4.2 Augmentation
1.4.3 Consolidation
1.4.4 Alignement
1.5 Ressources existantes
1.5.1 Ressources de connaissances pour la recherche d’information sur le Web fondées sur les entités
1.5.2 Ressources multilingues contributives et leur structuration en format de données liées
1.5.3 Ressources interlingues
1.5.4 Construction experte
1.5.5 Ressources spécialisées liées à l’alimentation
1.6 Discussion
2 Construction de la ressource multilingue
2.1 Ressources de référence
2.2 Architecture du RLSMPI
2.2.1 RLSMPI en tant que graphe
2.2.2 RLSMPI en tant que ressource multilingue
2.3 Construction du RLSMPI
2.3.1 Remarques préliminaires
2.3.2 A propos de l’intégration des ressources existantes guidée par le corpus de spécialité
2.3.3 Corpus utilisés et méthode d’amorçage
2.3.4 Extraction des termes
2.3.5 Extraction des relations
2.3.6 Intégration des ressources pré-existantes dans le RLSMPI en cours de construction
2.3.7 Augmentation
2.4 Consolidation du RLSMPI
2.4.1 Remontée – descente et inférence translingue des relations sémantiques
2.4.2 Inférence des raffinements et alignement
2.5 État du RLSMPI
2.6 Discussion
2.7 Conclusion du chapitre
3 Exploitation du réseau lexico-sémantique multilingue pour la construction termino-ontologique
3.1 Outils existants de construction d’ontologie
3.2 Synthèse de la méthode proposée
3.3 Immersion
3.4 Découverte des éléments remarquables par inférence
3.4.1 Principe de l’abduction
3.5 Découverte des éléments de type « classe » et « individu »
3.6 Découverte des éléments remarquables de type « propriété d’ontologie »
3.7 Discussion
4 Évaluation de la ressource multilingue
4.1 Évaluation quantitative
4.2 Évaluation qualitative : problématiques et exemples
4.2.1 Analyse sémantique des instructions de cuisine
4.2.2 Détection des incompatibilités plat-régime
4.2.3 Pré-validation translingue des contributions en attente (relations sémantiques)
5 Vers un système semi-automatique de construction terminoontologique
5.1 Présentation de la termino-ontologie SensoMIAM
5.2 Enrichissement et construction ontologique
5.2.1 Enrichissement
5.2.2 Conceptualiser à partir d’une ébauche d’ontologie en utilisant un RLS
5.3 Système exploitant RLSMPI en tant que système multi-agent (SMA)
5.4 Aide à la construction ontologique (ACO) : un outil d’assistance
5.5 Analyse des résultats et discussion
A Fonctions et Algorithmes
A.1 Fonctions
A.1.1 Fonctions de base
A.2 Algorithmes
A.2.1 Inférence des raffinements glosés
A.2.2 Découverte des éléments remarquables de type « classe d’ontologie »
B Glossaire
B.1 Définitions
B.2 Synthèse des schémas d’inférence utilisés et envisageables
B.2.1 Déduction
B.2.2 Induction
B.2.3 Abduction
B.2.4 Inférence par raffinement et inférence interlingue
Télécharger le rapport complet