Comment réduire l’effort humain nécessaire à la conceptualisation ?
Parallèlement à cette tendance, des ressources textuelles (corpus) et des ressources de connaissance structurées sous différentes formes sont devenues relativement abondantes notamment lorsqu’il s’agit de la connaissance générale : WordNet (Fellbaum [1998]), FrameNet (Ruppenhofer et al. [2006]), ConceptNet (Speer and Havasi [2012]), RezoJDM (Lafourcade [2007]). C’est également le cas de certains domaines de spécialité : biologie, médecine. En ce qui concerne les ressources lexicales, un phénomène de concentration autour de quelques modèles saillants s’est produit. Ainsi, pour les ressources lexico-sémantiques monolingues, il est possible de distinguer les architectures basées sur les synsets, sur les raffinements et les fonctions lexicales, sur les frames.
Interopérabilité des ressources
La conception des ressources interopérables est le fil rouge de l’ingénierie de connaissances moderne. L’interopérabilité des ressources implique que l’on puisse connecter entre elles des ressources possiblement issues de formalismes différents en se basant sur un ensemble de principes formels de conversion. Lorsqu’il s’agit des ressources langagières, l’interopérabilité sous-entend de façon implicite l’existence d’une sémantique du monde indépendante d’une langue donnée et de toute structure lexicale, grammaticale ou syntaxique prédéfinie et que cette sémantique puisse être encodée de manière consensuelle.
Exemple 1.1
< wikicat_Norwegian_ballet_dancers >
rdfs:subClassOf < wordnet_ballet_dancer_109834699 >
rdfs:subClassOf < wordnet_dancer_109989502 > a.
a. exemple cité d’après Rebele et al. [2016] : Formaliser les relations sémantiques de manière consensuelle (Princenton WordNet Fellbaum [1998]) permet de concevoir les ressources interopérables monolingues et multilingues qui peuvent suivre et étendre le même formalisme (Russian WordNet, Loukachevitch [2016], Open Multilingual WordNet, Bond and Foster [2013]) et être liées à des ressources qui suivent un modèle différent. Ainsi, dans YAGO (Suchanek et al. [2007]) les feuilles de l’arbre des catégories de Wikipedia sont liés à des ensembles de synonymes de PWN (exemple 1.1).
Définition 1.1 : Interopérabilité est la capacité que plusieurs systèmes ou ressources puissent communiquer et opérer ensemble sans ambiguïté, sans conflit de système ou de format de contenu. De façon intuitive, la distinction entre l’interopérabilité de format, de modèle et de contenu peut être aisément perçue. L’interprétation de cette problématique faite dans le cadre des expérimentations concrètes relève à la fois de la nature de la ressource conçue ou rendue interopérable et des objectifs d’ordre applicatif visés. Premièrement, s’impose l’interopérabilité de format. Ainsi, de nombreux travaux ont été et continuent à être menés sur différents aspects des formats basés sur le format XML et utilisés, par exemple, dans le cadre de construction terminologique. Le développement des standards et des formats ouverts tels que ontolex concerne les ressources lexicales et l’ancrage linguistique des ressources ontologiques. Ainsi, ontolex étend le format owl afin de permettre de détailler la lexicalisation des concepts d’ontologie. De façon similaire, SKOS est le format de référence pour les terminologies, les taxonomies ainsi que les autres ressources portées par un schéma informel. Les travaux sur l’interopérabilité de format concernent également les ressources langagières semi-structurées telles que corpus annotés car l’interopérabilité des annotations relève en grande partie de celle du format utilisé pour les encoder. Elle implique aussi l’interopérabilité conceptuelle (vocabulaire partagé). Les formats de référence pour l’annotation des corpus ont été proposés dans le cadre du Modèle Ouvert d’Annotation des Données (Open Annotation Data Model) , NLP Interchange Format (NIF), Extremely Annotational RDF Markup (EARMARK). Deuxièmement, il est possible de considérer l’interopérabilité de modèle soit l’interopérabilité représentationnelle, d’après la définition proposée par Witt et al. [2009]. Les modèles de deux ressources de connaissance peuvent être interopérables
— « par conception » (deux modèles définis de façon indépendante livrent une représentation de connaissance similaire) ;
— « par référence » (deux modèles A et B sont similaires car B intègre A partiellement ou totalement) ;
— « par interconnexion » (deux modèles dont les structures peuvent différer mais les éléments sont connectées via les faisceaux de (hyper)liens).
L’interopérabilité par référence à un modèle pré-existant est de plus en plus fréquente notamment par nécessité de limiter les coûts de construction et de mise à jour de ces ressources de connaissance et, en particulier, des ressources langagières. La figure 1.1 donne un aperçu partiel de l’interopérabilité par intégration ou par référence des principales ressources de connaissance utilisés actuellement. Les ressources comme YAGO (Suchanek et al. [2007]) sont absents de ce diagramme car leur conception et leur mise à jour se basent sur l’utilisation des données semi-structurées (Wikipedia) que l’on peut trouver sur le web, leur modèle est conditionné par les données largement disponibles. À titre d’exemple, sur le plan représentationnel, toute ressource basée sur les associations lexicales est interopérable avec la ressource RezoJDM, Lafourcade [2007]. Cette ressource est interopérable avec BabelNet (et al. [2012]), DBNary (Sérasset [2014]) etc. par interconnexion. Troisièmement, vient l’interopérabilité de contenu. À ce niveau surgissent de nombreuses problématiques car le terme « contenu » englobe à la fois la sémantique des composants (le contenu formel) et la sémantique des données contenues dans telle ou telle ressource. À ce titre, les ressources langagières, notamment lexico-sémantiques bien que présentant quelques similarités de modèle ou de format avec les ontologies, ne sont pas nécessairement interopérables en termes de sémantique des composants car les relations de base telles que la relation d’hyperonymie peuvent ne pas vérifier les mêmes contraintes formelles dans ces deux types de ressources. L’effort de construction du Web Sémantique traduit la volonté de peupler le Web avec le contenu qui possède une sémantique formelle. Ceci donne aux agents automatiques la possibilité de raisonner à propos du contenu du Web et produire une réponse intelligente face aux situations non rencontrées précédemment. Le partage des données ouvertes induit la nécessité de connecter et rendre interopérables les ressources exprimées en langues différentes. Les données peuvent diverger ostensiblement selon la langue des ressources, leur qualité de peuplement et leur couverture de même que la qualité d’alignement entre les différentes langues dans le cadre des ressources multilingues. L’intégration des ressources existantes apparaît comme le moyen courant permettant de garantir l’interopérabilité de contenu des ressources langagières. Ainsi, les ressources comme ConceptNet (Speer and Havasi [2012]) ou BabelNet (et al. [2012]) intègrent WordNet (Fellbaum [1998]). Dans le contexte industriel, l’intégration totale ou partielle des ressources existantes est fréquemment choisie. Pour des ressources ontologiques, il est souvent impossible d’intégrer directement une ressource langagière pour des raisons formelles. Par conséquent l’amélioration d’interopérabilité termino-ontologique passe par l’enrichissement des ontologies existantes notamment par introduction de nouvelles langues ou par la mise en réseau des ontologies. Cet enrichissement d’ontologie est un processus long et coûteux car, traditionnellement, il requiert la participation des experts et peut difficilement être automatisé.
Mécanismes de construction des ressources de connaissance
Intégration L’intégration est un ensemble de méthodes pour l’identification et l’inclusion des données structurées issues des ressources existantes dans une ressource structurée en cours de construction. Dans un contexte industriel de construction d’une ressource de connaissance, l’optimisation des coûts est importante. L’identification des ressources pouvant être intégrées peut alors s’appuyer sur leur disponibilité, leur couverture et leur structure. Selon les langues, les ressources peuvent être plus ou moins abondantes, elles peuvent couvrir un domaine de spécialité de façon plus ou moins satisfaisante. Outre ces aspects liés à la richesse des ressources en ce qui concerne la quantité et la qualité de données qu’elles offrent, l’expressivité, la granularité, la couverture ainsi que la méthode de construction semblent être les critères de décision quant à l’intégration d’une ressource préexistante. De manière générale, les ressources peuvent être structurées ou non structurées. Dans le contexte multilingue, la connaissance partagée peut trouver son expression à travers les textes de spécialité qui sont des exemples des ressources non structurées. Ces ressources nécessitent des mécanismes d’extraction terminologique et ne sont pas pertinentes pour les processus de l’intégration mais pour celui de l’augmentation (section 1.4.2). Les ressources structurées varient en fonction de plusieurs ensembles de critères :
— expressivité. Les types de liens présents dans les ressources structurées (ex. synonymie, hyperonymie etc.) déterminent l’expressivité de la ressource. Ces types de liens sont déterminés par le modèle formel choisi pour une ressource donnée ;
— couverture. La couverture d’une ressource structurée est déterminée par sa construction (langues concernées) et par son contexte applicatif (domaine de spécialité particulier, usager précis i.e. lexicographe, traducteur etc.) ;
— granularité. Taxonomique ou sémantique, la granularité correspond au degré de détail local par rapport à un critère global (distinction des sens d’usage, profondeur d’une taxonomie).
En termes d’expressivité, les différents types de ressources pouvant être intégrées se répartissent comme représenté sur le tableau 1.2 et sur la figure 1.3. En faisant le rapprochement avec le spectre d’ontologies détaillé notamment par Lassila and McGuinness [2001] qui définit une série de spécifications possibles d’ontologie comme représenté sur la figure 1.4, nous pouvons avancer qu’il existe une corrélation entre l’expressivité et la précision formelle du modèle de représentation des connaissances. En termes de couverture, les ressources se subdivisent d’une part en ressources de connaissance générale et ressources de spécialité et, d’autre part, en ressources monolingues et multilingues. La plupart des ressources disponibles sont des ressources de spécialité monolingues. Ainsi, le nombre de ressources pouvant être qualifiées de « générales », de « multilingues » et de « générales et multilingues » est relativement restreint. Deux phénomènes peuvent être constatés : la redondance et l’asymétrie de couverture langagière des ressources existantes. De nombreuses ressources de connaissance s’appuient sur les mêmes ressources de connaissance telles que Wikipedia (Wikidata, DBNary), Wiktionnary (DBNary), GeoNames et WordNet. Par conséquent, l’intersection entre les ensembles de données contenues dans ces ressources peut être importante. En termes de granularité, il est important de distinguer la granularité des composants et la granularité des données. La granularité des composants est liée au choix du modèle qui permet de structurer la connaissance. Par exemple, dans le cadre du réseau lexico-sémantique RezoJDM (Lafourcade [2011]), 138 types de relations (arcs) sont distingués 8 , les arcs sont orientés, pondérés et peuvent se voir associer une méta-information qui précise ou contextualise la relation (appelée annotation). Dans le cadre du réseau ConceptNet, 37 types de liens ont été modélisés , l’information de direction est absente, les arcs sont pondérés. Pour une ressource langagière, la granularité correspond principalement à la distinction des différents sens au sein des différentes langues telle qu’elle observée. Ainsi, le terme anglais stew correspond à la fois à une préparation de type ragoût et à une préparation de type pot-au-feu. De même, le terme français légume peut couvrir à la fois legume (légumineuse) et vegetable (légume au sens plus large) en anglais. Même si légumineuse existe en français, il s’agit d’un terme plus spécialisé. Dans une certaine mesure, la granularité peut s’exprimer au niveau des relations sémantiques, notamment dans le cas des lieux typiques et des quantificateurs.
Augmentation : L’augmentation d’une ressource langagière est entendue dans le présent manuscrit comme un ensemble de méthodes d’ajout de données extérieures (peuplement exogène) de la ressource. Contrairement à l’intégration, l’augmentation ne s’intéresse pas aux problématiques de modèle et ne cherche qu’à ajouter de nouvelles données dans un modèle pré-existant. Dans le cadre de la construction des ressources de spécialité, l’augmentation vise à apporter de la connaissance de spécialité à partir des ressources appropriées telles que des terminologies, listes, corpus spécifiques. Une des sources de données des méthodes d’augmentation est le corpus de textes en langue naturelle. Dans le cadre d’exploitation des corpus, ses principaux enjeux consistent à identifier et extraire les informations structurées conformément au modèle pré-établi (par exemple, nœuds et arcs pour les ressources sous forme de graphe) à partir des données non structurées (textuelles). La deuxième source de données pour l’augmentation est l’apprentissage ouvert (données acquises par peuplonomie (externalisation ouverte), grâce aux contributeurs humains). Face à ces données contributives, l’enjeu central est la validation des contributions. S’il s’agit de la contribution experte, le consensus entre plusieurs experts peut servir à valider les propositions. La troisième source de données à considérer dans le cadre de l’augmentation est l’apprentissage par la tâche, notamment la tâche d’analyse sémantique. Une telle analyse se sert des informations déjà présentes dans une ressource langagière, diagnostique les lacunes et les incohérences de la ressource et déclenche les processus d’acquisition des données manquantes via des méthodes de récupération des données externes ou par apprentissage ouvert. Les auteurs dans Mitchell et al. [2015] définissent les exigences vis-à-vis d’un algorithme d’apprentissage comme la capacité d’apprendre :
• à partir d’une grande variété de types de connaissance ;
• à partir de l’expérience auto-contrôlée ;
• de manière incrémentale, en se servant des connaissances acquises pour acquérir de nouvelles connaissances ;
• de manière auto-réflexive où la capacité de formuler de nouvelles représentations et de nouvelles tâches évite à l’apprenant la stagnation.
Ainsi, dans le cadre de son augmentation, la ressource n’est pas utilisée de manière statique, elle est constamment améliorée via les différents processus qui l’utilisent.
Consolidation : Si l’augmentation correspond à l’ajout de nouveaux éléments dans la ressource, la consolidation est l’ensemble des méthodes endogènes destinées à produire de nouveaux éléments à partir des éléments déjà présents dans une ressource langagière. Aucune donnée extérieure n’est utilisée. Il s’agit des mécanismes de raisonnement, des mécanismes discursifs (comportant des médiations soit des ensembles de prémisses). Dans le cadre du présent travail, il s’agit d’inférence des relations sémantiques ainsi que de méta-informations (annotations). L’inférence consiste à créer (inférer) de nouveaux éléments à partir des informations et structures déjà présentes dans une ressource. Dans le cadre de notre approche, les informations pré-existantes sont de termes et leurs relations présentes dans le réseau. Les structures qui nous intéresseront particulièrement sont les termes jugés similaires et leurs relations d’une part et les termes identifiés comme polysémiques et leur arbres d’usages (sens d’usage), d’autre part.
Alignement : L’alignement est l’ensemble de méthodes destinées à harmoniser une ressource langagière qui comporte plusieurs partitions d’éléments afin que les données contenues dans ces partitions soient interopérables. Dans le cadre d’une ressource langagière multilingue, il s’agit de faire en sorte que les vocables et les sens des vocables inclus dans une partition A possèdent un maximum d’équivalences dans une partition B. Dans le cadre du présent travail, l’alignement concerne principalement le calcul des raffinements de sens et, éventuellement, l’inférence translingue des raffinements. L’enjeu principal de l’alignement est la définition et le calcul de proximité entre les ensembles de données contenues dans les partitions à aligner via l’exploration des relations sémantiques. Dans la section suivante, nous allons détailler les ressources existantes qui illustrent la variété des méthodes de construction et des modèles existants. Nous accorderont de l’attention non seulement aux ressources de spécialité, mais également aux ressources de connaissance générale car la connaissance générale permet de définir la connaissance de spécialité et ne peut pas être considérée séparément de celle ci.
Construction experte
Réseau Lexical du Français (RLF, ATILF [2017]). Il s’agit d’un modèle du lexique formel du français contemporain. Le lexique du français est modélisé sous forme de graphe dont les nœuds sont principalement les sens lexicalisés dans la langue et les arcs représentent des liens paradigmatiques et syntagmatiques standardisés. Le standard adopté est celui du système des fonctions lexicales (d’après les principes décrits par Polguère [2009] afin de mettre en œuvre les principes introduits par Jolkovsky and Mel’čuk [1967] et tout au long des travaux de Igor Mel’čuk). WordNet (Fellbaum [1998]) est un réseau lexical de l’anglais qui couvre le domaine de la langue générale. WordNet est organisé autour des ensembles de synonymes et des relations lexicales, mais aussi sémantiques (hyperonymie, hyponymie, méronymie) qui peuvent exister entre ses ensembles. la construction de cette ressource a bénéficié des travaux psycholinguistiques sur le fonctionnement de la mémoire humaine. Ainsi chaque ensemble de synonymes (synset) correspond à un sens (décrit par une glose spécifique). WordNet est une ressource très utilisée pour l’acquisition des relations sémantiques, des taxonomies, pour l’analyse des textes. Elle souvent intégrée dans d’autres ressources (ConceptNet, YAGO, BabelNet). D’abord basées sur la traduction automatique, des travaux spécifiques ont été menés pour produire des WordNets pour d’autres langues de même que les ressources multilingues dont les exemples sont RuWordNet (Loukachevitch [2016]), EuroWordNet (Hirst [1999]). HowNet (Dong et al. [2010]) 17 est une base de données de connaissance générale qui a mis en évidence les relations inter-conceptuelle et inter-attribut entre les concepts dont les traces sont mises en évidence lors de l’analyse des équivalences entre les lexiques chinois et anglais. Contrairement à WordNet dont la conception a été celle d’une base de données lexicale (conçue pour être consultée par les utilisateurs humains), HowNet est un système de connaissance générale basé sur les concepts et orienté machine. FrameNet est une ressource fondée sur la théorie des cadres sémantiques (Ruppenhofer et al. [2006], Baker et al. [1998]). Un cadre sémantique correspond à un « ensemble d’attributs, de valeurs associées et de contraintes » (d’après Rich and Knight [1990]). La nature de ces éléments est syntactico-sémantique. La construction experte par les lexicographes et les linguistes a permis d’annoter sémantiquement des corpus anglais et d’en extraire des phrases exemples qui ont permis de définir les cadres. De nombreux projets basés sur cette approche ont vu le jour : FrameNet multilingue 18, ASFALDA (FrameNet pour le français) 19 etc. Le lexique hiérarchisé VerbNet 20(Kipper et al. [2000]) combine les cadres FrameNet et les synsets de WordNet pour classer les verbes anglais afin de former une arborescence. Parmi les ressources construites par les experts, plusieurs exploitent UNL pour construire des bases lexicales monolingues reliées entre elles par le pivot interlingue. Les mots universels (UW) garantissent l’ancrage ontologique des bases lexicales ainsi structurées. Notamment, Dikonov [2013] 21 décrit le développement des bases lexicales sous forme de réseau sémantique dont la structure (ontologique !) est basée sur l’ontologie SUMO. La ressource obtenue dans le cadre de ces travaux a un format complexe dû à l’ajout de multiples liens (notamment vers WordNet) et des informations sémantiques variées. Cette complexité de format peut rendre l’utilisation d’UNL problématique dans le cadre de la construction des ressources de spécialité et dans un contexte industriel. Le projet Papillon (Tomokiyo et al. [2000]) exploite également une architecture avec pivot interlingue artificiel. Dans le cadre de ce projet, une base lexicale multilingue a été construite de façon collaborative. L’architecture de cette base est une architecture avec un pivot. Les entrée des dictionnaires monolingues sont reliées entre elles par des liens interlingues (également appelées acceptions, Sérasset [1994]) formant le dictionnaire pivot. Une hiérarchie des acceptions interlingues permet de se prémunir d’un éventuel contraste artificiel . La construction experte a pour inconvénient d’être très coûteuse et longue car elle nécessite la participation de nombreux experts. À titre d’exemple, la construction de WordNet a duré près de 25 ans et a engendré un coût de plusieurs millions de dollars américains. L’alternative à ce mode de construction des ressources est l’externalisation ouverte soit l’utilisation des jeux avec un but 23 pour l’acquisition lexicale et sémantique dans le cadre de la construction d’une ressource donnée.
Construction par externalisation ouverte : ConceptNet (Speer and Havasi [2012]) est un réseau lexico-sémantique qui a été créé, à l’origine, grâce aux jeux en ligne dans le cadre du projet Open Mind Common Sense lancé en 1999 au MIT Media Lab. Aujourd’hui cette ressource continue à croître par intégration et connexion avec d’autres ressources collaboratives (DBPedia) ou créées par les experts (WordNet). Les jeux avec un but (Verbosity) ne semblent plus être au centre du modèle d’acquisition actuel de ConceptNet. RezoJDM (Lafourcade [2007]) est un réseau lexico-sémantique du français construit grâce à un ensemble de jeux avec un but. Il s’agit d’un graphe orienté, typé et pondéré dont les nœuds représentent les items lexicaux et les arcs -les relations sémantiques et lexicales entre ces items. Cette ressource a inspiré nos travaux de construction d’un réseau lexico-sémantique multilingue et sera présentée en détail dans le chapitre 2.
Ressources obtenues automatiquement : Parmi les ressources construites automatiquement, BabelNet (et al. [2012]) est la ressource majeure par sa couverture (15 millions de synsets, 284 langues) et par la richesse de son écosystème. Construit à partir de WordNet, BabelNet complète les synsets avec les mots des autres langues grâce aux liens de pages multilingues présents dans Wikipedia. Un système de traduction automatique est utilisé afin de compléter les définitions manquantes. Outre WordNet et Wikipedia, BabelNet a été construit par intégration automatique de ressources telles que OmegaWiki 24, GeoNames 25, FrameNet 26 etc. BabelNet met en œuvre une architecture avec un pivot naturel (la langue anglaise). D’autres ressources construites automatiquement ont été détaillées par Tchechmedjiev [2016] :
1. ressources lexico-sémantiques sous forme de réseau : (a) Uby (Gurevych et al. [2012]) intègre en grande partie les mêmes ressources que BabelNet et le format Lexical Markup FrameWork (LMF) 27 ; (b) OpenMultilingualWordNet (Bond and Foster [2013]) ;
2. graphes de traduction : PanLex (Kamholz et al. [2014]), PanDictionary (Mausam et al. [2009])
|
Table des matières
1 Contexte et problématiques
1.1 Contexte général
1.2 Interopérabilité des ressources
1.3 Domaine de l’alimentation comme contexte applicatif
1.4 Mécanismes de construction des ressources de connaissance
1.4.1 Intégration
1.4.2 Augmentation
1.4.3 Consolidation
1.4.4 Alignement
1.5 Ressources existantes
1.5.1 Ressources de connaissances pour la recherche d’information sur le Web fondées sur les entités
1.5.2 Ressources multilingues contributives et leur structuration en format de données liées
1.5.3 Ressources interlingues
1.5.4 Construction experte
1.5.5 Ressources spécialisées liées à l’alimentation
1.6 Discussion
2 Construction de la ressource multilingue
2.1 Ressources de référence
2.2 Architecture du RLSMPI
2.2.1 RLSMPI en tant que graphe
2.2.2 RLSMPI en tant que ressource multilingue
2.3 Construction du RLSMPI
2.3.1 Remarques préliminaires
2.3.2 A propos de l’intégration des ressources existantes guidée par le corpus de spécialité
2.3.3 Corpus utilisés et méthode d’amorçage
2.3.4 Extraction des termes
2.3.5 Extraction des relations
2.3.6 Intégration des ressources pré-existantes dans le RLSMPI en cours de construction
2.3.7 Augmentation
2.4 Consolidation du RLSMPI
2.4.1 Remontée – descente et inférence translingue des relations sémantiques
2.4.2 Inférence des raffinements et alignement
2.5 État du RLSMPI
2.6 Discussion
2.7 Conclusion du chapitre
3 Exploitation du réseau lexico-sémantique multilingue pour la construction termino-ontologique
3.1 Outils existants de construction d’ontologie
3.2 Synthèse de la méthode proposée
3.3 Immersion
3.4 Découverte des éléments remarquables par inférence
3.4.1 Principe de l’abduction
3.5 Découverte des éléments de type « classe » et « individu »
3.6 Découverte des éléments remarquables de type « propriété d’ontologie »
3.7 Discussion
4 Évaluation de la ressource multilingue
4.1 Évaluation quantitative
4.2 Évaluation qualitative : problématiques et exemples
4.2.1 Analyse sémantique des instructions de cuisine
4.2.2 Détection des incompatibilités plat-régime
4.2.3 Pré-validation translingue des contributions en attente (relations sémantiques)
5 Vers un système semi-automatique de construction terminoontologique
5.1 Présentation de la termino-ontologie SensoMIAM
5.2 Enrichissement et construction ontologique
5.2.1 Enrichissement
5.2.2 Conceptualiser à partir d’une ébauche d’ontologie en utilisant un RLS
5.3 Système exploitant RLSMPI en tant que système multi-agent (SMA)
5.4 Aide à la construction ontologique (ACO) : un outil d’assistance
5.5 Analyse des résultats et discussion
Télécharger le rapport complet