Extraction des unités de mesure
Contexte et problématiques identifiées
La thèse s’inscrit dans une nouvelle initiative d’extraction et de capitalisation des connaissances. Cette initiative a été appliquée aux domaines du risque alimentaire microbiologique étendu aux emballages et à la bioraffinerie. De nombreux résultats expérimentaux sont publiés dans les articles scientifiques et diffusés sur le web dans un format textuel non structuré. Ces résultats expérimentaux sont associés à des paramètres de contrôle d’importance pour le domaine. Ces paramètres sont mesurés au cours des différentes expérimentations menées par les chercheurs et restitués au sein des articles scientifiques. Les travaux récents ont permis de définir et standardiser le vocabulaire du domaine dans une ontologie (Touhami et al., 2011), ou plus précisément une Ressource Termino-Ontologique (RTO). La RTO du domaine permet de représenter en langage formel structuré les paramètres de contrôle sous forme d’arguments engagés dans une relation n-aire, représentant le résultat expérimental associé à ses paramètres de contrôle. La modélisation et la capitalisation des données d’intérêt dans une RTO représentent des étapes fondamentales pour le partage des connaissances sur le web de données, l’analyse des données afin de produire de la connaissance et enfin, proposer un support d’aide à la décision (Guillard et al., 2015). En effet, outre la capitalisation des connaissances, la possibilité de raisonner à partir de l’ontologie permet de proposer un langage de requêtes pour des prises de décision stratégiques. Par exemple, le projet EcoBiocap, dans lequel sont intégrés les travaux de recherche relatifs aux emballages alimentaires, utilise la RTO comme support dans un outil d’aide à la décision sous forme de requêtes : on définit des paramètres comme l’aliment à emballer, les conditions de température auxquelles on souhaite conserver l’aliment, en précisant des valeurs de perméabilité optimales, l’outil aide au choix de l’emballage à utiliser, en proposant une liste d’emballages répondant aux critères définis. Cet exemple montre l’intérêt de capitaliser la connaissance mais également le besoin de peupler les ontologies ou RTO de domaine, avec de nouvelles informations. La RTO du domaine joue un double rôle fondamental puisqu’elle sert, à partir des instances référencées, de support aux outils d’aide à la décision et, elle guide les étapes qui permettent son propre peuplement avec de nouvelles instances. Dans ce contexte, les travaux menés dansle domaine des emballages alimentaires ont abouti à l’élaboration du système ONDINE (ONtology-based Data INtEgration), illustré dans la figure 1.8, qui propose un processus complet d’intégration de données (Buche et al., 2013c) où la RTO joue un rôle central. Le système repose sur deux sous-systèmes Contributions Dans le but de répondre aux problématiques soulevées dans la section précédente, nous proposons deux contributions principales, s’appuyant sur une RTO de domaine. La première consiste à localiser et à identifier les termes dénotant les variants d’unités de mesure réputés difficiles à extraire, afin d’enrichir la RTO. La seconde est une nouvelle approche hybride pour l’extraction d’instances d’arguments des relations n-aires des données expérimentales. Plus précisément, nous proposons une nouvelle méthode guidée par la RTO permettant l’extraction et l’identification des variants d’unités de mesure en deux étapes La première étape propose de prédire la localisation des variants d’unités de mesure en nous appuyant sur l’apprentissage supervisé afin de réduire l’espace de recherche des variants dans les textes La deuxième étape propose, une fois l’espace de recherche réduit, une nouvelle mesure de similarité adaptée à la syntaxe des unités de mesure afin d’identifier les variants extraits des documents. Ces variants d’unités de mesure permettent d’enrichir la partie terminologique de la RTO. Notre nouvelle méthode hybride contribuant à l’extraction des instances d’arguments de la relation n-aire est également constituée de deux parties :Dans une première partie, nous tirons profit de la capacité des méthodes de fouille de données à faire émerger des régularités et des motifs afin de prendre en compte la diversité d’expressions des instances d’arguments de la relation n-aire dans les documents, Dans une deuxième partie, nous proposons d’extraire les relations de dépendances syntaxiques proches de la définition de la relation n-aire afin d’enrichir les motifs découverts au cours de la première partie. Les motifs sont étendus par combinaison avec les relations syntaxiques extraites pour l’extraction d’instances d’arguments de la relation n-aire.
Organisation du mémoire
Le mémoire est organisé de la manière suivante : Le chapitre 2, dans la section 2.1 justifie le choix d’une RTO plutôt qu’une ontologie, la section 2.2 présente la RTO naRyQ n-ary Relations between Quantitative experimental data et sa modélisation dans les deux domaines d’application s’intégrant dans le cadre de la thèse, le domaine du risque alimentaire microbiologique étendu aux emballages et le domaine de la bioraffinerie. La section 2.3 présente les principaux éléments de travail sur lesquels reposent nos propositions ;Le chapitre 3 présente en détails notre proposition pour enrichir la RTO de nouveaux variants d’unités de mesure. La section 3.2 dresse un état de l’art concernant les travaux sur les unités de mesure et plus généralement sur les données quantitatives. La section 3.3 détaille la première étape de notre contribution concernant la réduction de l’espace de recherche des variants dans les documents textuels. Nous exposons notre méthode basée sur l’apprentissage supervisé pour prédire la localisation des variants. La section 3.4 détaille la deuxième étape de notre contribution concernant l’identification des variants d’unités de mesure. Nous présentons notre mesure adaptée à l’identification des variants extraits des documents et nous comparons les résultats obtenus avec des mesures classiques de la littérature ; Le chapitre 4 présente notre nouvelle approche hybride fondée sur les méthodes de fouille de données combinées à de l’analyse syntaxique. La section 4.2 détaille notre approche s’appuyant sur les méthodes de fouille de données, adaptée à notre contexte de données de type expérimental, afin d’extraire de la connaissance implicite concernant l’expressivité des arguments de la relation n-aire. La section 4.3 présente l’extraction des relations de dépendances syntaxiques d’intérêt pour le domaine en étant guidés par la RTO. Notre méthode permet d’extraire les relations syntaxiques pertinentes à l’extension des motifs émergeant de l’étape de fouille de données. Nous montrons également comment, à partir de notre méthode hybride, nous obtenons des motifs étendus pour l’extraction des instances comportant plus de 2 arguments.
Ontologie ou Ressource Termino-Ontologique ?
La notion d’ontologie est utilisée dans le domaine de l’Intelligence Artificielle, et plus précisément dans la branche de l’Ingénierie des Connaissances, pour la conception des systèmes à base de connaissances. Une définition consensuelle utilisée dans la littérature en Intelligence Artificielle est celle de (Gruber, 1993) : «Une ontologie est une spécification explicite d’une conceptualisation.» Le terme « conceptualisation » situe les ontologies au niveau sémantique. Elle pose ainsi le sens des termes utilisés et fortement corrélés au domaine considéré. La caractérisation du sens des termes dépend du contexte dans lequel ils apparaissent. En effet, la linguistique est concernée par la question des ontologies dans la mesure où les données dont on dispose pour élaborer les ontologies consistent en des expressions linguistiques de connaissances. Nous parlons alors d’ontologie élaborée pour une tâche donnée et dans un contexte de référence (Bachimont, 2000). L’expression « spécification explicite » fait des ontologies un objet syntaxique. La conceptualisation est faite dans un langage formel qui définit les concepts et les contraintes d’utilisation. On obtient un réseau sémantique et un ensemble de formules logiques sous-jacentes. La construction du vocabulaire conceptuel stand.
|
Table des matières
Introduction Cadre général Contexte et problématiques identifiées Contributions Organisation du mémoire . Contexte d’étude Ontologie ou Ressource Termino-Ontologique ? Présentation des RTO de domaine La composante conceptuelle La composante terminologique Représentation des données d’intérêt en relation n-aire Définitions et hypothèses de travail Sélection d’un descripteur pertinent au contexte La phrase pivot Sélection d’une fenêtre textuelle Extraction des unités de mesure Introduction État de l’art Localisation des unités de mesure Méthodologie Contexte et processus global Représentation des données textuelles adaptée au contexte d’étude Prédiction des localisations par apprentissage supervisé Expérimentations Protocole expérimental Résultats Table des matières Discussion Identification des unités de mesure Les mesures de similarité Comparer des unités de mesure Nouvelle mesure d’identification adaptée aux unités de mesure Expérimentations Protocole expérimental Résultats et discussion Conclusion Localisation et extraction des arguments de relations n-aires Introduction Extraction d’arguments corrélés Introduction Principaux algorithmes de fouille données Quelques définitions utiles Présentation générale de quelques algorithmes de fouille de données Choix des algorithmes pour les expérimentations . Nouvelles représentations des données textuelles guidée par la Ressource Termino-Ontologique Représentations des données Constitution de la base d’objets Constitution de la base d’attributs Paramètrer les nouvelles représentations Critères de sélection et d’évaluation Expérimentations Protocole expérimental Résultats Discussion Conclusion Vers une nouvelle approche hybride fondée sur l’analyse syntaxique Introduction Analyse syntaxique non guidée Combinaison des MS et RS Analyse syntaxique guidée par la RTO Une nouvelle fonction de rang Extension des MS par les RS Expérimentations et résultats Résultats de l’analyse syntaxique guidée par la RTO Résultats de l’approche hybride Conclusion Conclusion
Télécharger le rapport complet