Extraction des unités de mesure

Extraction des unités de mesure

Contexte et problématiques identifiées 

La thèse s’inscrit dans une nouvelle initiative d’extraction et de capitalisation des connaissances. Cette initiative a été appliquée aux domaines du risque alimentaire microbiologique étendu aux emballages et à la bioraffinerie. De nombreux résultats expérimentaux sont publiés dans les articles scientifiques et diffusés sur le web dans un format textuel non structuré. Ces résultats expérimentaux sont associés à des paramètres de contrôle d’importance pour le domaine. Ces paramètres sont mesurés au cours des différentes expérimentations menées par les chercheurs et restitués au sein des articles scientifiques. Les travaux récents ont permis de définir et standardiser le vocabulaire du domaine dans une ontologie (Touhami et al., 2011), ou plus précisément une Ressource Termino-Ontologique (RTO). La RTO du domaine permet de représenter en langage formel structuré les paramètres de contrôle sous forme d’arguments engagés dans une relation n-aire, représentant le résultat expérimental associé à ses paramètres de contrôle. La modélisation et la capitalisation des données d’intérêt dans une RTO représentent des étapes fondamentales pour le partage des connaissances sur le web de données, l’analyse des données afin de produire de la connaissance et enfin, proposer un support d’aide à la décision (Guillard et al., 2015). En effet, outre la capitalisation des connaissances, la possibilité de raisonner à partir de l’ontologie permet de proposer un langage de requêtes pour des prises de décision stratégiques. Par exemple, le projet EcoBiocap, dans lequel sont intégrés les travaux de recherche relatifs aux emballages alimentaires, utilise la RTO comme support dans un outil d’aide à la décision sous forme de requêtes : on définit des paramètres comme l’aliment à emballer, les conditions de température auxquelles on souhaite conserver l’aliment, en précisant des valeurs de perméabilité optimales, l’outil aide au choix de l’emballage à utiliser, en proposant une liste d’emballages répondant aux critères définis. Cet exemple montre l’intérêt de capitaliser la connaissance mais également le besoin de peupler les ontologies ou RTO de domaine, avec de nouvelles informations. La RTO du domaine joue un double rôle fondamental puisqu’elle sert, à partir des instances référencées, de support aux outils d’aide à la décision et, elle guide les étapes qui permettent son propre peuplement avec de nouvelles instances. Dans ce contexte, les travaux menés dansle domaine des emballages alimentaires ont abouti à l’élaboration du système ONDINE (ONtology-based Data INtEgration), illustré dans la figure 1.8, qui propose un processus complet d’intégration de données (Buche et al., 2013c) où la RTO joue un rôle central. Le système repose sur deux sous-systèmes Contributions Dans le but de répondre aux problématiques soulevées dans la section précédente, nous proposons deux contributions principales, s’appuyant sur une RTO de domaine. La première consiste à localiser et à identifier les termes dénotant les variants d’unités de mesure réputés difficiles à extraire, afin d’enrichir la RTO. La seconde est une nouvelle approche hybride pour l’extraction d’instances d’arguments des relations n-aires des données expérimentales. Plus précisément, nous proposons une nouvelle méthode guidée par la RTO permettant l’extraction et l’identification des variants d’unités de mesure en deux étapes La première étape propose de prédire la localisation des variants d’unités de mesure en nous appuyant sur l’apprentissage supervisé afin de réduire l’espace de recherche des variants dans les textes La deuxième étape propose, une fois l’espace de recherche réduit, une nouvelle mesure de similarité adaptée à la syntaxe des unités de mesure afin d’identifier les variants extraits des documents. Ces variants d’unités de mesure permettent d’enrichir la partie terminologique de la RTO. Notre nouvelle méthode hybride contribuant à l’extraction des instances d’arguments de la relation n-aire est également constituée de deux parties :Dans une première partie, nous tirons profit de la capacité des méthodes de fouille de données à faire émerger des régularités et des motifs afin de prendre en compte la diversité d’expressions des instances d’arguments de la relation n-aire dans les documents, Dans une deuxième partie, nous proposons d’extraire les relations de dépendances syntaxiques proches de la définition de la relation n-aire afin d’enrichir les motifs découverts au cours de la première partie. Les motifs sont étendus par combinaison avec les relations syntaxiques extraites pour l’extraction d’instances d’arguments de la relation n-aire.

Organisation du mémoire

Le mémoire est organisé de la manière suivante : Le chapitre 2, dans la section 2.1 justifie le choix d’une RTO plutôt qu’une ontologie, la section 2.2 présente la RTO naRyQ n-ary Relations between Quantitative experimental data et sa modélisation dans les deux domaines d’application s’intégrant dans le cadre de la thèse, le domaine du risque alimentaire microbiologique étendu aux emballages et le domaine de la bioraffinerie. La section 2.3 présente les principaux éléments de travail sur lesquels reposent nos propositions ;Le chapitre 3 présente en détails notre proposition pour enrichir la RTO de nouveaux variants d’unités de mesure. La section 3.2 dresse un état de l’art concernant les travaux sur les unités de mesure et plus généralement sur les données quantitatives. La section 3.3 détaille la première étape de notre contribution concernant la réduction de l’espace de recherche des variants dans les documents textuels. Nous exposons notre méthode basée sur l’apprentissage supervisé pour prédire la localisation des variants. La section 3.4 détaille la deuxième étape de notre contribution concernant l’identification des variants d’unités de mesure. Nous présentons notre mesure adaptée à l’identification des variants extraits des documents et nous comparons les résultats obtenus avec des mesures classiques de la littérature ; Le chapitre 4 présente notre nouvelle approche hybride fondée sur les méthodes de fouille de données combinées à de l’analyse syntaxique. La section 4.2 détaille notre approche s’appuyant sur les méthodes de fouille de données, adaptée à notre contexte de données de type expérimental, afin d’extraire de la connaissance implicite concernant l’expressivité des arguments de la relation n-aire. La section 4.3 présente l’extraction des relations de dépendances syntaxiques d’intérêt pour le domaine en étant guidés par la RTO. Notre méthode permet d’extraire les relations syntaxiques pertinentes à l’extension des motifs émergeant de l’étape de fouille de données. Nous montrons également comment, à partir de notre méthode hybride, nous obtenons des motifs étendus pour l’extraction des instances comportant plus de 2 arguments.

Ontologie ou Ressource Termino-Ontologique ?

La notion d’ontologie est utilisée dans le domaine de l’Intelligence Artificielle, et plus précisément dans la branche de l’Ingénierie des Connaissances, pour la conception des systèmes à base de connaissances. Une définition consensuelle utilisée dans la littérature en Intelligence Artificielle est celle de (Gruber, 1993) : «Une ontologie est une spécification explicite d’une conceptualisation.» Le terme « conceptualisation » situe les ontologies au niveau sémantique. Elle pose ainsi le sens des termes utilisés et fortement corrélés au domaine considéré. La caractérisation du sens des termes dépend du contexte dans lequel ils apparaissent. En effet, la linguistique est concernée par la question des ontologies dans la mesure où les données dont on dispose pour élaborer les ontologies consistent en des expressions linguistiques de connaissances. Nous parlons alors d’ontologie élaborée pour une tâche donnée et dans un contexte de référence (Bachimont, 2000). L’expression « spécification explicite » fait des ontologies un objet syntaxique. La conceptualisation est faite dans un langage formel qui définit les concepts et les contraintes d’utilisation. On obtient un réseau sémantique et un ensemble de formules logiques sous-jacentes. La construction du vocabulaire conceptuel stand.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie ?avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction 
Cadre général 
Contexte et problématiques identifiées 
Contributions 
Organisation du mémoire .
Contexte d’étude 
Ontologie ou Ressource Termino-Ontologique ? 
Présentation des RTO de domaine 
La composante conceptuelle 
La composante terminologique 
Représentation des données d’intérêt en relation n-aire 
Définitions et hypothèses de travail 
Sélection d’un descripteur pertinent au contexte 
La phrase pivot 
Sélection d’une fenêtre textuelle 
Extraction des unités de mesure 
 Introduction 
État de l’art 
Localisation des unités de mesure 
Méthodologie 
Contexte et processus global 
Représentation des données textuelles adaptée au contexte
d’étude 
Prédiction des localisations par apprentissage supervisé
Expérimentations 
Protocole expérimental 
Résultats 
Table des matières
Discussion 
Identification des unités de mesure 
Les mesures de similarité 
Comparer des unités de mesure 
Nouvelle mesure d’identification adaptée aux unités de mesure 
Expérimentations 
Protocole expérimental 
Résultats et discussion 
Conclusion 
Localisation et extraction des arguments de relations n-aires 
Introduction 
Extraction d’arguments corrélés 
Introduction 
Principaux algorithmes de fouille données 
Quelques définitions utiles
Présentation générale de quelques algorithmes de fouille
de données
Choix des algorithmes pour les expérimentations .
Nouvelles représentations des données textuelles guidée par la Ressource Termino-Ontologique
Représentations des données 
Constitution de la base d’objets 
Constitution de la base d’attributs 
Paramètrer les nouvelles représentations 
Critères de sélection et d’évaluation 
Expérimentations 
Protocole expérimental 
Résultats 
Discussion 
Conclusion 
Vers une nouvelle approche hybride fondée sur l’analyse syntaxique 
Introduction 
Analyse syntaxique non guidée 
Combinaison des MS et RS 
Analyse syntaxique guidée par la RTO 
Une nouvelle fonction de rang 
Extension des MS par les RS 
Expérimentations et résultats 
Résultats de l’analyse syntaxique guidée par la RTO 
Résultats de l’approche hybride 
Conclusion
Conclusion 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *