Formalisation du sens chez les lexicographes (solutions existantes)

Notre stage a pour objectif la mise au point d’un éditeur de définitions lexicographiques formelles. Cet éditeur s’appuie sur la Théorie Sens-Texte (TST) ainsi que le formalisme des Graphes d’Unités (un formalisme de représentation des connaissances de la TST). Dans ce chapitre, nous présentons l’équipe dans laquelle ce stage a été réalisé. Puis, nous faisons un point sur le contexte scientifique en introduisant TST et les Graphes d’Unités. Enfin, nous préciserons le contexte applicatif et dégagerons une problématique autour de laquelle cette étude s’articule.

Notre stage s’est effectué au sein de l’équipe Wimmics (Web-Instrumented Man-Machine Interactions, Communities, and Semantics)  , une équipe mixte de recherche dépendante du Laboratoire I3S et du centre de recherche Inria Sophia Antipolis – Méditerranée. Inria Sophia Antipolis – Méditerrannée  est un centre de recherche impliqué dans les sciences informatiques et technologiques dans le bassin méditerranéen. Le centre rassemble plus de 600 personnes incluant 500 scientifiques, qui travaillent au sein de 38 équipes de recherche et sur 3 sites géographiques : Sophia Antipolis, Montpellier et Bologne (Italie). Le centre de recherche Inria couvre les domaines de recherche suivant : Mathématiques Appliqués ; Algorithmie, Programmation, Logiciel et Architecture ; Réseaux, Systèmes et Services, Informatique Distibué ; Sciences Informatiques appliquées à la Biologie, Médecine et l’Environement ; Perception, Cognition, Interaction. Le Laboratoire d’Informatique, Signaux et Systèmes de Sophia-Antipolis (I3S)  est une unité de recherche de près de 300 personnes commune à l’Université de Nice Sophia Antipolis (UNS) et au Centre National de la Recherche Scientifique (CNRS). L’activité scientifique du laboratoire est organisée en 4 pôles scientifiques regroupant 12 équipes de recherche (dont 4 sont communes avec Inria), elle s’articule autour de trois axes de recherche : Communication, Réseaux et Logiciel ; Modèles, Information et Calcul pour la Médecine et la Biologie ; Optimisation, Modélisation et Simulation du Monde Réel.

Wimmics conçoit des méthodes, des modèles et des algorithmes pour combiner la sémantique formelle et la sémantique sociale du Web. Elle axe ses recherches autour de deux sujets. Le premier est l’analyse et la modélisation des utilisateurs, communautés et de leurs interactions dans le contexte du Web. Le second cherche à formaliser et raisonner sur des graphes sémantiques hétérogènes. De plus, cette équipe de recherche participe à l’extension, la spécification, l’implémentation, le déploiement et l’enseignement des standards Web du W3C. Enfin, parmi les nombreux outils que Wimmics réalise, nous pouvons citer :
– Corese  , un moteur de recherche sémantique pour le langage RDF (Resource Description Framework) qui s’appuie sur les graphes conceptuels.
– DBpedia.fr  , une application visant à extraire un maximum de données au format RDF de la version Fançaise de Wikipédia.
– ZONE-project  , un outil de veille qui s’appuie sur le Web sémantique dans le but d’améliorer ses capacités d’agrégation.
– Qakis  , une application qui à l’aide de traitement automatique de la langue et de requêtes SPARQL, répond aux questions de l’utilisateur.

Nous allons maintenant vous donner un rapide aperçu de la Théorie Sens-Texte (TST), théorie linguistique sur laquelle repose la représentation utilisée dans ce projet. Pour cette présentation, nous nous sommes appuyés sur Kahane (2003). La TST est un cadre linguistique pour la description du langage naturel, plus exactement un système de règles ayant pour objectif d’exprimer la correspondance entre le texte et le sens. Appliquées de façon séquentielle, ces règles permettent de passer du niveau sémantique au niveau phonétique et vice versa. La TST a été introduite dans Žolkovskij et Mel’cuk ˇ (1965). Comme la plupart des théories linguistiques, la TST postule plusieurs niveaux de représentation de la langue  allant de la sémantique (le sens) jusqu’au niveau phonologique (le texte). Chacun de ces niveaux, sauf le niveau sémantique, est séparé en deux : le niveau profond et le niveau de surface. Dans le cadre de ce projet, nous nous sommes intéressés principalement à la représentation sémantique qui spécifie le sens d’un énoncé. La structure principale qui constitue la représentation sémantique est un graphe orienté. Chaque noeud d’un graphe sémantique est étiqueté par une unité sémantique spécifique à la langue qui correspond au sens du mot (en conséquence, les unités sémantiques peuvent être accompagnées d’un nombre indiquant les divers sens associés à un mot comme on peut le voir dans les dictionnaires). Chaque unité sémantique possède une structure interne appelée structure actancielle. Cette structure est composée de positions actancielles (PosA) qui définissent les actants sémantiques d’une unité sémantique. Les liens entre une unité sémantique et ses actants sont représentés par des arcs étiquetés des relations sémantiques .

Enfin, le dictionnaire de la TST se nomme le Dictionnaire Explicatif et Combinatoire (DEC) qui décrit le comportement des unités lexicales de la syntaxe profonde. La branche de la linguistique qui traite de l’édition de dictionnaire est appelée la lexicographie. Un article dans le DEC se présente sous la forme suivante :
– Une partie syntaxique : le tableau de régime qui décrit les expressions possibles du sens dans les phrases.
– Les fonctions lexicales (Mel’cuk ˇ , 1996) : qui décrivent les liens entre les unités lexicales à travers une cinquentaine d’opérateurs linguistiques. Par exemple, la fonction lexicale Magn qui met en avant les unités lexicales d’intensification.
– Une partie sémantique : la définition lexicographique composée de la structure actancielle, présentée sous la forme d’une formule explicitant les PosA qui la composent et appelée forme propositionnelle. Par exemple l’unité lexicale ACHETER possède comme forme propositionnelle : X achète Y à Z. Il est important de souligner que notre étude porte sur cette partie.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Contexte du stage
1.2 Contexte Scientifique
1.2.1 Théorie Sens-Texte
1.2.2 Les Graphes d’Unités
1.3 Contexte applicatif et problématique
2 Formalisation du sens chez les lexicographes : solutions existantes
2.1 Projets d’informatisation du DEC
2.1.1 DiCo
2.1.2 RELIEF
2.2 Représentation visuelle sous forme de graphe
2.2.1 Le DicoInfo Visuel
3 Notre solution et sa mise en œuvre
3.1 Analyse des utilisateurs
3.2 Scénarios
3.2.1 Scénario Actuel
3.2.2 Scénario Futur
3.3 Représentation et symboles utilisés pour formalisation
3.4 Maquette de l’éditeur
3.5 Prototype de l’éditeur
3.6 Évaluations du prototype
3.6.1 Ingénieur de la connaissance
3.6.2 Lexicographes
3.7 Proposition d’amélioration du prototype
4 Conclusion 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *