Sémantique différentielle et acquisition automatique d’informations lexicales sémantiques

Télécharger le fichier pdf d’un mémoire de fin d’études

Du mot au sens : interrogations linguistiques

L’objet d’un lexique sémantique est d’associer à une collection de mots des informations concernant leur sens. Avant de nous interroger sur la manière dont seront représentées et extraites au cours de notre travail ces informations sémantiques, il convient de préciser ce que l’on entend précisément par « mot » et « sens ».

Quelle unité linguistique pour la lexicographie ?

De manière intuitive, et particulièrement pour un informaticien, le mot est défini comme une suite de caractères séparée de ce qui la suit et la précède par un espace ou une ponctuation. . . sauf en ce qui concerne les mots composés. . . et les formules figées. . . et pas pour toutes les langues. . . À l’évidence, la définition de la notion de « mot », et plus généralement la question de l’unité linguistique adaptée pour le travail lexicographique, mérite d’être approfondie avant de progresser plus avant dans notre étude.

Une brève histoire du mot

Historiquement, le mot est longtemps resté le centre d’intérêt de l’étude linguistique, et a été considéré comme le « point de départ » de la langue : un mot est un signe correspondant à une idée, et l’articulation des mots reflète celle des idées. Au XVIIe siècle, par exemple, « on peut dire en général que les mots sont des sons distincts et articulés dont les hommes ont fait des signes pour marquer ce qui se passe dans leur esprit » [AN83]. Cette équivalence motidée s’accommode mal du phénomène de polysémie ; aussi les théoriciens de l’époque s’attachent-ils à effectuer la distinction entre le sens propre, originel d’un mot et ses sens figurés ou dérivés. Cette approche donne une grande importance à l’étude de l’étymologie, notamment au XIXe siècle, et consacre en conséquence dans l’étude académique la primauté du mot écrit sur l’oral. Cette tendance trouve son point culminant avec la publication du Dictionnaire de la langue française d’E. Littré (1863-1872).
Dans son Cours de linguistique générale [dS16], que l’on s’accorde à considé- rer comme l’ouvrage fondateur de la linguistique « moderne », F. de Saussure rompt avec la tradition historiciste en affirmant la nécessité d’une étude synchronique*5 de la langue comme institution humaine observable à un instant donné, indépendamment de son évolution. De ce fait, l’importance donnée à l’écrit disparaît : « langue et écriture sont deux systèmes de signes distincts ; l’unique raison d’être du second est de représenter le premier [. . . ] » (op. cit.). De Saussure redéfinit du point de vue oral l’entité linguistique élémentaire comme « tranche de sonorité qui est à l’exclusion de ce qui précède et de ce qui suit dans la chaîne parlée le signifiant d’un certain concept » (op. cit.), faisant abstraction des conventions de découpage d’un texte en groupes de lettres séparés par des espaces. Il constate que l’unité élémentaire ainsi définie ne correspond plus au mot, qui devient un découpage soit trop fin (dans une locution comme s’il vous plaît), soit trop grossier (si dans désir-eux, malheur-eux, on distingue la terminaison comme porteuse en propre d’un élément de sens). Suite à cette remise en question, la définition d’une unité linguistique élé- mentaire pertinente pour l’analyse a donné lieu au cours du XXe siècle à de nombreux débats. Sans entrer dans le détail de ceux-ci, nous présentons un ensemble de paliers de découpage aujourd’hui relativement consensuels, qui sont notamment ceux retenus dans son travail par F. Rastier.

Morphème, lexie, lexème

On nomme morphème* la plus petite partie indécomposable dotée d’un sens entrant dans la composition des mots (compris au sens du token informatique). Ainsi, innombrables contient 4 morphèmes : un radical -nombr-, deux affixes, et la marque du pluriel. La morphologie est consacrée à l’étude des combinaisons de morphèmes pour former des mots, par opposition à la syntaxe, qui se préoccupe de l’agencement de ceux-ci pour la formation d’énoncés.
Ce qui l’on désigne habituellement par « mot » (termes complexes inclus), correspond à la notion linguistique de lexie*, groupement de morphèmes « consacré par l’usage » — éventuellement réduit à un unique morphème. Les lexies peuvent être amenées à voir leur forme modifiée par l’ajout de morphèmes flexionnels (dans l’exemple précédent, le s du pluriel), qui apportent leur élé- ment de sens à l’ensemble mais ne modifient pas celui de la lexie. L’ensemble des formes fléchies d’une lexie est appelé lexème*. L’ajout de morphèmes réellement porteurs de sens, par exemple les classiques préfixes « anti- », « pré- », etc., influant par dérivation celui de la lexie, ainsi que la composition de celle-ci avec une autre (conception de mots composés), correspond à la création d’une nouvelle lexie, appartenant à un lexème distinct.

En pratique

La plupart des théories du sens considèrent le morphème comme l’échelle de granularité textuelle la plus pertinente pour l’analyse microsémantique*, c’est-à-dire la recherche des composants élémentaires du sens et l’étude de leur combinaison. En revanche, d’un point de vue lexicographique, il est souvent plus utile de disposer de définitions synthétiques de lexies que d’éléments de sens « en kit ». . . C’est particulièrement le cas en lexicographie informatique, car la composition sémantique des sens des morphèmes pour former celui d’une lexie est loin d’être aussi systématique que l’on pourrait le rêver : économiste n’est pas à économe ce que communiste est à commun.
Du point de vue de l’analyse informatique, seul le mot, considéré dans sa définition la plus élémentaire de séquence de caractères séparée du reste du texte par des espaces ou signes de ponctuation, est à la portée immédiate de l’ordinateur. De nombreuses recherches ont néanmoins abouti à la mise au point de systèmes informatiques permettant, d’une part, le regroupement des parties des termes complexes, d’autre part, la « réduction » des mots étudiés à leur forme élémentaire (ou « lemme ») non fléchie (voire même à un radical ou racine). Il est donc courant pour les travaux d’acquisition lexicale de travailler au niveau de la lexie, en faisant abstraction des morphèmes flexionnels.
Maintenant que sont posés quelques principes fondamentaux concernant la définition des signifiants étudiés — c’est-à-dire les mots observables —, attardons-nous sur la définition de leur signifié.

Référence, signifié, sémème, sémie

La distinction entre référence* (ou parfois « référent ») et signifié* constitue une évolution conceptuelle importante formalisée dans le domaine de la logique par G. Frege à la fin du XIXe siècle [Fre92]. L’objectif de cette distinction est de fonder rigoureusement la possibilité en logique de se prononcer sur la véracité d’un énoncé « dans l’absolu », indépendamment de toute référence à une situation précise (recherche du référent d’un mot dans le monde réel) ou à un individu pensant identifié (recherche du référent dans les objets mentaux de cet individu). Le signifié est défini comme le correspondant du signifiant (symbole, chaîne de caractères ou production vocale) dans un espace sémantique appartenant au même système que celui-ci — système logique formel ou système de la langue.
Dans [Mar67], A. Martinet présente sa conception de la « double articulation » du langage, et précise du même coup ce que l’on peut entendre en sémantique linguistique par la notion de signifié. Le principe de double articulation du langage rend compte du travail de construction, à partir d’une expérience ou d’une pensée individuelle, d’un message sonore compréhensible par l’ensemble des membres d’une communauté linguistique. La première articulation est la décomposition d’un message à transmettre, unique et correspondant à une expérience purement personnelle, en une succession d’unités de faible spécificité partagées par tous les membres d’une communauté. La seconde nous préoccupe moins ici, puisqu’il s’agit de la manière dont les mots eux-mêmes correspondant à ces unités spécifiques communes sont composés à partir d’un ensemble restreint d’unités phonologiques.
A. Martinet désigne par « économie de la langue » la capacité ainsi obtenue d’exprimer une quasi infinité de sens spécifiques à partir d’un minimum d’élé- ments communs à tous les membres d’une communauté linguistique. On peut penser, pour mesurer cette économie, à l’impossibilité à laquelle on se trouverait confronté de devoir créer et faire accepter « universellement » un cri, un son différent pour chaque message. Ainsi, dans l’exemple de la phrase « j’ai mal à la tête », le type particulier de douleur éprouvée et la désignation d’une tête particulière, celle du locuteur, ne donnent pas lieu à la création de mots spécifiques ; ils ne relèvent pas du système de la langue mais de la compréhension de l’énoncé par son auditeur, autrement dit du domaine de la cognition. La résolution de la référence*, c’est-à-dire de l’objet du monde réel ou mental désigné par un mot employé dans un énoncé prononcé dans une situation donnée n’est donc pas une préoccupation de la linguistique, ni de la lexicographie. Celles-ci ne considèrent que le signifié*, portion de sens consensuel concentrée dans une unité linguistique.

Sens, signification

F. Rastier désigne la signification comme un « artefact des linguistes » : en effet, si l’on considère le texte comme la seule référence à partir de laquelle la langue se définit, le sens précis du mot varie trop d’un exemple d’usage à l’autre pour qu’il soit possible de mettre en avant un sens « standard ». Et pourtant, les lexiques sémantiques rassemblent bien, sous une forme ou une autre, des descriptions correspondant à un sens « général » ou « standard » du mot, couvrant la majeure partie des sens qu’on lui voit adopter en pratique ou, du moins, permettant que ceux-ci en soient déduits ; c’est ce sens « prototypique » que l’on nomme « signification ». On peut remarquer que cette idée de sens « consensuel » est également centrale dans la théorie d’A. Martinet présentée précédemment.
F. Rastier contourne pour sa part la notion de signification pour ne retenir que celle de sens, lequel ne se définit que par rapport à un contexte d’usage particulier. Dans le cadre du lexique, le sens d’un mot X qui apparaît (jouant le rôle de signification) est celui mis en avant par un contexte « virtuel » constitué de la totalité des mots proches de X dans le lexique. La présentation plus détaillée de la sémantique différentielle à laquelle nous procédons à la section 1.5 nous permet de revenir sur ce principe.
Ayant introduit ces quelques idées fondamentales de la linguistique sé- mantique et précisé ainsi la nature des objets de notre étude, nous pouvons désormais aborder la question de la représentation du sens, c’est-à-dire du dé- veloppement d’un formalisme susceptible de décrire au mieux du point de vue de la langue cet évasif objet de notre recherche.

Représentation du sens

Le plus ancien mode de représentation du sens connu méritant réellement le nom de « formalisation » est celui développé par Aristote, consistant à dé- couper tout ensemble de concepts en deux sous-ensembles rassemblant respectivement ceux possédant et ne possédant pas une certaine caractéristique discriminante : les objets matériels se divisent en vivants et non-vivants, les vivants en mobiles et non-mobiles, etc. Le philosophe Porphyre est au IIIe siècle le premier à exprimer cette structuration sous la forme d’un arbre, posant ainsi l’une des bases incontournables de la pensée occidentale. Naturellement, ce mode de représentation du sens aristotélicien reste fidèle aux principes de Platon, qui refusa à la langue tout autre rôle que celui d’un outil « bijectif » de description de la réalité et des idées. L’arbre aristotélicien est conçu comme une structuration de la réalité, et non pas de la langue puisque celle-ci n’est pas à l’époque considérée comme un système en soi, et est en conséquence adapté à la construction d’ontologies, non de lexiques. Une constatation montrant de manière claire l’inadaptation d’une telle structuration hiérarchique du sens pour la langue est que, dans le cadre d’une pratique linguistique donnée, il existe une séparation assez nette entre « ce que l’on peut dire » et « ce que l’on ne peut pas dire », entre le cohérent et l’absurde : ainsi, s’il est souvent possible de remplacer dans un énoncé chien par chat, des substituts comme azote ou fourchette sont hors de question. Il semble donc que se définisse dans le lexique une limite nette entre mots proches et mots clairement distincts, cette dichotomie ne pouvant être reflétée par une théorie instaurant comme l’arbre de Porphyre un « continuum de sens » par le raffinement progressif des définitions des concepts.
Les formalismes de représentation du sens issus de recherches en intelligence artificielle (logiques du premier ordre, floue, modale, etc.) ou sciences cognitives (réseaux sémantiques [Qui68], graphes conceptuels [Sow84], etc.) relèvent tous de cette approche donnant la primauté au concept (potentiellement un objet mental aux contours absolument flous) sur le mot, qui ne sert qu’à le désigner. Nous intéressant pour notre part au mot, nous ne nous pencherons plus avant que sur les formalismes proprement linguistiques. Nous introduisons ici à titre de référence et de point de comparaison deux théories récentes et reconnues de représentation du sens : la théorie des fonctions lexicales de I. Mel’cuk, et celle du lexique génératif de J. Pustejovsky. Muni de ce léger bagage comparatif, nous présentons ensuite en détail à la section 1.5 les principes de la sémantique interprétative de F. Rastier.

Mel’cuk : la théorie Sens-texte

La théorie Sens-texte [MCP95] a été développée par I. Mel’cuk dans les années 1970 ; elle constitue notamment le fondement d’un travail de construction par des experts d’un lexique sémantique décrivant de manière très précise une sélection restreinte de mots du français, le dictionnaire explicatif et combinatoire du français contemporain (DECFC) — les quatre volumes déjà parus de ce dictionnaire, dont la construction est toujours active, rassemblent 510 vocables. Cette théorie fait en particulier usage de fonctions lexicales permettant d’exprimer les relations sémantiques entre mots sous la forme F(x) = y, où F est la fonction lexicale, x le mot-clé et y la valeur de la fonction. Par exemple, Magn(pluie) = forte exprime qu’une valeur d’intensification possible de pluie est forte, Magn étant la fonction lexicale d’intensification. Ces fonctions, au nombre d’une soixantaine pour les plus standards, permettent sensément de représenter dans un formalisme unique un nombre de relations sémantiques suffisant pour préciser le sens de l’ensemble du lexique. Les relations sont dites paradigmatiques quand elles décrivent des relations sémantiques entre mots (comme la généralisation, Gener, ou la nominalisation, S0), et syntagmatiques quand elles reflètent simplement des relations de cooccurrences (comme les verbes de réalisation associés à un nom, Real1, ou l’intensification, Magn).
La théorie Sens-texte s’inscrit dans une lignée de recherches théoriques visant à mettre au jour des relations « universelles » en nombre minimal permettant une structuration « complète » du lexique. Du point de vue de l’acquisition automatique de connaissances sémantiques, ces universaux très spécifiques présentent l’inconvénient d’être définis afin de structurer la langue, considé- rée comme un système abstrait préexistant au texte. Il a néanmoins été montré que certaines des relations proposées par I. Mel’cuk pouvaient être apprise sur corpus grâce à des méthodes semi-supervisées [CL04].

J. Pustejovsky : le Lexique génératif

Les principes exposés par J. Pustejovsky dans [Pus95] peuvent être rapprochés de ceux défendus par I. Mel’cuk en ce sens qu’ils définissent des sché- mas de relations particuliers entre mots. Ceux-ci sont néanmoins en nombre beaucoup plus faible, quatre structures — naturellement plus souples que les fonctions lexicales — suffisant sensément à fournir la totalité des informations nécessaires pour engendrer grâce à trois mécanismes génératifs les sens en contexte du mot décrit :
– la structure argumentale spécifie le nombre, le type sémantique, et la réalisation syntaxique (obligatoire ou facultative) des arguments intervenant dans la définition du mot. Deux arguments sont par exemple nécessaires à la définition du mot « navet » : celui-ci peut en effet être compris comme désignant soit un légume, soit (à un niveau de langue plus familier) une œuvre cinématographique — un seul de ces deux aspects pouvant être pertinent pour une occurrence donnée du mot ;
– la structure événementielle recense les événements impliqués dans la sé- mantique du mot en termes d’aspect (état, processus, transition) et éventuellement de succession chronologique. Elle précisera par exemple que la construction d’une maison prélude à son existence ;
– la structure des qualia6, qui contient la représentation effective de la signification du mot, est elle-même formée de quatre champs, que nous ne dé- taillons pas ici. Ceux-ci fournissent des prédicats exprimant la manière dont se combinent les événements et arguments décrits précédemment, mettant en avant le « comportement sémantique » du lexème vis-à-vis des concepts qui lui sont liés : un écrou est fait pour être vissé sur un 6Du latin « les qualités des êtres ». boulon, un livre pour être lu, etc. ;
– la structure d’héritage, enfin, rend compte des relations lexicales entretenues par ce lexème avec d’autres définis par ailleurs.
Peut-être est-il nécessaire d’insister sur le fait que les éléments de description et relations entre entités mentionnés ne sont définis qu’entre entités lexicales : conformément à la définition d’un lexique, toute définition est intrinsèque au système de la langue. L’intérêt de cette formalisation réside dans le raffinement qu’elle permet d’atteindre dans la représentation des significations, mais l’on conçoit aisément le revers de cette médaille : la difficulté de construire un lexique de grande taille basé sur ses principes. Il est néanmoins possible de réaliser l’apprentissage automatique d’au moins une partie de cette information, comme cela est montré dans [Cla03], qui développe une méthodologie d’acquisition automatique sur corpus par induction de formules logiques de couples noms-verbes tels que le verbe appartient à la structure des qualia du nom — par exemple, écrou-visser.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Lexiques et représentation du sens
1.1 Introduction
1.2 WordNet
1.2.1 Description
1.2.2 Exemples de cas limites
1.2.3 Interprétation
1.3 Du mot au sens : interrogations linguistiques
1.3.1 Quelle unité linguistique pour la lexicographie ?
1.3.1.1 Une brève histoire du mot
1.3.1.2 Morphème, lexie, lexème
1.3.1.3 En pratique
1.3.2 Référence, signifié, sémème, sémie
1.3.3 Sens, signification
1.4 Représentation du sens
1.4.1 I. Mel’cuk : la théorie Sens-texte
1.4.2 J. Pustejovsky : le Lexique génératif
1.5 Principes de sémantique différentielle
1.5.1 Sèmes et classes sémantiques
1.5.2 Processus d’interprétation
1.5.2.1 Activation et virtualisation de sèmes
1.5.2.2 À propos de la polysémie
1.5.2.3 Isotopies sémantiques
1.6 Sémantique différentielle et acquisition automatique d’informations lexicales sémantiques
1.6.1 Sémantique différentielle
1.6.2 Sémantique interprétative
12 Table des matières
1.6.3 Exploitation informatique
2 Domaines et corpus thématiques
2.1 Introduction
2.2 Quelques autres approches de la détection de thèmes
2.3 Précisions introductives
2.3.1 Corpus d’étude
2.3.1.1 Composition du corpus
2.3.1.2 Prétraitement du corpus
2.3.1.3 Préparation du corpus à l’analyse numérique
2.3.2 Classification ascendante hiérarchique
2.3.3 CHAVL : une méthode de CAH
2.4 Principes de la méthode de caractérisation et détection de thèmes développée
2.5 Première étape : analyse statistique des répartitions
2.5.1 Héritage du travail précurseur
2.5.2 Exploiter l’arbre de classification des mots grâce à une classification des paragraphes
2.5.2.1 Classification des paragraphes
2.5.2.2 Définition d’un critère numérique de qualité d’une m-classe par comparaison avec la p-classification
2.5.2.3 Algorithme de lecture de l’arbre de m-classification exploitant la mesure de qualité q
2.5.3 Principe de l’étape suivante
2.6 Obtention de noyaux thématiques
2.7 Extension des noyaux de classes de mots-clés
2.8 Présentation et évaluation des résultats
2.8.1 Approche « intuitive »
2.8.2 Efficacité des classes de mots-clés pour la détection de thèmes
2.8.2.1 Critères de détection élaborés
2.8.2.2 Procédure de validation
2.8.2.3 Indices qualitatifs numériques
2.8.3 Bilan
2.8.4 Évolutions envisageables du système FAESTOS
2.9 Retour à l’acquisition de lexique
2.9.1 Intérêt linguistique
2.9.2 Structuration du lexique en domaines
2.9.3 Découpage du corpus en sous-corpus thématiques
2.10Conclusion
3 Construction de classes sémantiques
3.1 Introduction
3.2 Travaux existants
3.2.1 Affinités du deuxième ordre
3.2.2 Recherche de motifs linguistiques
3.2.3 Positionnement relatif de nos recherches
3.3 Approfondissement de la problématique et principe de la solution mise au point
3.3.1 Quelques réflexions sur les difficultés à surmonter
3.3.1.1 Représentativité des données
3.3.1.2 Contexte et voisinage
3.3.1.3 Taille de voisinage
3.3.1.4 Pertinence du dénombrement des observations concomitantes
3.3.1.5 Variation du volume de données
3.3.1.6 Conditions expérimentales
3.3.2 Structure des travaux menés
3.4 Classification sémantique des mots sur l’ensemble du corpus
3.4.1 Principe général
3.4.2 Mesure de similarité
3.4.3 Normalisation a posteriori d’une matrice de similarité
3.4.4 Résultats
3.4.5 Alternative : représentation « ensembliste typée » des voisinages
3.4.5.1 Principe
3.4.5.2 Résultats
3.5 Classification sémantique des noms sur un sous-corpus thématique
3.5.1 Représentation des voisinages
3.5.2 Similarité entre mots à partir des similarités entre leurs contextes
3.5.3 Résultats
3.6 Conclusion
4 Structuration de taxèmes par des sèmes spécifiques
4.1 Introduction
4.2 Relations lexicales « classiques »
4.3 Représentation des sèmes spécifiques
4.3.1 Représentation implicite
4.3.2 Représentation explicite
4.3.3 Lien entre mode de représentation et méthodologie de recherche
4.4 Recherche de sèmes spécifiques dans les voisinages immédiats
4.4.1 [PS99] : une première expérience de structuration de taxème par des sèmes spécifiques
4.4.2 Étude de cas : distinction client / consommateur
4.4.3 Tentatives d’automatisation
4.4.3.1 Sélection des énoncés pertinents pour la distinction
4.4.3.2 Regroupement en classes des indices
4.4.4 Une voie sans issue ?
4.4.4.1 Typologie des isotopies dans les groupes nom-adjectif
4.4.4.2 Recensement des types d’isotopies nom-adjectif
4.5 Exploitation d’isotopies à « longue distance »
4.5.1 Rapprochement de paires de mots distingués par des spé- cialisations similaires
4.5.2 Procédure d’exploitation manuelle des résultats
4.5.3 Résultats
4.5.4 Vue d’ensemble des informations acquises
4.5.5 Vers une représentation explicite des sèmes spécifiques
4.6 Maintien de la qualité des résultats sur d’autres domaines
4.7 Conclusion
Conclusion
Annexes
A Résultat de FAESTOS, système d’extraction de classes de mots-clés thé- matiques
B Exemples de classes sémantiques construites par analyse de l’intégralité du corpus du Monde diplomatique
C Glossaire
Bibliographie