Depuis déjà quelques années, le volume des données échangées sur le réseau Internet s’accroît en permanence. Ces flux de données numériques (actualités, transcriptions radiophoniques, messagerie électronique instantanée – pour ne prendre que des exemples de données textuelles) posent, au-delà des verrous technologiques, de nouvelles problématiques scientifiques au domaine du traitement automatique des langues. C’est la dimension dynamique du lexique observé dans ces données textuelles que nous aborderons dans cette thèse, en particulier par son emploi d’un vocabulaire en perpétuelle évolution, que ce soit au niveau de la création des mots que des sens de ceux existant déjà. Le changement des valeurs sémantiques que peuvent prendre un mot en sortant de son emploi habituel nécessite de nouveaux traitements de l’ambiguïté lexicale. La piste de recherche que nous avons explorée vise à prendre en compte le plus possible cette dynamique lexicale et propose une méthode pour construire des bases lexicales associées à des représentations du sens évolutives : celles-ci se réorganisent automatiquement chaque fois qu’un nouvel usage est détecté.
Depuis le milieu des années 1990, on assiste au développement de ressources lexicales électroniques qui définissent des unités de sens (étiquettes, définitions, concepts) pour décrire la sémantique d’unités lexicales (UL). Les systèmes de désambiguïsation qui exploitent ces bases lexicales (BL) mettent en œuvre des algorithmes capables d’associer des usages d’UL observés en corpus avec des unités de sens. La structure de ces BL peut aller du simple dictionnaire à une organisation beaucoup plus complexe de thésaurus ou d’ontologie (voir notamment les taxonomies définies dans WordNet [Miller, 1995] ou FrameNet [Baker et al., 1998]) modélisant le sens des UL selon plusieurs niveaux de granularité. Certains systèmes de désambiguïsation [Resnik, 1999] doivent alors sélectionner un niveau de granularité sémantique approprié au contexte d’usage pour désambiguïser correctement les occurrences d’UL. Le résultat fourni doit être interprétable par des humains et réutilisable par des programmes informatiques.
La constitution manuelle de telles BL et leur manipulation pour des tâches de désambiguïsation sémantique reste toutefois problématique. Leur construction est une entreprise gigantesque qui devient hors de portée de l’expertise humaine [Pedersen, 2006] face à une quantité grandissante de documents dont le contenu se diversifie. Bien que ces BL atteignent aujourd’hui de grandes tailles, elles ne couvrent pas le vocabulaire employé dans les documents. Elles ne sont donc jamais exhaustives et demandent à être complétées pour garantir des résultats acceptables. Une problématique de désambiguïsation dans des flux nécessite des adaptations fréquentes à de nouveaux contextes : un enrichissement manuel de telles ressources ne semble donc absolument pas envisageable. De plus, les sens répertoriés dans les BL ne correspondent pas nécessairement aux usages rencontrés dans les corpus [Ide et Véronis, 1998].
Construction de bases lexicales évolutives à partir de textes
Des ressources électroniques de grande taille (dictionnaires informatisés, thésaurus, ontologies) sont nécessaires pour décrire la sémantique des unités lexicales (UL) utilisées dans des textes. Ces bases lexicales sont particulièrement utiles pour les applications du traitement automatique des langues (TAL) (recherche d’information, traduction automatique. . .) se confrontant à l’ambiguïté lexicale et devant pourtant déterminer le sens considéré d’une UL donnée. Les BL doivent exprimer les différents sens de cette unité — autrement dit, modéliser sa polysémie — afin d’être exploitables pour sa désambiguïsation automatique. Par ailleurs, les BL actuelles, constituées manuellement ou automatiquement, ne sont pas conçues pour intégrer facilement des nouveautés qui se présentent dans des flux de données textuelles. Le traitement en séquence de ces flux impose pourtant de faire évoluer ces BL pour prendre en compte l’apparition de nouvelles UL, l’émergence de sens inédits et le changement de sens déjà établis.
La problématique initiale de cette thèse est de mettre au point des algorithmes et des structures de données pour automatiser la construction d’une BL répertoriant des UL observées dans des flux de données textuelles. Les propriétés souhaitées pour cette BL sont les suivantes. Elle doit d’abord pouvoir faire émerger automatiquement des unités de sens en observant des usages d’unités lexicales dans des corpus. Nous cherchons ensuite à répertorier ces unités lexicales sur plusieurs niveaux de granularité sémantique. Nous devons également expliciter les contextes d’usage d’unités lexicales faisant émerger des unités de sens afin d’exploiter ces sens en désambiguïsation lexicale. Enfin, la BL et ses unités de sens doivent être capables de s’adapter à de nouveaux usages d’UL observés en corpus.
Représentations du sens et désambiguïsation sémantique automatique
L’interprétation d’une UL peut varier en fonction de son contexte d’usage dans un texte. En TAL, l’ambiguïté lexicale est omniprésente et sa résolution exige de modéliser les différentes interprétations possibles d’une UL au sein de BL, puis de sélectionner l’une d’entre elles lors d’une procédure de désambiguïsation. Les BL décrivent d’une manière plus ou moins détaillée les différentes interprétations ou « sens » des mots. En informatique, cette notion de sens peut être appréhendée de diverses façons et donne lieu à de nombreuses représentations.
Polysémie des unités lexicales
De nombreuses tâches du TAL exigent d’annoter les mots d’un texte avec des étiquettes correspondant à des « sens ». Cette association entre mot et sens s’inscrit dans la description traditionnelle du signe linguistique [de Saussure, 1995].
Notions de sémiotique pour le traitement automatique des langues
Les définitions des termes « signifiant », « signifié » et « référent » sont l’objet de nombreuses discussions dans les domaines de la linguistique, de la sémiotique et de la représentation des connaissances [Sowa, 2000]. Nous pouvons toutefois préciser ces notions pour notre cadre de TAL.
Le signifiant peut correspondre à une forme acoustique, un geste, un mot ou n’importe quelle autre expression. Dans notre cadre de traitement automatique de textes, les signifiants manipulés par les programmes sont des unités lexicales (UL). Les UL correspondent à des formes graphiques telles que des mots (ou tokens) ou des petits successions de mots du vocabulaire d’un corpus textuel. Les programmes informatiques n’ont pas directement accès aux signifiés, c’està-dire aux sens ou aux concepts (représentation mentale du sens). En revanche, le TAL a développé de nombreuses modélisations sémantiques pour représenter les signifiés. Les étiquettes sémantiques et les concepts utilisés dans les systèmes de désambiguïsation sont des signifiants : ils correspondent en fait à des symboles informatiques ou des structures de données se substituant aux signifiés.
Encore une fois, un modèle informatique est nécessaire pour représenter les référents. Ceux-ci correspondent à des objets ou des idées identifiables qui possèdent un ancrage dans le monde réel ou imaginaire. Dans un texte, les référents peuvent être représentés par des unités lexicales (c’est d’ailleurs le cas des entités nommées que nous allons étudier plus loin) porteuses d’une sémantique (un sens peut se rapporter à un référent).
L’exemple suivant illustre les notions de signifiant, signifié et objet :
– Il a prétendu être passé au vert alors qu’il venait de griller le feu.
Le fait d’avoir placé « vert » dans le contexte de « passer » et de « griller le feu » nous permet de comprendre que « vert » est associé à la fois à un référent (l’objet « feu tricolore » qui se rapporte au signifié « signalisation routière ») et un signifié (la couleur verte symbolise une autorisation de circuler).
Ambiguïtés lexicales
L’ambiguïté lexicale est un phénomène linguistique général souvent rencontré par les humains dans leur quotidien mais qui ne gène pas leur compréhension . Même si nous ne parvenons pas toujours à définir exactement chaque mot d’un énoncé, nous sommes en général capables de le comprendre dans sa globalité lorsque le contexte d’énonciation est suffisamment explicite. En revanche en informatique, l’ambiguïté lexicale reste un problème central dans de nombreuses tâches impliquant la manipulation de données en langue naturelle, notamment en recherche d’information, en extraction d’information ou traduction automatique.
Les signes linguistiques peuvent avoir diverses interprétations dans des contextes différents. Lorsque les unités lexicales « passer », « vert », « griller » ou « feu » sont considérées ensemble, il nous est relativement facile de comprendre la situation. En revanche, l’interprétation est plus délicate lorsque les unités lexicales sont prises indépendamment car elles peuvent avoir de multiples sens et se référer à différents objets. L’ambiguïté lexicale peut ainsi porter sur le signifié ou sur le référent.
Dans le cas d’une ambiguïté qui porte sur le signifié, on parle de polysémie lexicale: une unité lexicale polysémique possède plusieurs significations possibles lorsque le contexte n’est pas suffisamment précisé. La plupart des unités lexicales sont polysémiques : il suffit de consulter un dictionnaire pour se rendre compte que chacune de ses entrées lexicales peut être associée à plusieurs définitions. Par exemple « vert » qui symbolisait une autorisation dans l’exemple précédent peut prendre un autre sens dans le même discours :
– Il s’est mis au vert depuis son accident.
Dans le cas de l’ambiguïté référentielle (ou polyréférentialité [Poibeau, 2005]), une unité lexicale peut désigner des idées ou des objets/entités différents. En fonction de son contexte d’usage la sémantique d’une UL doit être modélisée avec des unités de sens plus ou moins fines. Ces sens plus ou moins généraux témoignent d’une granularité variable des interprétations.
Granularité de catégorisation
La palette de couleur ci-dessous illustre le phénomène de granularité des sens rencontré en sémantique lexicale. Cette palette peut être discrétisée selon plusieurs échelles : on peut partir de l’ensemble de la palette en délimitant des grandes zones de couleurs, pour construire un référentiel de base : rouge, vert, bleu, jaune, orange, marron. . . Ces zones peuvent être discrétisées à un niveau plus fin. Les couleurs centrales ou prototypiques sont les meilleurs représentants des zones. Des couleurs intermédiaires situées aux frontières des zones partagent des propriétés en mélangeant des couleurs prototypiques avec plus ou moins d’intensité. Ces couleurs intermédiaires ont un statut ambigu par rapport au référentiel de base. Par exemple, en mélangeant un bleu et un vert, on peut obtenir un bleu turquoise, un vert d’eau qui réalise un continuum entre le bleu et le vert. Le cyan est pour certains bleu et pour d’autres vert.
En réalité, dans une image, certaines couleurs apparaissent très rarement alors que certaines familles de couleurs sont nettement plus représentées. La palette de couleurs représentative d’une image aura donc tendance à détailler davantage les teintes les plus présentes et que l’on a le plus besoin de différencier.
|
Table des matières
Introduction
1 Construction de bases lexicales évolutives à partir de textes
1.1 Représentations du sens et désambiguïsation sémantique automatique
1.1.1 Polysémie des unités lexicales
1.1.1.1 Notions de sémiotique pour le traitement automatique des langues
1.1.1.2 Ambiguïtés lexicales
1.1.1.3 Granularité de catégorisation
1.1.2 Cas particulier des entités nommées
1.1.2.1 Reconnaissance d’entités nommées
1.1.2.2 Ambiguïtés des entités nommées
1.1.2.3 Vers une une désambiguïsation fine des entités nommées
1.1.3 Désambiguïsation lexicale automatique
1.1.3.1 Exploitation du contexte
1.1.3.2 Principales stratégies de désambiguïsation
1.1.4 Discussion
1.2 Constitution de bases lexicales
1.2.1 Bases lexicales constituées manuellement
1.2.1.1 Exemples de bases lexicales généralistes
1.2.1.2 Ressources spécialisées dans le traitement des entités nommées
1.2.1.3 Limites des bases lexicales expertes
1.2.2 Acquisition supervisée de bases lexicales sur corpus
1.2.2.1 Acquisition guidée par des unités de sens prédéfinies
1.2.2.2 Acquisition guidée par des relations sémantiques prédéfinies
1.2.3 Construction automatique de bases lexicales distributionnelles
1.2.3.1 Extraction de contextes distributionnels
1.2.3.2 Représentation du contexte
1.2.3.3 Apprentissage non supervisé pour la structuration d’unités lexicales en classes sémantiquement homogènes
1.2.4 Évolutivité des ressources lexicales
1.3 Approches incrémentales pour la construction de bases lexicales évolutives
1.3.1 Construction à partir de flux de données textuelles
1.3.1.1 Notion de flux de données textuelles
1.3.1.2 Applications et traitements sur des flux de données textuelles
1.3.2 Fusion de connaissances dans les ontologies évolutives
1.3.3 Partitionnement incrémental de données fournies en séquence
1.3.3.1 Analyse de concepts formels
1.3.3.2 Clustering conceptuel incrémental
1.3.3.3 Clustering incrémental exploitant la densité des données
1.3.3.4 Discussion
1.4 Conclusion
2 Constitution d’une base lexicale hiérarchisée par un treillis de Galois
2.1 Treillis de Galois et traitement automatique des langues
2.1.1 Treillis de relations issues de ressources lexicales existantes
2.1.2 Analyse de concepts formels pour la fouille de données textuelles
2.1.3 L’espace des versions en classification supervisée
2.2 Constitution d’un contexte formel à partir de corpus
2.2.1 Corpus de la campagne CoNLL-2003
2.2.2 Analyse en dépendances pour la constitution d’un contexte formel
2.2.2.1 Extraction des dépendances syntaxiques des entités nommées
2.2.2.2 Contexte formel des relations extraites
2.2.3 Discussion
2.3 Construction incrémentale à partir de données fournies en séquence
2.3.1 Construction incrémentale à partir de contextes formels prédéfinis
2.3.1.1 Caractérisation des concepts dans un treillis en construction
2.3.1.2 Intégration des attributs associés à un objet
2.3.1.3 Exemple
2.3.1.4 Construction incrémentale d’un treillis de Galois
2.3.2 Adaptations aux contextes formels présentés en séquence
2.3.2.1 Suppression d’un objet
2.3.2.2 Exemple de suppression
2.3.2.3 Ajout d’une relation quelconque
2.3.2.4 Croissance du treillis
2.3.3 Bilan
2.4 Conclusion
3 Analyse des données linguistiques d’un treillis de Galois lexical
3.1 Structuration d’unités lexicales polysémiques
3.1.1 Treillis d’une relation entre des unités polysémiques
3.1.2 Règles d’implication entre niveaux conceptuels
3.1.3 Extraction de règles d’association
3.2 Polysémie et recouvrements des sens
3.2.1 Degré de polysémie des concepts dans un treillis
3.2.2 Critère distributionnel pour l’extraction de concepts sémantiquement homogènes
3.2.3 Recouvrement et continuité des sens
3.2.3.1 Métrique distributionnelle pour la construction d’un espace sémantique continu
3.2.3.2 Des cliques aux concepts formels
3.3 Représentation géométrique de treillis de Galois
3.3.1 Représentation vectorielle des concepts formels
3.3.2 Projection des concepts formels vers un espace réduit
3.3.3 Cartographie sémantique des concepts formels
3.3.4 Discussion
3.4 Conclusion
4 Exploitation de treillis de Galois en désambiguïsation non supervisée
4.1 La désambiguïsation vue comme une sélection d’unités de sens prédéfinies
4.1.1 Désambiguïsation par définitions de dictionnaire
4.1.2 Mesures de similarité taxonomique
4.1.3 Conclusion
4.2 Annotation conceptuelle d’unités lexicales
4.2.1 Annotation d’un objet en relation avec un attribut
4.2.1.1 Espace de recherche associé à un objet en relation avec un attribut
4.2.1.2 Règles d’association pour la sélection des concepts
4.2.1.3 Exemple d’annotation conceptuelle
4.2.2 Annotation d’entités nommées en relation avec plusieurs attributs
4.2.2.1 L’annotation comme une recherche de concepts candidats dans un treillis
4.2.2.2 Détermination du prototype d’un ensemble de concepts
4.2.2.3 Algorithme de désambiguïsation
4.2.3 Annotation conceptuelle : amélioration de la robustesse
4.3 Évaluation en cascade d’annotations conceptuelles
4.3.1 Protocole d’évaluation en cascade
4.3.1.1 Classification supervisée sur un corpus enrichi
4.3.1.2 Critère de performance pour l’évaluation des systèmes de reconnaissance d’entités nommées
4.3.1.3 Tests statistiques pour la comparaison de performances
4.3.2 Exemple d’annotation conceptuelle
4.3.3 Résultat de l’évaluation en cascade
4.3.4 Problèmes liés à l’évaluation en cascade
4.4 Conclusion
Conclusion