Pour rechercher une information contenue dans un document, l’utilisateur d’un moteur de recherche soumet une question, ou simplement des mots-clés, au système. Par exemple, dans un domaine de spécialité tel que la médecine, un médecin peut avoir besoin d’utiliser un moteur de recherche pour extraire de sa base documentaire les dossiers des patients ayant présenté un souffle systolique. Lorsque le médecin entre comme requête le terme souffle systolique, le système doit alors être capable d’interpréter cette requête et de retrouver parmi les dossiers patients indexés, ceux pour lesquels le patient a présenté un souffle systolique et les renvoyer au médecin. Cependant, dans un domaine de spécialité, le vocabulaire de la requête formulée par l’utilisateur est souvent différent de celui contenu dans le document. Ceci peut entraîner une erreur ou une réponse incomplète à la requête. Par exemple, si les documents ne contiennent pas le terme souffle systolique, le système ne sera pas capable de retourner à l’utilisateur les dossiers dans lesquels sont mentionnés uniquement les diagnostics de la maladie, pourtant pertinents pour la requête. Une solution consiste alors à utiliser la paraphrase lexicale, c’est-à-dire associer aux termes de la requête, les termes sémantiquement ou morphologiquement proches, et ainsi étendre la requête par disjonction. La requête étendue serait ainsi, par exemple, souffle systolique + valvulopathie + rétrécissement aortique + souffle cardiaque, de manière à retrouver au moins un de ces termes. La requête a alors une plus large couverture lexicale, et le système est capable de capturer la variabilité du langage, améliorant ainsi la performance du moteur de recherche et la qualité de la recherche [Claveau et Sébillot, 2004].
Les termes d’un domaine et les relations liant ces termes pouvant être utilisés pour étendre les requêtes sont généralement recensés dans une ressource terminologique. Cette ressource représente de manière plus ou moins couvrante les connaissances du domaine de spécialité en question. Les termes peuvent être de deux types : il peut s’agir de termes simples, c’est-à-dire des unités monolexicales (composées d’un seul mot, comme artère), ou complexes, c’est-à-dire des unités polylexicales (composées de plusieurs mots, comme artère pulmonaire). Les termes complexes se caractérisent par un nombre d’occurrences plus faible que les termes simples, de par le fait qu’en combinant des mots faiblement fréquents, leur fréquence est plus faible. Quant aux relations sémantiques entre les termes, il en existe plusieurs types et plusieurs classifications ont été proposées, avec une granularité plus ou moins fine. Les relations sémantiques classiques, habituellement contenues dans une ressource terminologique sont l’hyperonymie (organe – cœur), la co hyponymie (cœur – rein), la synonymie (cellule du sang – cellule sanguine), l’antonymie (aiguë – chronique) [Nastase et al., 2013]. Cependant, les relations contenues dans la ressource peuvent ne pas être suffisantes pour l’application, en ne couvrant pas le vocabulaire de la requête. C’est le cas lorsque le terme de la requête n’est pas présent dans la ressource, car la terminologie est inadaptée, incomplète ou non disponible pour des traitements automatiques, notamment dans le cas de néologismes ou de variantes terminologiques. Pour pallier ces insuffisances, la solution consiste généralement à constituer automatiquement un réseau lexical à partir des corpus spécialisés à disposition. Il existe deux types de méthodes automatiques, certaines ont pour but d’acquérir un type précis de relations (patrons lexico-syntaxiques, inclusion lexicale), d’autres visent le regroupement sémantique de termes ayant un sens proche (méthodes de clustering, analyse distributionnelle). Toutes les méthodes présentent des avantages et des inconvénients. Les patrons lexico-syntaxiques [Morin et Jacquemin, 2004,Hearst, 1992] obtiennent une bonne précision mais sont peu couvrants, et la mise au point des patrons peut être une tâche longue et coûteuse. Si l’inclusion lexicale [Grabar et Zweigenbaum, 2003] obtient une bonne précision et un bon rappel, elle est limitée du point de vue des relations acquises.
Ainsi, développer des méthodes automatiques pour l’extraction de relations est nécessaire pour pallier le faible recouvrement des ressources terminologiques avec le vocabulaire des requêtes, et pour éviter la construction manuelle des ressources, coûteuse en temps et en ressources. Les relations acquises automatiquement par ces méthodes permettent ensuite d’améliorer la qualité de l’application. Ainsi, dans l’exemple précédent, les relations du domaine fournissant un lien entre la maladie et ses symptômes, telles que souffle systolique – turbulence, souffle systolique – valvulopathie ou souffle systolique – rétrécissement aortique peuvent permettre d’améliorer le rappel et de ramener plus de documents pertinents à la requête souffle systolique entrée par le médecin, en ramenant également les documents contenant turbulence, valvulopathie et rétrécissement aortique.
Parmi les méthodes permettant l’acquisition de relations sémantiques, l’analyse distributionnelle vise à regrouper les mots supposés sémantiquement proches, mais sans permettre de typer le lien entre ces mots. Ainsi, les méthodes distributionnelles sont fondées sur le contexte d’apparition des mots (l’environnement textuel dans lequel le mot apparaît). Elles définissent la proximité sémantique de deux mots en fonction de la quantité de contextes que ces mots partagent. Plus le nombre de contextes communs est élevé, plus les deux mots sont sémantiquement proches [Harris, 1954,Firth, 1957].
Pour modéliser l’analyse distributionnelle, deux types de modèles existent [Sahlgren, 2006,Morlane-Hondère, 2013] : le modèle géométrique et le modèle probabiliste, même si la représentation reste la même. Dans cette thèse, nous abordons l’analyse distributionnelle à travers le modèle géométrique (ou modèle vectoriel), où les vecteurs représentent à la fois les informations contextuelles mais également des données statistiques distributionnelles [Sahlgren, 2006]. Chaque mot cible d’un texte (mots pour lesquels on cherche à identifier une relation) est représenté comme un point dans un espace mathématique en fonction de ses propriétés distributionnelles dans le texte (nombre et fréquences des contextes) [Turney et Pantel, 2010,Lund et Burgess, 1996]. La similarité sémantique entre deux mots est alors définie comme une proximité dans un espace à n-dimensions où chaque dimension correspond à des contextes partagés possibles.
Les modèles vectoriels ont ainsi l’avantage de permettre une quantification facile de la proximité sémantique entre deux mots en mesurant la distance entre deux vecteurs au sein de cet espace (par exemple, le cosinus de leur angle).
Ces modèles vectoriels s’appuient sur une matrice de contextes, qui a pour lignes les mots cibles du texte et pour colonnes les contextes. Cependant, cette matrice a pour inconvénient d’être généralement creuse ou éparse, c’est-à-dire que beaucoup de ses éléments sont à zéro car peu de contextes sont associés à un mot cible. Il s’agit d’un problème de dispersion des données qui est lié essentiellement aux faibles fréquences des mots en corpus. Cet inconvénient des méthodes distributionnelles existe aussi bien pour les corpus en langue générale que pour les corpus en langue de spécialité . Cependant, il est accentué avec les textes de spécialité, caractérisés par des tailles beaucoup plus petites, avec des fréquences de vocabulaire et un nombre de contextes différents plus faibles. De plus, comme nous venons de le voir, les textes de spécialité contiennent des termes simples et complexes. Dans un contexte d’utilisation de l’analyse distributionnelle sur des corpus de spécialité, la prise en compte des termes est essentielle puisque les termes sont porteurs du sens du texte. Cependant, en raison de leurs très faibles fréquences, les termes complexes se retrouvent généralement écartés du calcul de similarité. Récemment, des travaux de recherche sur l’analyse distributionnelle se sont intéressés à la compositionnalité distributionnelle, avec pour objectif la reconnaissance de similarité sémantique pour des unités lexicales allant au-delà du mot, tels que le syntagme, la phrase, le paragraphe, etc. Plusieurs ateliers sur cette thématique ont d’ailleurs été organisés : Compositionality and Distributional Semantic Models , Vector Space Models and their compositionality . Les approches utilisées pour prendre en compte la compositionnalité, sont généralement fondées sur des opérations simples appliquées directement aux vecteurs de contextes, telles que l’addition ou la multiplication des vecteurs [Mitchell et Lapata, 2010]. Mais, à notre connaissance, aucune méthode distributionnelle n’intègre l’identification automatique des termes complexes.
|
Table des matières
1 Introduction
1.1 Contexte
1.2 Problématique
1.3 Proposition
1.4 Présentation des chapitres
2 Etat de l’art
2.1 Paramètres distributionnels
2.1.1 Définition et sélection des contextes
2.1.1.1 Fenêtre graphique
2.1.1.2 Dépendances syntaxiques
2.1.1.3 Positionnement
2.1.2 Force d’association des contextes
2.1.3 Mesure de la proximité distributionnelle
2.1.4 Bilan
2.2 Modèles vectoriels ou d’espaces sémantiques
2.2.1 Représentation géométrique du sens des mots
2.2.2 Matrice de co-occurrence
2.3 Limites : dispersion des données
2.4 Solutions aux limites de l’AD
2.4.1 Influence sur les contextes
2.4.2 La réduction de dimensions (par exemple, la projection aléatoire)
2.4.2.1 Modèles basés sur la Décomposition aux Valeurs Singulières (SVD)
2.4.2.2 Random Indexing (RI) ou projection aléatoire
2.5 Bilan
3 Conclusion
Télécharger le rapport complet