Les bases de données lexicales WordNet et EuroWordNet

Télécharger le fichier pdf d’un mémoire de fin d’études

Fonctionnement d’un système de questions-réponses

Notre développement d’un système d’extraction de justifications s’intègre dans la problématique de questions-réponses. En effet, pour fournir une représentation judicieuse des éléments justifiant la réponse, ce système nécessite une analyse fine des éléments requis par la question. Il s’appuie sur la chaîne de questions-réponses QALC pour obtenir des passages de documents susceptibles de répondre à la requête. Il utilise et complète l’analyse que le système fait de ces passages et tente de mettre en relation les critères de validation de la justification que l’analyse de la question a mis en évidence, avec des éléments du passage susceptibles de les satisfaire.
Notre système peut être vu également comme un module d’un système de questions-réponses puisqu’il aide, par une estimation de la fiabilité des justifications extraites des passages, à estimer la pertinence des réponses rapportées, et par ce moyen, à classer les réponses par ordre de pertinence.
Nous présenterons ci-après l’architecture des systèmes de questions-réponses, en mettant l’accent sur le système QALC.

Architecture générale

Un système de questions-réponses est généralement constitué d’une chaîne de traitements partant de la question, et extrayant des informations linguistiques qui seront décrites en section 1.2.2. Ces informations contiennent des termes qui seront fournis à un moteur de recherche classique pour obtenir des documents. Ces documents seront ensuite filtrés par des techniques variées faisant intervenir des critères de filtrage très variables selon les systèmes. On peut trouver parmi celles -ci la vérification de la présence des termes de la question ou de leur reformulations, la vérification que le type de réponse requis par la question est bien présent dans le document et la vérification de la présence de relations syntaxiques identiques entre la question et la réponse. Les différents critères repérés reçoivent en général une pondération qui permet de classer les documents selon un score de fiabilité permettant de placer en première position ceux qui semblent les plus susceptibles de contenir la question.
On peut prendre comme exemples de tels systèmes le système FALCON [HAR00] qui possède une chaîne de traitements très complète, intégrant notamment un système de preuves logiques, ou le système QALC du LIMSI[FER01a] présentant des techniques nécessitant moins de ressources. Les critères de filtrage se répartissent selon le découpage habituel en linguistique en critères paradigmatiques et syntagmatiques.
Nous utilisons cette division tout au long de thèse, c’est pourquoi nous prenons le temps de définir brièvement cette distinction fondamentale. Rappelons que les phénomènes linguistiques se décomposent en deux axes ; syntagmatique et paradigmatique. L’axe syntagmatique représente les liens entre les mots d’un énoncé. Les relations syntaxiques reliant deux mots ou encore le nombre de mots séparant deux mots d’un énoncé, sont des informations de nature syntagmatique. L’axe paradigmatique représente la possibilité de variation dans la langue.
La notion d’axe paradigmatique se fonde sur la notion de classe de substitution et permet de représenter des phénomènes divers. Par exemple, la notion grammaticale de syntagme verbal peut se définir et se justifier par la constatation de l’existence d’une classe paradigmatique contenant tous les syntagmes nominaux possibles, les éléments de cette classe étant substituables entre eux en préservant la validité syntaxique de la phrase, sans considération du sens ou de la plausibilité de l’énoncé, par exemple : (Gainsbourg | Le chat | Le chanteur | Le deutérium | …) s’est mis à boire.
Dans le cadre de la sémantique qui nous intéresse plus, on peut définir l’ensemble des mots et expressions pouvant se substituer les uns aux autres dans un contexte donné. Par exemple : ( Gainsbourg | Serge Gainsbourg | L’auteur du Poinçonneur des Lilas | Le mari de Jane Birkin … ) constitue une telle classe paradigmatique.
Dans le cadre des systèmes de questions -réponses, la composante paradigmatique du filtrage consiste à repérer dans la réponse les mots de la question et leurs variations. Les différents systèmes admettent des variations plus ou moins importantes. Il est nécessaire de restreindre les reformulations autorisées en raison du bruit qu’elles engendrent. En effet, plus on augmente le nombre de variantes admises pour les mots de la question et plus on accepte comme pertinent des passages sans rapport avec l’information voulue.
Les systèmes de questions-réponses doivent donc utiliser d’autres informations pour contrer le bruit. Les techniques de filtrage comptent notamment la prise en compte de contraintes syntagmatiques, que celles-ci soient représentées par une notion de densité des mots dans le passage [CHA02], par des relations syntaxiques [TAN05] ou des relations étiquetées sémantiquement [HART04].

Validation par un système de décision

Le premier type de systèmes est fondé sur un système d’apprentissage automatique qui décidera si la réponse est valide en fonction d’un ensemble de mesures, ou traits, fournies en entrée. Les systèmes de décision les plus souvent utilisés sont les arbres de décision [ADA06].
Les traits sont obtenus par des modules de comparaison entre question et réponse. L’avantage de ce type de systèmes est de pouvoir aisément ajouter une mesure. De plus, les mesures peuvent être de nature hétérogène.

Types de traits utilisés dans les systèmes de décision

Nous allons détailler les différentes mesures proposées dans les systèmes. Nous distinguons les traits locaux, qui font intervenir une partie très restreinte des termes de la question – le plus souvent, il s’agit d’un appariement d’un terme de l’hypothèse avec un terme du texte – et les traits globaux, qui utilisent la totalité des termes des deux fragments textuels ou du moins une partie la plus grande possible.

Mesure de recouvrement de texte

Cette première catégorie regroupe des mesures globales qui donnent une évaluation de la similarité entre les deux textes, en faisant intervenir des mesures de similarité plus ou moins complexes entre les mots (égalité, relations lexicales) et une notion syntagmatique minimaliste résidant dans la succession des mots dans l’énonciation de la phrase.
Un des traits les plus utilisés est la plus longue chaîne commune (longest common chain) ou plus longue sous-chaîne commune (longest common subchain). Ce type de mesure, avec des variations sur la délimitation de la sous-chaîne et la façon de calculer son poids, est utilisé dans le système FRASQUES du LIMSI[GRA08] ou par Newman dans [NEW05].
Cette chaîne peut être une succession continue de mots comme dans [HIC06]. Dans ce cas on la nomme plutôt « plus longue chaîne commune » ou alors elle peut admettre des discontinuités, comme dans le module de validation des réponses du système FRASQUES.
[NEW05] utilise le score ROUGE fondé sur des recouvrements de n-grammes. Cette mesure est une comparaison des 1- à 4-grammes contenus dans le texte et l’hypothèse. L’ensemble des n-grammes possibles forme un espace vectoriel sur lequel est appliqué une fonction cosinus.
On note également la présence éventuelle de traits négatifs. Certains traits rendent compte de la présence de parties de l’hypothèse ne trouvant pas de correspondants dans le texte, comme dans [ADA06], qui utilise pour ce trait le nombre de mots à supprimer de l’hypothèse, ou [HIC06], qui comptabilise le nombre de chunks à supprimer.

Les bases de données lexicales WordNet et EuroWordNet

La ressource ontologique la plus complète pour l’anglais et la plus utilisée en TAL est la base de données lexicale WordNet. Pour d’autres langues dont le français, il existe un équivalent EuroWordNet[VOS03] présentant hélas pour le français une couverture moindre. La base de données lexicales WordNet est la plus aboutie et nombre de travaux l’utilisent de façon centrale. Aussi, il nous a semblé nécessaire de fournir une vision d’ensemble de cette base de données pour clarifier les parties suivantes.

Base lexicale, synsets comme unité lexicale

WordNet est une base de données lexicale recensant les mots de la langue anglaise avec une excellente couverture. EuroWordNet est une ressource similaire pour un bon nombre de langues européennes, dont le hollandais, l’italien, l’espagnol, l’allemand et le français.
Ces ressources peuvent être vues comme des ontologies, c’est-à-dire une définition des mots et des concepts qu’ils désignent, par le biais de différentes relations entre ces mots ou ces concepts. Une ontologie requiert la couverture d’un domaine spécifié, il s’agit souvent d’un domaine restreint (tourisme : Harmonise, médecine : Ontomed). Les ontologies présentées ici sont destinées à couvrir la langue générale. Notamment, elles couvrent ou visent à couvrir la presque totalité du lexique que l’on rencontre dans des articles de journaux, en exceptant les termes trop spécialisés qui pourraient apparaître occasionnellement, comme Lebesgue_integral ou permittivity.
On peut également voir ces ressources comme des bases de données lexicales, c’est-à-dire comme un dictionnaire structuré fournissant des informations, formalisées ou en langue naturelle, sur ses entrées, ainsi que des liens entre les différentes entrées.
Chacun de ces points de vue implique que la ressource se présente sous la forme d’un graphe de nœuds lexicaux reliés les uns aux autres par des relations que nous présentons ci-après.
Dans les ontologies WordNet et EuroWordNet, l’unité lexicale de base, qui correspond aux nœuds du graphe, est un ensemble de synonymes (nommés synset pour synonym set). Ce synset peut être assimilé à un concept puisqu’il rassemble ou vise à rassembler tous les termes permettant de désigner ce concept. À chaque synset est associé un certain nombre d’informations propres au synset, dont la plus utilisée est une définition (gloss).
Nous détaillons ci-après les liens qui relient ces synsets et en précisent le sens. Chaque catégorie grammaticale est structurée par des liens entre synsets selon une logique qui lui est propre. Le choix des liens est guidé par des considérations psycholinguistiques, c’est-à-dire qu’elles tentent de rendre compte du lexique mental.

Couverture et relations manquantes dans WordNet et EuroWordNet

La couverture d’une ressource dépend de l’usage que l’on veut en faire, notamment des mots qu’on y cherche et des relations dont on a besoin pour la tâche. Pour une ontologie, nous avons besoin que les différents lexèmes rencontrés dans les articles de journaux soient présents dans la base de données. Il faut également que les différents sens de ces mots soient énumérés, avec le moins d’omissions possibles.
Il n’est pas envisageable qu’une ressource couvre tous les mots de la langue. Dans la pratique, il y a toujours des mots et ses sens absents, qu’il s’agisse d’une omission, d’un terme provenant d’un domaine spécialisé ou d’un néologisme. Par exemple, le mot airdate présent dans la collection de documents AQUAINT, qui désigne la date de diffusion d’un programme à la télé ou la radio, n’est pas présent de WordNet 2.1. Cependant, en pratique la couverture de WordNet est excellente en terme de nombre de mots couverts.
Pour donner un exemple, nous pouvons donner le taux de couverture pour les concepts présents dans les questions. Nous avons désambiguïsé manuellement les 500 questions de la campagne d’évaluation TREC11, rattachant chacune au sens qui nous semblait être le bon. Dans ces 500 questions, nous avons désambiguïsé 1013 mots, sans prendre en considération certains termes jugés peu flexibles, comme les noms propres. Si nous enlevons les doublons, il reste 678 concepts parmi lesquels sept n’ont pas été rattachés à un sens de WordNet 2.1, soit une couverture de 99%. Voici quelques exemples de mots manquant : rate dans le sens de taux, H.R. (human resources), dogsledding (course de traîneaux tirés par des chiens), to crack dans le sens de résoudre une énigme. Dans certains cas comme pour rate ou come from, on trouve des sens plus ou moins approchants, mais les gloss restreignent le sens et interdisent de ce fait le rattachement.
La couverture des relations est plus difficile à établir. En effet il nous semble plus difficile de juger des relations qui devraient être présentes ou non. On peut signaler quelques-uns des problèmes suivants :
· Doubles héritages : il arrive qu’un concept de WordNet descende de deux hyperonymes, par exemple geisha descend de woman et Japanese. Par contre, samurai, placé en dessous de warrior ne possède pas de lien d’hyperonymie avec Japanese. On notera toutefois que le terme Japanese est présent dans la définition de samurai, ce qui permet de relier les deux termes, bien que cela implique le passage par une relation non formalisée donc plus dangereuse.
· Les relations entre les verbes ne sont données que si elles sont vraies dans 100% des situations. Pour cette raison : les relations de cause et d’entailment sont peu fréquentes.
· La polysémie des verbes est fort importante ; deux fois plus que celle des noms. De nombreux verbes en anglais (run, drive) proposent un nombre de sens impressionnant notamment à cause du phénomène d’«Argument alternation», c’est-à-dire l’existence de plusieurs structures d’arguments pour un verbe permettant de décrire le même concept, c’est-à-dire le même événement. On peut donner l’exemple du verbe « to drive » :
• diriger un véhicule : drive a car.
•se déplacer quelque part par un moyen de transport .
•se déplacer quelque part par un moyen de transport.
se déplacer quelque part par un moyen de transport :  souvent naissance à trois sens distincts dans WordNet.
· Dans un même ordre d’idées, les noms et les verbes pourraient bénéficier de relations dites converses[LAU05], comme les verbes vendre-acheter ou les noms père-fils, professeur-élève. Ceci améliorerait la détection de la réponse pour la question :
Q : Who is Tom Cruise’s wife?.
R : Nicole Kidman’s husband, Tom Cruise.
· Les relations de gradation pourraient être utiles autant pour les noms (par exemple village, town, city, megalopolis) que pour les adjectifs (large, huge, enormous).
Pour ce qui est d’EuroWordNet en français, la couverture est bien moins satisfaisante. Les mots absents sont plus nombreux et on compte parmi les absents des mots relativement courants (exportation, islamique, autel, nonne, bosnien, bosniaque, etc.). Jacquin et al. [JAC06] pointent les problèmes d’une hiérarchie des noms comportant trop peu de niveaux. Certains mots ne sont pas reliés à leur hyperonyme. [JAC06] propose des techniques pour réparer les défauts d’EuroWordNet.

Sémantique locale syntagmatique

Les systèmes de question-réponses possèdent tous un moyen d’estimer si les mots de la réponse candidate se retrouvent à proximité dans la réponse. L’idéal est de vérifier que les relations syntagmatiques entre les termes de la question s’apparient avec celles de la réponse, que ce soit au plan syntaxique ou syntagmatique. Dans les cas les plus modestes, il s’agit d’une simple mesure de proximité des mots.

La syntaxe et la sémantique syntagmatique

L’analyse morphosyntaxique, syntaxique ou sémantique peut se faire par des ensembles de règles ou par apprentissage statistique sur un corpus annoté. L’analyseur XIP donne un exemple d’analyseur morphosyntaxique et syntaxique basé sur des règles pour le français et l’anglais.
Des ressources ont été développées, comme Penn Tree Bank pour la morphosyntaxe et la syntaxe, qui ont permis d’entraîner de nombreux analyseurs syntaxiques statistiques pour l’anglais(Stanford parser, Charniak parser). La création de ressources comme PropBank : Corpus où les relations entre un verbe et ses arguments sont annotées sémantiquement[KIN02] ou FrameNet facilitent la création d’outils d’étiquetage sémantique [PRA04], [SHI04].
Ces analyseurs sont ensuite utilisés par des systèmes de questions-réponses (ex: [NAR04]) pour créer une représentation structurée de la question et l’apparier avec les réponses candidates. La différence entre les structurations syntaxiques et sémantiques tient à ce que la structuration syntaxique est fortement liée à la forme du texte. Ce type de représentation permet en général de reconstituer la phrase mot pour mot en conservant l’ordre de ceux-ci. La représentation sémantique est plus distante de la structure de la phrase. Idéalement, deux phrases portant le même sens doivent être analysées de façon identique. Dans la pratique, la qualité du rapprochement dépend de la qualité de l’analyse sémantique effectuée. Certains systèmes se contentent d’une représentation proche de la syntaxe, faute de disponibilité d’un analyseur sémantique fiable.
De nombreux problèmes se posent pour obtenir une analyse fiable. Un problème commun à l’analyse syntaxique et sémantique est celui du rattachement correct des arguments à leur gouverneur, notamment pour les groupes prépositionnels. Si l’on veut obtenir une analyse sémantique de qualité, il est de plus utile de désambiguïser les verbes du texte afin de connaître leur structure sémantique et effectuer un rattachement correct de leurs différents arguments. Par exemple les phrases suivantes pourraient être analysées d’une manière similaire. Ci dessous l’analyse est représentée sous le formalisme de FrameNet, chaque étiquette d’un terme désigne le rôle qui le relie au prédicat Buy, formant ainsi un graphe en étoile :. L’intérêt d’une analyse sémantique poussée par rapport à l’analyse syntaxique est, en réduisant la distance entre les représentations des phrases de même sens, de simplifier le processus d’appariement ultérieur entre question et réponse. Les programmes utilisant un appariement syntaxique doivent se contenter d’un appariement partiel ou implémenter des règles de reformulation, comme dans [ZAN05].
L’appariement des représentations de la question et de la réponse peut constituer le centre du système d’appariement [HART04],[BAR05a] ou donner une mesure de similarité syntagmatique qui sera utilisée comme un critère parmi ceux fournis à un système de décision [HIC06]. Dans le second cas, le système d’analyse sémantique peut se contenter de représentations partielles de la question et de la réponse. Par exemple, dans l’article de Hickl, il s’agit de vérifier la structure casuelle du verbe principal de la question.

FrameNet et rôles sémantiques

La frame est une description de la structure casuelle d’un événement, action ou processus. Elle décrit les différents rôles sémantiques acceptables pour décrire cet événement, en faisant la distinction entre les rôles CORE, qui sont les arguments fondamentaux de l’événement. Parmi ceux-ci on reconnaît en général un agent, un patient, un objet, etc., bien que les étiquettes utilisées pour ces rôles soient spécifiques à chaque événement. Ainsi, dans l’événement concernant les transactions commerciales (Commercial Transaction), les arguments fondamentaux seront étiquetés : Acheteur, Vendeur, Bien, Argent.
Les rôles NON-CORE donnent des arguments accessoires de l’événement, qui contiennent entre autres les compléments circonstanciels. Outre ceux-ci, on trouvera des caractéristiques facultatives de l’action, par exemple, le prix d’une transaction commerciale peut être fixé par un taux (ex : des tomates vendues 1€99 le kilo).
Cette description de concept est lexicalisée par une liste de lexèmes décrivant l’événement, par exemple, pour l’événement Change of Leadership, les unités lexicales associées sont : appoint.v, coronate.v, coup.n, crown.v, depose.v, dethrone.v, elect.v, election.n, enthrone.v, install.v, insurrection.n, mutiny.n, mutiny.v, name.v, oust.v, overthrow.n, overthrow.v, rebellion.n, revolt.n, revolt.v, revolution.n, revolutionary.n, take over.v, throne.v, topple.v, uprisingn, vest.
L’extension donnée au mot (.v, .n ou .a) indique la catégorie lexicale de celui-ci. On notera donc que les noms et les verbes décrivant l’événement sont réunis dans la même liste d’unités lexicales, ce qui donne une famille élargie de quasi-synonymes, intéressante pour fournir des reformulations.

Approximation de l’appariement syntaxique par des mesures de densités

De nombreux systèmes n’effectuent pas d’appariement des relations syntagmatiques car cela demande de disposer d’un analyseur syntaxique fiable. De plus la conception d’un algorithme d’appariement entre questions et réponses est un problème ouvert qui demande donc un temps de développement non négligeable. Pour ces raisons, les systèmes approximent la composante syntagmatique par des mesures telles que :
– Densité linéaire : Une mesure du rapprochement des mots du passage sans considération du type de relations unissant les mots, comme dans le système QRISTAL[LAU05].
– Densité syntaxique[BAR05a][LIG06,p106] : Mesure qui reprend l’idée précédente en mesurant la densité sur une structure syntaxique arborescente. L’intérêt de cette mesure est de permettre l’omission des modifieurs (adjectifs, groupes prépositionnels) et des propositions incises qui éloignent les éléments de justification dans le cas d’une distance linéaire. Cette mesure de densité améliore un peu les résultats par rapport à la mesure linéaire [BAR05a].
– D’autres méthodes se fondent sur le repérage de la plus longue sous-chaîne (LCS) commune entre la question et la réponse, permettant ainsi de reconnaître des passages répondant à la question en conservant une formulation assez similaire. De nombreux systèmes de reconnaissance de l’implication utilisent ce genre de mesures, parfois sans utiliser d’autres mesures de proximité[KOZ06], parfois en collaboration avec des mesures syntaxiques ou de sémantique syntagmatique précises[HIC06]. Toutefois l’utilisation d’une mesure de LCS comme seule estimation syntagmatique de la réponse permet seulement d’atteindre des scores d’exactitude médiocres, de l’ordre de 55%.

Connaissances pragmatiques et encyclopédiques

En linguistique, la pragmatique peut être définie de façon générale comme l’étude des phénomènes dont la signification ne peut être comprise qu’en replaçant l’énoncé dans son contexte, c’est-à-dire comme une action sur le monde.
Cette définition permet d’englober deux aspects importants. D’une part la pragmatique étudie la logique du langage comme instrument d’interaction entre les individus, traitant de l’existence d’informations présupposées et d’actes de langages dans un énoncé. D’autre part, elle traite de l’utilisation de connaissances sur le fonctionnement du monde dans l’analyse d’un énoncé, celles-ci permettant par exemple de faire des inférences sur le texte et d’éviter des erreurs de compréhension.
Le premier aspect de la pragmatique, orienté vers le langage lui-même, est peu abordé dans notre thèse, à l’exception de la notion de présupposés. Les présupposés d’un énoncé sont des informations que l’auteur d’un énoncé suppose comme partagées avec son interlocuteur. De ce fait, il s’attend à ce qu’il n’y ait pas de remise en cause de celles-ci. Par exemple, l’énoncé « Prête-moi ta montre » indique que le locuteur croit que son destinataire possède l’objet. Dans « Pierre ignorait que Paul était là » L’ignorance de Pierre est simplement affirmée, mais l’information sur la présence de Paul est présupposée. En raison de cette présupposition, l’énoncé suivant est surprenant, et l’on ne peut l’interpréter : Cette connaissance permet d’effectuer certains raisonnements utiles pour répondre à des questions. D’une part ces informations supposées vraies par l’utilisateur et ce fait, la justification qui lui est apportée n’a pas besoin d’apporter la preuve de leur validité. Un système pourrait même se passer de vérifier ces présupposés, à condition de faire confiance à leur détection ainsi qu’aux connaissances de l’utilisateur qui a posé la question. Un exemple d’information facultative est illustré par le couple question-réponse suivant tiré de TREC11:
Ici la question demande de trouver le nom de l’épouse de Tom Cruise. Cette question sous-entend que l’auteur pense que Tom Cruise est marié avec quelqu’un. La réponse Nicole Kidman (réponse datée, car la collection utilisée pour la campagne date des années 1998 à 2000) est presque totalement justifiée par le passage réponse. À ceci près que l’article ne précise pas si le couple est marié. L’information présupposée vient donc combler ce manque.
Le second aspect de la pragmatique concerne les connaissances de sens commun. Celles -ci, partagées par tout être humain, comportent notamment la connaissance du fonctionnement du monde. On peut citer les ordres de grandeur des objets ou les connaissances des règles physiques. Ces connaissances permettent aux êtres humains de détecter des erreurs d’interprétation. Ainsi, dans l’exemple :
elles permettent d’inférer que la voiture est un jouet, en prenant en considération l’ordre de grandeur des objets ainsi que le fait que les voitures sont des jouets usuels. Ces connaissances de sens commun sont censées être connues de tous et, pour cette raison, ne sont que très rarement rappelées dans les ressources textuelles telles que les articles de journaux ou les pages de la toile.
Dans des encyclopédies, comme Wikipédia, on peut trouver certaines de ces connaissances, par exemple : la Terre tourne autour du soleil, un réfrigérateur sert à conserver la nourriture. Mais on ne peut pas trouver des connaissances trop basiques et trop universellement connues sur le fonctionnement du monde, comme les ordres de grandeur, et les lois de la physique qui régissent notre vie quotidienne.
Ceci met en évidence une gradation parmi les connaissances sur le monde, des connaissances les plus élémentaires, les mieux connues et partagées, dont l’évocation dans un document semblerait superflue et ridicule, jusqu’aux connaissances les moins partagées, qui méritent d’être rappelées dans des articles, par exemple les connaissances d’un spécialiste.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 : Présentation des systèmes d’extraction d’information
1.1 La recherche d’informations précises
1.1.1 Recherche d’information
1.1.2 Qu’est-ce qu’une réponse
1.1.3 Évaluation des systèmes de questions-réponses
1.2 Fonctionnement d’un système de questions-réponses
1.2.1 Architecture générale
1.2.2 Analyse de la question
1.2.2.1 La catégorie de la question
1.2.2.2 Type attendu de la réponse
1.2.2.3 Termes de la question
1.2.2.4 Focus
1.2.3 Extraction et filtrage des documents
1.2.3.1 Extraction des documents
1.2.3.2 Filtrage des documents
1.2.4 Validation de la réponse et implication textuelle
1.2.4.1 Validation par un système de décision
1.2.4.2 Validation par une méthode structurée
1.3 Conclusion
Chapitre 2 : Application des connaissances linguistiques en QR
2.1 Sémantique locale paradigmatique
2.1.1 Ressources non hiérarchiques
2.1.2 Données structurées, ontologies
2.1.2.1 Les bases de données lexicales WordNet et EuroWordNet
2.1.2.2 Utilisation de ressources lexicales structurées
2.2 Sémantique locale syntagmatique
2.2.1 La syntaxe et la sémantique syntagmatique
2.2.2 FrameNet et rôles sémantiques
2.2.3 Connaissances pragmatiques de type script/schème
2.2.4 Approximations syntaxiques
2.3 Connaissances pragmatiques et encyclopédiques
2.4 La sémantique distante ou énonciative
2.4.1 Anaphores et coréférences
2.4.2 Thématisation et contexte
2.4.3 Constructions parallèles
2.4.4 Coopération d’informations
2.4.5 Informations manquantes
2.4.6 Conclusion sur la sémantique distante
2.5 Conclusion générale
Chapitre 3 : Étude de corpus
3.1 Utilité du corpus
3.1.1 Étude des justifications
3.1.2 Validation du système
3.1.3 Enrichissement de l’annotation
3.2 Sélection des documents
3.2.1 Description du corpus brut
3.2.2 Extraction par des systèmes de questions-réponses
3.2.3 Construction du corpus brut
3.2.4 Description de l’outil de construction de corpus
3.3 Justification
3.3.1 Représentation de la question
3.3.1.1 Les termes de la question et le type attendu
3.3.1.2 Mots-outils
3.3.1.3 Représentation de la question
3.3.1.4 Rattachement des compléments temporels
3.3.1.5 Gestion de différents niveaux de granularité
3.3.2 Modèle d’une justification
3.3.2.1 Appariement entre question et réponse
3.3.2.2 Réponses étendues sur plusieurs phrases ou plusieurs documents
3.3.2.3 Niveau de granularité et recouvrement
3.3.2.4 Éléments manquants
3.4 Annotation des justifications dans le corpus
3.4.1 Faciliter L’annotation
3.4.2 Simplification du modèle pour l’annotation
3.4.3 Outils d’annotation
3.4.4 Conclusion
3.5 Analyse du corpus
3.5.1 Mesures de variation sémantique
3.5.1.1 Fréquence des types de variation sémantique
3.5.1.2 Constitution des justifications
3.5.2 Répartition spatiale des éléments
3.6 Conclusion
Chapitre 4 : Algorithme d’extraction de justifications
4.1 Le coeur de l’algorithme
4.1.1 Les enjeux du programme
4.1.1.1 Intégration modulaire de connaissances hétérogènes
4.1.1.2 Les probabilités comme échelle commune
4.1.2 Algorithme central
4.1.2.1 Implémentation par l’algorithme A*
4.1.2.2 Application de l’algorithme à notre cas
4.1.2.3 Caractère approximatif de l’algorithme d’optimisation
4.1.3 Limitations de l’algorithme
4.1.3.1 Collaboration limitée entre modules
4.1.3.2 Contraintes algorithmiques sur les modules
4.2 Des modules pour le modèle
4.2.1 Modules paradigmatiques
4.2.1.1 Appariement de termes avec Fastr
4.2.1.2 Module de détection de la réponse EN
4.2.1.3 Module de plus longue sous-chaîne commune
4.2.1.4 Clone du système QALC
4.2.1.5 Termes manquants
4.2.2 Modules syntagmatiques
4.2.2.1 Intégrer une analyse des relations sémantiques
4.2.2.2 Module de distance entre phrase
4.2.2.3 Module mono-phrase avec pondération par densité linéaire
4.3 Illustration de l’algorithme
4.3.1 Versions du système
4.3.2 Variation de la justification suivant les modules utilisés
4.3.3 Variations sémantiques
4.3.4 Réponses monophrases et multiphrases
4.3.5 Variations dans la taille des passages
4.3.6 Remontée de documents grâce au LCC
4.4 Validation des modules et résultats
4.4.1 Intégration du programme dans la chaîne
4.4.2 Comparaison au système QALC
4.4.3 Apport du traitement multiphrase
4.4.4 Apports des modules LCC_seuil et LCC_seuil_ordre
4.4.5 Sélection des réponses courtes
4.5 Perspectives
4.6 Conclusion
Chapitre 5 : Conclusion générale

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *