Architecture d’un système de question-réponse

Architecture d’un système de question-réponse 

La notion de système de question-réponse fut introduite à la fin des années 70 avec le système QUALM (QUestion Answering Mechanism) développé par Lehnert en 1977 (Lehnert, 1977). La conception de ce système a largement contribué au développement des systèmes de question-réponse. Le processus de recherche débute par la catégorisation de la question posée ; le but est ici de délimiter le contexte de la question afin de déterminer la stratégie de recherche à employer pour extraire la réponse. Cette dernière est extraite en appliquant des heuristiques. Cependant, il a fallu attendre la première campagne d’évaluation pour les systèmes de question-réponse, à savoir la piste Question Answering de TREC (Text Retrieval and Evaluation Conference : http://trec.nist.gov) en 1999 (Voorhees, 1999), pour constater l’intérêt de la communauté de la recherche d’information pour ce domaine et voir émerger, depuis lors, un grand nombre de systèmes.

Bien que les techniques diffèrent d’un système à l’autre, la plupart des systèmes de questionréponse reposent sur une architecture classiquement fondée sur quatre modules complémentaires que nous détaillerons dans la suite de ce chapitre . Le premier de ces quatre modules concerne l’analyse de la question. Il vise plus précisément à extraire d’une question les informations permettant de repérer la réponse dans les documents comme le type de la question posée, l’objet sur lequel porte cette question, appelé aussi «focus», le type de la réponse attendue et les mots importants de la question. Le deuxième module a quant à lui pour objectif de sélectionner un ensemble de documents ou d’extraits de documents facilitant ainsi les traitements de la suite de la chaîne. Le troisième module se charge d’analyser les documents sélectionnés et d’en extraire les passages candidats susceptibles de contenir la réponse. Enfin, le quatrième et dernier module permet de rechercher dans les passages sélectionnés la réponse qui, selon la question et la particularité des systèmes, se présente sous la forme d’une entité nommée ou d’un passage contenant la réponse. Ces quatre modules s’appuient principalement sur des techniques de traitement automatique de la langue et de recherche d’information. Les outils de recherche d’information servent plus particulièrement à la recherche des documents et des passages les plus pertinents, tandis que les techniques de traitement de la langue permettent d’améliorer les procédures d’extraction d’information en offrant la possibilité d’effectuer une analyse plus en profondeur de la question et des documents.

Analyse des questions 

L’analyse de la question est une étape importante dans la chaîne de traitement d’un système de question-réponse (Mendes et al., 2004), outre le fait qu’elle est la première. En effet, il est primordial pour un système d’analyser une question aussi soigneusement que possible car cette analyse conditionne la stratégie de recherche à appliquer. L’objectif principal de l’analyse de la question est à la fois de déterminer ce que le système doit chercher et de mettre en évidence les éléments informatifs permettant de sélectionner une réponse. Ainsi, l’analyse de la question doit déterminer :

– le typage de la question : il permet d’attribuer à la question une catégorie selon une classification prédéfinie (Définition, Factuelle, Booléenne). Par exemple la question suivante : « Quelle est la définition du paludisme ? » est une question définitoire, tandis que la question « Citer sept pays membres de l’Union européenne ? » se verra attribuer la catégorie factuelle de type liste ;
– les entités nommées de la question : il s’agit de repérer toutes les entités nommées présentes dans la question. Cela revient à repérer par exemple l’entité personne « Pablo Picasso » dans la question « Dans quelle ville est né Pablo Picasso ? » ;
– le type de la réponse attendue : ce type est généralement formalisé sous la forme d’un type d’entité nommée (personne, date, lieu, …) ou d’un type d’entité plus élargi (maladie, traitement, évènement, …). Ainsi, pour la question « Qui a écrit Harry Potter ? », le type de la réponse attendue est une entité nommée PERSONNE ; pour la question « Quel est le traitement de la cirrhose ? », le type attendu est l’entité TRAITEMENT. Ce type de questions est souvent plus facile à traiter que les questions portant sur des définitions ou des explications où le type sémantique de la réponse est plus complexe et moins facilement identifiable ;
– le focus de la question : il s’agit d’extraire l’objet sur lequel porte la question, c’est-àdire un élément susceptible d’être présent dans le passage réponse. Pour la question « En quelle année est né Alexandre Pouchkine ? », le focus est ainsi Alexandre Pouchkine.

Parallèlement, les mots-clés présents dans la question sont extraits pour composer une requête d’interrogation permettant à un système de recherche documentaire de retourner un ensemble de documents jugés pertinents. Ces mots sont considérés comme des éléments importants ayant un rapport direct avec la réponse permettant ainsi de restreindre le contexte de la question. Par exemple, pour la question : « Combien d’oscars a reçu le film Titanic ? », les mots-clés à extraire sont : « oscars, film, Titanic » et la réponse à rechercher est une entité numérique de type quantité (en oscars).

Afin de classer les questions, les systèmes de question-réponse utilisent des approches différentes mais s’appuyant généralement sur des critères linguistiques. Ils utilisent pour ce faire différents outils de traitement automatique des langues allant de l’étiqueteur morphosyntaxique jusqu’à l’analyseur syntaxique (Hermjakob, 2001 ; Graesser et al., 1992) en passant par le reconnaisseur d’entités nommées.

Certains systèmes de question-réponse effectuent une analyse plus en profondeur des questions allant jusqu’à une véritable analyse sémantique et une reformulation. Il s’agit dans ce cas d’extraire la ou les relations sémantiques sous-jacentes à la question et d’en construire une représentation sémantique, à la manière du système JAVELIN (Nyberg et al., 2002). Enfin, il est important de souligner que dans le cas de la reformulation d’une question ou de l’extension d’une requête, la plupart des systèmes se fondent sur une approche utilisant des connaissances sémantiques comme le réseau WordNet pour obtenir les différentes variations sémantiques des termes constituant la question.

Recherche des documents

Dans un système de question-réponse, la recherche des documents se fait par l’interrogation d’un système de recherche d’information. Cette étape se révèle particulièrement capitale et complémentaire à l’analyse de la question pour la recherche de la bonne réponse car les systèmes de question-réponse ne peuvent trouver une réponse à une question que si elle est présente dans les documents sélectionnés. Cette tâche consiste donc à interroger un moteur de recherche classique pour récupérer une sélection de documents ou de passages restreints potentiellement porteurs de la réponse. Pour ce faire, les systèmes de question-réponse se reposent sur l’analyse de la question qui permet de générer une requête, souvent de nature booléenne, dédiée à l’interrogation d’une base textuelle. Dans un contexte des systèmes de question-réponse en domaine restreint, la recherche documentaire se fait sur un ensemble généralement limité de documents alors que pour les systèmes en domaine ouvert, la recherche d’information s’effectue sur une grande collection de textes couvrant presque tous les domaines tels que les sources de données existantes sur le Web. De plus, utiliser le Web comme source de connaissances permet aux systèmes de question-réponse de bénéficier de la redondance informationnelle (Lin, 2007), cependant, la fiabilité de ces informations est mise en cause.

La requête d’interrogation est constituée principalement des termes importants de la question tels que les noms, verbes et adjectifs. Elle permet à la fois de restreindre le contexte de la recherche d’information et d’identifier les documents jugés pertinents par le moteur de recherche pour l’extraction de la réponse. Ces mêmes documents sont utilisés non seulement pour extraire la réponse recherchée mais aussi pour la justification de celle-ci. Cependant, l’exploitation d’un mot clé d’une question ne permet pas nécessairement de repérer la réponse dans un document. En effet, la signification d’un mot peut être représentée ou interprétée de différentes manières. Aussi, grâce à l’apport de techniques du traitement automatique de la langue, les systèmes de question réponse évolués effectuent des transformations de la requête. Ces transformations consistent essentiellement à étendre la requête par l’ajout de termes en relation avec les mots-clés constituant la requête. L’idée est d’orienter le comportement des systèmes de recherche d’information afin de sélectionner non pas des documents qui traitent du sujet de la question mais plutôt des documents porteurs de la réponse. Il est ainsi possible de récupérer plus de documents pertinents contenant la réponse. Les termes ajoutés sont en pratique des mots proches des mots-clés de la question et entretiennent avec eux des relations sémantiques telles que les relations d’hyperonymie ou de synonymie. L’expansion de requête se base donc sur l’enrichissement de la requête initiale par des variations sémantiques (comme les synonymes, hyperonymes…) des termes qui la composent (Harabagiu et al., 2001), ou encore en exploitant les liens sémantiques entre les noms et les verbes, comme dans (Claveau et al., 2004). Pour extraire les différentes variantes linguistiques des mots, les systèmes utilisent des ressources lexicales et des bases de connaissances sémantiques spécialisées comme dans (Voorhees, 1994) qui exploite le thésaurus WordNet.

Analyse des documents candidats

Les techniques avancées de traitement automatique de la langue, souvent utilisées pour l’extraction de réponse, demeurent trop lourdes pour être utilisées sur une grande quantité de textes. C’est ce qui amène les systèmes de question-réponse à faire appel aux systèmes de recherche d’information pour restreindre le nombre de documents à analyser. Les documents retournés par le moteur de recherche sont généralement en relation directe avec le thème de la question et sont censés apporter la réponse à la question initiale. Dans la même perspective et en vue de réduire le temps d’extraction des réponses, les documents candidats sont ensuite classés par pertinence. Cette tâche consiste à ordonner les documents selon un poids calculé sur la base de la présence des mots-clés de la question dans les textes.

L’analyse des documents candidats a pour objectif principal de parcourir les documents sélectionnés pour rechercher les meilleurs passages de textes ou les phrases correspondant à la réponse recherchée en s’appuyant principalement sur les éléments issus de l’analyse de la question. La stratégie pour ce faire consiste le plus souvent à extraire des documents les passages ou les phrases comportant au moins un mot de la question ou une entité du même type sémantique que la réponse attendue. De même que pour la sélection des documents candidats, ces passages ou ces phrases sont hiérarchisés par ordre de pertinence. Leur choix est réalisé par des approches différentes spécifiques à chaque système. La méthode la plus utilisée consiste à repérer les mots de la question dans les documents pour n’extraire que les passages ou les phrases ayant le plus de mots en commun avec la question (Gillard et al., 2005). Un certain nombre de systèmes adoptent une stratégie plus avancée fondée sur le calcul d’une mesure de proximité entre les mots de la question dans les passages (Nyberg et al., 2003), c’est-à-dire qu’ils font l’hypothèse que dans les documents censés contenir une réponse, les termes de la question et le type la réponse attendue sont proches. D’autres approches, améliorant la performance des systèmes de question réponse dans la sélection des passages pertinents ont été proposées et appliquées comme celle de (Gillard et al., 2006) qui repose sur la densité des mots de la question dans les passages. Le calcul de cette densité est tout d’abord déterminé par l’extraction des objets de la question : les lemmes des mots, les types d’entités nommées présentes et le type de la réponse à rechercher. Ensuite, pour chaque élément, une distance moyenne est calculée entre l’objet courant et les autres objets de la question. Cette distance est utilisée par la suite pour le calcul du score de densité afin d’identifier le passage le plus en relation avec la question, i.e. le passage censé contenir la réponse souhaitée. Pour réduire la perte d’information, le passage candidat est composé d’un bloc de trois phrases regroupant la phrase réponse complétée par la phrase précédente et la phrase suivante.

Parallèlement au découpage des documents sélectionnés en passages, les méthodes d’analyse des documents permettent de réaliser un enrichissement de chaque passage candidat. Parmi les enrichissements les plus fréquents, les entités nommées présentes dans la phrase sont identifiées et les variations terminologiques des mots de la question reconnues. La reconnaissance des entités nommées consiste à extraire les différents types d’entités nommées que contient le passage, les plus communes étant les entités nommées de type MUC (Message Understanding Conferences) (Grishman et al., 1995) : les noms de personnes, d’organisations, les lieux, les unités de mesures ainsi que les dates. Cette tâche est effectuée en respectant une hiérarchie de classes et de sous-classes définie au préalable qui peut varier d’un système à un autre . Enfin, pour compléter cette analyse des passages, la plupart des systèmes de question-réponse ont recourt à des bases de connaissance leur permettant d’identifier les variantes lexicales des mots de la question dans les passages (Yang et al., 2002 ; Ferret et al., 2001a). À ce niveau, les systèmes font généralement intervenir des connaissances morphologiques et sémantiques existantes issues de dictionnaires électroniques ou des ressources lexicales plus évoluées telles que WordNet.

D’autres systèmes plus sophistiqués vont encore plus loin dans l’analyse en utilisant des méthodes spécifiques visant à désambiguïser le sens de certains termes présents dans les passages pouvant receler des indices nécessaires à l’extraction de la réponse recherchée. Par exemple (Crestan et al., 2004) ont développé un module spécialisé de résolution d’anaphores. Ce module n’est utilisé que dans leur système en anglais en raison d’une difficulté rencontrée pour le français. En effet, ce module connaît des difficultés pour distinguer les formes impersonnelles (le pronom « il » par exemple) dans les textes.

Extraction des réponses 

Le module d’extraction de réponses constitue le dernier maillon de la chaîne de traitement d’un système de question-réponse. Cette fonction symbolise la différence majeure d’un tel type de systèmes par rapport aux systèmes de recherche d’information traditionnels. Rechercher une réponse à une question revient à fouiller les passages candidats sélectionnés par l’analyse des documents choisis afin d’identifier et extraire le passage réponse correspondant à la question formulée. Cette notion de « passage réponse », qui caractérise la réponse supposée correcte retournée par le système, peut être présentée sous différentes formes suivant le système. Dans la majorité des systèmes de question-réponse, la réponse retournée est une liste de réponses organisée selon un indice de confiance ou bien leur fréquence d’apparition dans les documents candidats tandis que pour certains, la réponse retournée est une réponse unique courte ou un extrait d’un document contenant la bonne réponse avec son contexte.

La fonction d’extraction de réponses concentre l’intérêt principal des systèmes de questionréponse. Cette phase constitue l’un des points caractéristiques permettant d’individualiser les différents systèmes de question-réponse. En pratique, elle est le résultat d’un appariement réalisé entre la représentation de la question et les portions de textes sélectionnées à l’issue de l’analyse des documents candidats. La représentation d’une question peut prendre différentes formes et peut être plus ou moins riche en connaissances. (Monceaux et al., 2002) exploite par exemple les connaissances syntaxiques des mots de la question tandis que (Mendes et al,. 2004) va jusqu’à s’appuyer sur la transformation des éléments de la question en prédicats logiques. Le but de cette représentation est d’exploiter au maximum les contraintes syntaxiques et sémantiques des questions afin d’effectuer certaines inférences pour retrouver les réponses. Pour ce faire, les systèmes performants se fondent sur des outils élaborés de traitement automatique des langues tels que l’analyse sémantique, dont l’apport s’avère primordial pour réaliser une meilleure analyse des questions (Poibeau et al., 2003) et déterminer des stratégies de recherche adaptées.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1. Systèmes de question-réponse : problématique et état de l’art
1.1 Introduction
1.2 Du moteur de recherche au système de question-réponse
1.3 Architecture d’un système de question-réponse
1.3.1 Analyse des questions
1.3.2 Recherche des documents
1.3.3 Analyse des documents candidats
1.3.4 Extraction des réponses
1.4 Présentation de quelques systèmes de question-réponse
1.4.1 Le système QALC
1.4.2 Le système QRISTAL
1.4.3 Le système PIQUANT
1.4.4 Le système JAVELIN
1.4.5 Le système PowerAnswer
1.4.6 Le système WEBCOOP
1.4.7 Le système d’InsightSoft
1.5 Problématique des systèmes de question-réponse en domaine restreint – Cas particulier du domaine médical
1.6 Limites actuelles des systèmes de question-réponse
1.7 Conclusion
2. Ressources linguistiques et terminologiques du domaine médical
2.1 Introduction
2.2 Ressources terminologiques et sémantiques dans le domaine médical
2.2.1 MeSH
2.2.2 SNOMED
2.2.3 CIM-10
2.2.4 ORPHANET
2.2.5 UMLS
2.2.6 GALEN
2.2.7 MENELAS
2.2.8 Synthèse
2.3 Proposition d’une ontologie du domaine médical
2.3.1 Concepts médicaux retenus
2.3.2 Relations sémantiques retenues
2.4 Conclusion
3. Enrichissement d’une ontologie du domaine médical
3.1 Introduction
3.2 Identification des concepts
3.2.1 Construction des ressources
3.2.2 Reconnaissance des entités médicales
3.3 Extraction de relations sémantiques
3.3.1 Travaux existants sur l’extraction de relations sémantiques
3.3.2 Apprentissage de patrons lexico-syntaxiques
3.3.3 Application des patrons appris à l’identification de relations
3.4 Évaluation
3.4.1 Évaluation de l’identification de concepts
3.4.2 Évaluation de l’extraction des relations
3.5 Discussion
3.6 Conclusion
4. Le système Œdipe
4.1 Présentation du système Œdipe
4.2 Architecture d’Œdipe
4.3 Présentation de l’analyseur LIMA
4.3.1 Tokenisation et analyse morphologique
4.3.2 Identification des expressions idiomatiques
4.3.3 Étiquetage morpho-syntaxique
4.3.4 Identification des entités nommées
4.3.5 Analyse syntaxique
4.3.6 Exemple du résultat de l’analyse linguistique
4.4 Description des modules du système Œdipe
4.4.1 Sélection des passages candidats
4.4.2 Extraction de la réponse candidate
4.5 Traitement des questions définitoires
4.5.1 Identification du focus
4.5.2 Apprentissage des patrons de définition
4.5.3 Application des patrons de définition
4.6 Conclusion
5. Esculape : guider Œdipe par une ontologie du domaine médical
5.1 Introduction
5.2 Taxinomie des questions
5.3 Modélisation des questions
5.4 Analyse des questions
5.5 Extraction des réponses
5.5.1 Apprentissage de patrons d’extraction de réponses
5.5.2 Utilisation des patrons d’extraction de réponses
5.6 Évaluation
5.6.1 Évaluation de l’analyse des questions
5.6.2 Évaluation sur l’extraction des réponses
5.7 Conclusion
6. Évaluation
6.1 Les campagnes d’évaluation EQueR et CLEF-QA
6.1.1 La campagne d’évaluation EQueR
6.1.2 La campagne d’évaluation CLEF-QA
6.2 Évaluation du système Œdipe
6.2.1 Le système Œdipe dans EQueR
6.2.2 Le système Œdipe dans CLEF-QA
6.3 Évaluation du système Esculape
6.4 Synthèse
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *