Nombre de travaux tentent de fournir de façon automatique une réponse à une question. Parmi eux, la plupart s’intéressent au problème de trouver une réponse à la question du point de vue de la recherche de l’information qui répond en effet à la question. Le défi étant, étant donné une question et un ensemble de documents, d’extraire des documents la bonne réponse à la question. Nous adoptons un point de vue différent. Nous considérons le fait de répondre à une question comme une interaction entre deux locuteurs (en l’occurrence, un homme et une machine). Ce chapitre présente donc la réponse à une question de façon originale en s’attachant d’abord à l’interaction entre l’homme et la machine (1.2), puis à l’interaction en langue (1.3) et enfin en se centrant sur l’interaction du type “répondre à une question” .
INTERACTION ENTRE L’HOMME ET LA MACHINE
Actuellement les machines sont partout autour de nous. Interagir avec elles peut se faire de différentes façons. Pour ne citer que quelques exemples, on peut penser à des interactions qui vont de l’appui sur le bouton du réveil-matin à l’utilisation du tout nouveau téléphone portable “toutes options comprises” en passant par l’utilisation des machines tactiles d’une gare pour la réservation d’un billet ou encore une centrale de réservation automatique par téléphone. Ces façons d’interagir divergent par le but de l’interaction, la forme qu’elle prend, sa modalité. . . Cette dernière peut être tactile, visuelle, auditive, ou encore passer par un périphérique spécifique (tel qu’un clavier, une souris, . . .). [Bellik et al., 1995] traite en particulier d’interface de virtuelle. Certaines interactions peuvent aussi être multimodales [Karsenty, 2006; Horchani, 2007]. Ainsi les agents conversationnels animés que l’on trouve sur certains sites Internet [Chatbot.org, site web] proposent une interaction par le clavier (écrite) et visuelle puisqu’ils s’animent et proposent une réponse à lire sur l’écran. On remarque d’ailleurs que les modalités d’interactions sont différentes en entrée et en sortie. Au delà de la modalité, la façon dont une modalité est utilisée diffère aussi. Par exemple, un agent conversationnel “répond” par un affichage textuel, l’affichage d’un graphique ou encore la navigation vers une autre page du site Internet. Plus finement encore, le texte affiché peut être un lien hypertexte, un mot ou une liste de mots ou encore une phrase. Ce texte peut être dans différentes langues, relever de différents niveaux de langue mais aussi être mis en forme de différentes façons. L’application pour laquelle l’interaction est mise en place joue un rôle crucial dans le choix de la modalité d’interaction et la forme qu’elle prend. Par exemple, un agent virtuel sur un site Internet commercial utilisera un niveau de langue relativement soutenu en naviguant vers les pages des produits proposés alors que s’il a des visées pédagogiques, il serait certainement plus judicieux qu’il forme des phrases complètes et simples en utilisant un vocabulaire relevant de la langue courante. Nous n’entrerons pas dans les détails de l’ensemble des possibilités d’interaction évoquées ici. Le travail de thèse présenté dans ce document s’attache à un type d’interaction bien particulier puisqu’il s’agit d’une interaction qui met en jeu la langue.
INTERACTION EN LANGUE NATURELLE
Qu’est-ce qu’une langue ? Et pourquoi parle-t-on de “langue naturelle” ? Parce que ce terme ne relève pas de la langue courante, nous en proposons ici une définition correspondant à l’acception que nous en avons :
Définition 1.1 Langue naturelle : les langues ou langues naturelles sont à opposer aux langages (ou langues artificielles). Les langues du monde tel que le français, l’anglais, la langue des signes ou encore les créoles sont considérés comme des langues naturelles. Les langages sont quant à eux des langues créées par l’homme comme par exemple les langages informatiques. Dans la communauté du traitement automatique des langues naturelles (en anglais, Natural Language Processing), une requête (par exemple, un ensemble de mots-clefs donné à un moteur de recherche par exemple) n’est pas considérée comme étant en langue naturelle .
Les intérêts d’interagir en langue naturelle sont multiples. D’abord, il s’agit d’utiliser une langue que nous, humains, nous connaissons déjà. Nous n’avons pas besoin de nous adapter à un système ou d’apprendre un nouveau language ou une nouvelle façon d’interagir. C’est le système qui s’adapte à nous. D’autre part, les langues naturelles sont extrèmement puissantes et expressives. Lorsque nous interrogeons un moteur de recherche avec des mots-clefs, nous utilisons bel et bien des mots de la langue mais nous ne produisons pas de la langue naturelle, nous nous contentons d’aligner des mots les uns à la suite des autres. Ceci n’est ni aussi expressifs que de formuler une phrase, ni naturel (nous ne nous exprimons pas de façon spontanée ainsi). Pourtant “apprendre” à une machine à utiliser la langue naturelle n’est pas immédiat. Les sections suivantes présentent l’enjeu de traiter une entrée en langue naturelle et celui de produire en sortie de la langue naturelle.
Entrée en langue naturelle
Prenons l’exemple d’un des premiers systèmes de dialogue en langue naturelle entre l’homme et la machine : Eliza. Ce système, développé par Joseph Weizenbaum dès 1964 [Weizenbaum, 1966], simule un psychothérapeute en reformulant la plupart des énoncés de l’utilisateur (le “patient”) sous forme de questions et en les lui posant. L’interaction se fait à l’écrit. Le dialogue 1.2 en est un exemple. Les phrases en entrée sont décomposées en fonction de règles déclenchées par des mots-clefs. La sortie est produite en recomposant certains éléments de la phrase en entrée à des patrons prédéfinis. La figure 1.3 présente un exemple d’une telle décomposition/recomposition.
Men are all alike.
IN WHAT WAY ?
They’re always bugging us about something or other.
CAN YOU THINK OF A SPECIFIC EXAMPLE ?
Well, my boyfriend made me come here.
YOUR BOYFRIEND MADE YOU COME HERE
He says I’m depressed much of the time.
I AM SORRY TO HEAR YOU ARE DEPRESSED
It’s true. I am unhappy
DO YOU THINK COMING HERE WILL HELP YOU NOT TO BE UNHAPPY
I need some help, that much seems certain.
WHAT WOULD IT MEAN TO YOU IF YOU GOT SOME HELP
Perhaps I could learn to get along with my mother.
TELL ME MORE ABOUT YOUR FAMILY
…
Analyser le texte entré par l’utilisateur signifie, dans le cas de ce système, repérer les mots importants ou mots-clefs et identifier le contexte minimal dans lequel les différents mots-clefs apparaissent. En fait, ce système a très peu de connaissances sur la langue. Il connaît un ensemble de mots-clefs. Ce qu’il ne connaît pas, il l’utilisera tel quel dans sa réponse sans même chercher à comprendre ce dont il s’agit. Par exemple, si l’utilisateur écrit la phrase “Je suis déprimé en ce moment”, le système fonctionne de la façon suivante : les mots “je” et “suis” sont connus du système. Il utilisera des règles de transformation pour traiter ces mots. En revanche, “déprimé en ce moment” n’est pas une suite de mots connus. Cette séquence sera donc laissée telle quelle. Une réponse du système peut ainsi être :
“Je suis désolé de savoir que vous êtes déprimé en ce moment” dans laquelle “Je suis désolé de savoir que” appartient à un patron de réponse prédéfini. “vous êtes” résulte d’une règle de transformation à partir de la séquence de mots connus “je suis”. Et “déprimé en ce moment” est simplement une réutilisation telle quelle de la séquence de mots inconnus. Mais cette règle est aussi valable si l’utilisateur dit “je suis content en ce moment” et alors, dans ce cas, le système peut, en utilisant la même décomposition/recomposition que précédemment, répondre : “je suis désolé de savoir que vous être content en ce moment”. Cet exemple montre l’importance d’avoir des connaissances sur la langue. Ces connaissances sont à la fois lexicales (besoin de connaître les mots de la langue) et syntaxiques (ou grammaticales) notamment pour transformer la séquence “je suis” en “vous êtes”. Des connaissances sémantiques sont aussi utiles permettant ainsi de produire l’une ou l’autre des réponses suivantes le cas échéant : “je suis désolé de savoir que vous êtes déprimé en ce moment” ou bien “je suis content de savoir que vous êtes bien en ce moment”. Eliza est l’un des premiers systèmes traitant de la langue naturelle en interaction. Il n’a que très peu de connaissances, n’est disponible qu’à l’écrit et n’est pas capable de coopération. À présent, les systèmes ont à leur disposition des connaissances bien plus larges : des dictionnaires incluant toutes les formes que peuvent prendre les mots de la langue (par exemple, l’ensemble des formes conjuguées d’un verbe), des connaissances syntaxiques leur permettant d’analyser des phrases complexes (comprenant une proposition subordonnée par exemple) ou encore d’identifier les relations entre les différents groupes d’une phrase. Certains systèmes sont aussi capables de traiter de la langue orale. Par exemple, un système de reconnaissance vocale utilisé au LIMSI [Gauvain et al., 2005] est capable de transcrire de la parole spontanée c’est-à-dire une production orale qui n’a pas été préparée ([Lamel et al., 2005] en décrit une utilisation pour la parole spontanée, [Galibert et al., 2005c] en décrit une utilisation pour la question-réponse en domaine ouvert et [Lamel et al., 2000] en décrit une utilisation en domaine limité).
Spécificités liées à une entrée orale
Lorsque l’interaction est orale, les premiers traitements ont pour but de transformer un flux audio en une suite de mots. Il s’agit de reconnaître les mots prononcés par l’utilisateur. On parle de reconnaissance vocale [Jurafsky & Martin, 2006; Rabiner & Schafer, 1978; Huang et al., 2001]. Une première étape peut être simplement de détecter quand l’utilisateur parle, notamment dans un environnement bruyant. On parle alors de détection de la parole [Gauvain et al., 2000]. Des travaux portent aussi sur la séparation des différents flux audio afin d’isoler une voix parmi d’autres ou bien de l’isoler d’un fond sonore (musique,…). On parle alors de l’effet cocktail party [Darrell et al., 2000]. Une seconde étape est de détecter les mots prononcés, les reconnaître et ainsi de proposer une transcription du message audio. Lorsqu’un utilisateur parle au système, il n’a pas forcément (et bien souvent c’est le cas) préparé sa phrase à l’avance, il n’est pas non plus en train de lire un document. Il parle “comme ça lui vient”. On parle alors de parole spontanée [Shriberg, 2005]. Ce type de discours comporte des hésitations (“euh”, “ben”,. . .), des reprises (“je voudrais euh j’aimerais savoir quand. . .”). Les phrases ou les mots peuvent être coupés, parce que le locuteur hésite, choisit une autre formulation ou bien parce qu’il a un hoquet, mal à la gorge,. . . On parle de disfluences . L’intonation change d’une phrase à l’autre, d’un locuteur à l’autre [Beaugendre, 1994; Morel & Danon-Boileau, 1998; Rossi, 1999] de même que le rythme et la vitesse de parole aussi. Les locuteurs ont des accents différents et prononcent les mots de façons différentes [Woehrling, 2009]. Des modèles de la langue parlée, qui peuvent éventuellement être adaptés au locuteur ou encore à la tâche , sont utilisés pour obtenir à partir du signal sonore une suite de mots, et ce en faisant le moins d’erreurs possible. La plupart des logiciels commerciaux de reconnaissance vocale demandent une phase de configuration pendant laquelle l’utilisateur doit lire un certain nombre de textes qui lui sont imposés. C’est à partir de ces données d’entraînement que le modèle de langage est adapté au locuteur. L’adaptation à la tâche consiste par exemple à favoriser certains champs lexicaux par rapport à d’autres en entraînant un système d’apprentissage automatique sur des données d’un domaine thématique particulier. Dans le cas d’un système d’aide à la réservation de billets de train, par exemple, des termes comme “prix”, “matin” ou encore des noms de ville seront favorisés dans le modèle de langage par rapport à des termes comme “histoire”, “rouge” ou encore des noms d’objets domestiques qui eux ont très eu de chance d’être prononcés par l’utilisateur au cours de l’interaction .
Spécificités liées à une entrée écrite
Prenons le cas où l’utilisateur – parce qu’il a saisi son texte rapidement, sans le relire – écrit “J esuis déprimé”. Nous voyons ici qu’il a commis une faute de frappe. Pour l’humain, il est facile de repérer la faute, l’expliquer et même la corriger. Le système quant à lui doit avoir à sa disposition un lexique des mots du français et peut alors repérer que les deux “mots” n’appartiennent pas à son lexique. Des règles de corrections typographiques et orthographiques peuvent alors être utilisées afin de corriger l’erreur. Dans ce cas, la règle à utiliser sera d’échanger l’espace avec l’un des deux caractères qui l’entoure et de tester l’existence des mots ainsi formés dans le dictionnaire. D’autres règles existent pour résoudre d’autres types d’erreurs typographiques. Les erreurs peuvent être aussi orthographiques ou grammaticales [Naber, 2003; Souque, 2008]. La langue écrite suit en principe des règles de grammaire strictes. Elles ne sont cependant pas forcément respectées. D’autre part, le niveau de langue utilisé joue un rôle dans la qualité du message écrit par l’utilisateur [Authier & Meunier, 1972]. Un cas bien connu est celui de la langue utilisée pour rédiger des textos (souvent dénommé langage sms) : l’orthographe et la construction des phrases suivent des règles spécifiques (voir [Fairon et al., 2006]) bien différentes de celles qui régissent la langue écrite.
|
Table des matières
INTRODUCTION
I De la réponse précise à la réponse en interaction
1 RÉPONDRE À UNE QUESTION, UNE INTERACTION EN LANGUE NATURELLE
1.1 INTRODUCTION
1.2 INTERACTION ENTRE L’HOMME ET LA MACHINE
1.3 INTERACTION EN LANGUE NATURELLE
1.4 LA QUESTION-RÉPONSE
CONCLUSION
2 RÉPONSE EN INTERACTION
2.1 INTRODUCTION
2.2 EXEMPLES DE RÉPONSES
2.3 THÉORIES DE L’INTERACTION
2.4 THÉORIE DE LA RÉPONSE EN INTERACTION
2.5 DÉFINITION des RÉPONSES
2.6 PRODUIRE UNE RÉPONSE EN INTERACTION
CONCLUSION
3 UNE RÉPONSE POUR QUELLE QUESTION ?
3.1 INTRODUCTION
3.2 TYPE ATTENDU DE LA RÉPONSE
3.3 TYPE SÉMANTIQUE DE LA QUESTION
3.4 TYPE DU VERBE PRINCIPAL DE LA QUESTION ET AUTRES VARIATIONS LEXICALES
3.5 VARIATIONS MORPHOLOGIQUES ET SYNTAXIQUES DE LA QUESTION
3.6 NATURE DE LA RÉPONSE
3.7 VALENCE D’UNE RÉPONSE ET TYPE THÉMATIQUE DE LA QUESTION
CONCLUSION
II Réponses humaines ?
4 COLLECTE D’UN CORPUS DE RÉPONSES HUMAINES
4.1 INTRODUCTION
4.2 OBJECTIF ET PRINCIPE GÉNÉRAL
4.3 PROTOCOLE EXPÉRIMENTAL
4.4 LES QUESTIONS SOUMISES AUX PARTICIPANTS
4.5 DÉROULEMENT DES PASSATIONS
4.6 ÉVALUATION DU PROTOCOLE EXPÉRIMENTAL
CONCLUSION
5 QUELS CRITÈRES POUR GÉNÉRER UNE RÉPONSE EN LANGUE NATURELLE?
5.1 INTRODUCTION
5.2 EST-IL JUDICIEUX DE RÉUTILISER DES ÉLÉMENTS DE LA QUESTION ?
5.3 QUELLE INFORMATION-RÉPONSE ?
5.4 COMMENT CONSTRUIRE UNE RÉPONSE MINIMALE ?
5.5 LA MODALITÉ INFLUE-T-ELLE SUR LA FORMULATION DE RÉPONSE À GÉNÉRER ?
5.6 EUH. . . ET SI ON HÉSITE ?
5.7 QUE RÉPONDRE QUAND ON N’A PAS DE RÉPONSE ?
5.8 COMMENT RÉPONDRE PLUSIEURS INFORMATIONS-RÉPONSE ?
CONCLUSION
Conclusion
A ANNEXES
A.1 LISTE DES QUESTIONS BRUTES
A.2 EXEMPLE DE DIALOGUE AVEC LE SYSTÈME ELIZA – VERSION FRANÇAISE
BIBLIOGRAPHIE
Télécharger le rapport complet