Résumé automatique de parole pour un accès efficace aux bases de données audio

Recherche d’information

La recherche d’information a pour objectif de délester l’utilisateur d’une exploration exhaustive d’un ensemble de données en lui fournissant directement l’information qui l’intéresse, dans une représentation utile. L’intérêt pour une information varie dans le temps et il est parfois impossible d’explorer l’ensemble des données avant qu’elles ne deviennent obsolètes. L’outil recherche d’information est principalement considéré comme un gain de temps vis à vis d’une recherche exhaustive. Cette définition fait apparaître différentes notions : l’information, les données, l’utilisateur, l’intérêt de l’utilisateur, plus généralement appelé besoin, et enfin la manière de représenter la réponse à ce besoin, nommée résultat.

Problématique

Le cycle de vie de l’information audio se compose de son acquisition, de son stockage, de sa transmission, de sa recherche et de sa restitution. L’acquisition de l’information audio est effectuée par le microphone, inventé en 1876 par Edison, dont le rôle est de transformer le signal audio en signal électrique. Ce dernier peut être traité par un système électronique tel que l’ordinateur grâce à une numérisation du signal électrique par un convertisseur analogique-numérique. Dans le cadre de l’information parlée, la qualité de l’acquisition du message informatif est améliorée en diminuant l’influence de l’environnement ou en supprimant l’écho. Le stockage des données audio devient alors aussi simple que le stockage de données numériques génériques. Mais lorsque ces données doivent être stockées en grandes quantités, les supports numériques, de taille limitée, imposent une compression du signal audio. La solution la plus connue pour la compression audio est le mp3 (Brandenburg, 1999), qui applique un modèle psychoacoustique pour ne dégrader que les fréquences les moins audibles, afin de limiter la détérioration de la qualité générale. Les codages spécifiques à la voix permettent de réduire encore plus la quantité de données tout en conservant un maximum d’information, au détriment d’un signal restauré peu similaire au signal d’origine. La numérisation a aussi facilité la transmission de la voix en autorisant l’exploitation des réseaux de données (voix sur IP) tout en limitant le délai de transmission et la variation du délai (gigue), principales sources de dégradation du message (Goode, 2002). La restitution de l’information audio est simplement le renversement du processus d’acquisition, par une conversion numérique vers analogique, puis la transformation du signal électrique en onde acoustique par un haut-parleur. Ici encore, de nombreuses solutions permettent d’améliorer la qualité de la restitution du message dans des conditions d’environnement bruité, ou sous contraintes. La recherche d’information audio n’a pas connu autant d’avancées que les autres composantes du cycle de vie de l’information : elle se limite généralement à l’utilisation de méta-informations (étiquettes) décrivant le contenu audio, générées manuellement au moment de l’acquisition.

Les recherches sur les interfaces d’accès à une base de données audio ont convergé vers l’utilisation de la même métaphore que celle permettant l’accès à des documents textuels, ou des documents indexés par des métadonnées textuelles. En effet, le processus habituel est de transcrire le contenu parlé et d’exploiter cette transcription comme un texte classique. Ce phénomène s’explique en partie par l’orientation des campagnes de recherche documentaire textuelle (comme par exemple Text REtrieval Conference, TREC, organisées par National Institute of Standards and Technologies, NIST) qui se sont intéressées à l’application des méthodes textuelles sur des données dégradées comme celles issues de systèmes de transcription de la parole. Des prototypes comme SpeechBot (Thong et al., 2000) ont vu le jour suite à ces évaluations et ont montré que, bien que les performances de recherche documentaire soient acceptables compte tenu du taux d’erreur lors de la transcription, le manque de structuration des résultats et leur quantité était loin de satisfaire l’utilisateur. En effet, le modèle de la recherche documentaire prend pour cible des experts et des documentalistes recherchant l’information de façon exhaustive. Pour ce type d’utilisateur, le découpage des résultats est binaire, entre documents pertinents et documents non-pertinents. Afin d’éviter d’omettre un document pertinent, les systèmes de recherche documentaire génèrent une liste de documents classés par pertinence estimée. L’utilisateur parcourt les documents dans l’ordre et fait appel à ses capacités à déterminer si le document est pertinent sans l’assimiler dans son intégralité.

Le résumé de parole : un accès efficace aux données audio

Nous proposons de répondre à ces problématiques de la recherche d’informations parlées par la notion de résumé automatique de parole. Cette notion apporte l’idée de reproduire le comportement développé par les humains pour faire face à une grande quantité d’informations parlées : rapporter à un auditoire l’essentiel du discours d’un tiers. Cette définition est proche de celle du résumé de texte dans le sens où elle implique une interprétation de l’information, suivie d’une synthèse formulée en langue naturelle. Par contre, dans le cadre de la recherche d’information, nous considérons qu’il faut y ajouter l’étude du besoin de l’utilisateur et de la manière de répondre à ce besoin. Il s’agit finalement de l’étude du triplet information parlée, besoin de l’utilisateur et système automatique .

Le résumé automatique de parole n’est pas une nouveauté en soi, mais ce domaine émergeant représente un point où coïncident de nombreuses autres disciplines liées à l’étude de la parole et de la langue. Le travail présenté dans ce document a d’abord comme objectif de faire un tour d’horizon de ces disciplines, puis de construire une première solution complète fonctionnant dans des conditions réelles à partir de techniques existantes. Ce prototype facilitera l’étude globale du système sur une application, en plus des sous-parties du traitement, habituellement évaluées de manière indépendante. Le but est de poser les briques qui permettront d’explorer la question générale : le résumé automatique de parole est-il la solution à la croissance rapide de l’information parlée ? Cette question en induit quelques autres :

– la parole numérisée est une séquence de nombres ; comment extraire une signification à partir de ces données ?
– quel est l’impact d’erreurs lors de cette extraction ?
– l’information rapportée dans un résumé doit être la plus importante aux yeux de l’utilisateur ; comment inférer cette importance à partir d’un discours parlé ?
– quel est l’impact d’une mauvaise décision dans l’inférence de cette importance ?
– comment s’exprime le besoin de l’utilisateur et comment le satisfaire ?
– le besoin est-il uniquement explicite, comment faire apparaître la part implicite du besoin (inexprimée, ou inexprimable) ?
– quelles sont les formes possibles de résumé de parole, dans quels contexte sontelles optimales ?

Le travail présenté dans ce document ne se targue pas de répondre définitivement à ces questions, bien qu’il esquisse une réponse à certaines d’entre elles, mais plutôt de donner les moyens d’étudier les problématiques sur un système complet, en plus des parties séparées. En effet, le résumé automatique de parole fait appel à de nombreux sous-domaines fortement étudiés pour lesquels il est tentant de se restreindre à des conditions expérimentales éloignées du problème visé. Une approche de bouten-bout sur une application réelle peut valider la faisabilité des concepts et méthodes développés.

Schéma général

Les travaux présentés dans ce document sont délimités par un cadre précis. L’objectif général est de réduire le temps d’écoute lors d’une recherche d’informations parlées. La méthode proposée pour atteindre cet objectif est de résumer les résultats d’un moteur de recherche sur des données audio. Cette approche, similaire à ce qui est fait pour les documents textuels (Jenhani, 2006), trouve tout son intérêt dans le cadre d’un média difficile à explorer comme l’audio. Notre travail se concentre sur le résumé automatique selon un besoin utilisateur comme une extension de la recherche d’information classique, adaptée aux problématiques de la parole dans un cadre interactif. Nous choisissons de traiter des journaux radio-diffusés car ce type de données est relativement éprouvé dans les domaines de la parole et de la recherche d’information. Adapter les techniques qui vont être présentées à d’autres types de données audio n’est généralement qu’une question de ressources et de paramétrage. Comme la parole est relativement variable, nous suivons les approches classiques en nous concentrant sur le contenu linguistique, source de signification la plus exploitée dans des données parlées. Cette restriction est due à la quantité de données potentiellement traitées et facilite le traitement de l’expression en langue naturelle du besoin de l’utilisateur. Elle représente une première étape vers du résumé intégrant tous les paramètres structurels, discursifs et acoustiques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Recherche d’information
1.2 Problématique
1.3 Schéma général
1.4 Organisation du document
2 Recherche d’information parlée
2.1 Recherche documentaire
2.1.1 Définition de la tâche
2.1.2 Évaluation
2.1.3 Pré-traitements linguistiques
2.1.4 Modèles
2.1.5 Expansion de requête
2.1.6 Extension à la parole
2.1.7 Interaction avec l’utilisateur
2.2 Résumé automatique
2.2.1 Évaluation
2.2.2 Résumé par extraction
2.2.3 Spécificités de la parole
2.3 Conclusion
3 Structuration de l’information parlée
3.1 La chaîne de structuration Speeral
3.1.1 Paramétrisation acoustique
3.1.2 Segmentation en classes acoustiques
3.1.3 Indexation en locuteurs
3.1.4 Transcription automatique
3.1.5 Traitements de plus haut niveau
3.2 Évaluation lors de la campagne ESTER
3.2.1 Présentation des données et des tâches
3.2.2 Mesures d’évaluation
3.2.3 Résultats du système LIA
3.3 Conclusion
4 Compléments à l’extraction de descripteurs structurels et sémantiques
4.1 Segmentation en phrases par étiquetage de séquence
4.1.1 Conditional Random Fields
4.1.2 Traits acoustiques et linguistiques
4.1.3 Performances
4.1.4 Améliorations envisagées
4.2 Extraction d’entités nommées dans le flux de parole
4.2.1 Introduction
4.2.2 Coopération avec le processus de transcription
4.2.3 Performances
4.2.4 Limites
4.3 Conclusion
5 Conclusion