Les objectifs liés aux systèmes de Reconnaissance Automatique de la Parole (RAP) ont largement évolué au cours du temps. En effet, les premiers systèmes ne cherchaient qu’à transcrire des mots isolés d’un langage, dont le vocabulaire était strictement délimité. Les attentes, aujourd’hui, sont bien plus grandes, puisque les systèmes de RAP doivent fournir des transcriptions textuelles de fichiers audio provenant de sources hétérogènes, contenant un vocabulaire très large, non limité à une thématique précise, et dont les locuteurs ne sont pas connus à l’avance. La transcription d’émissions radiophoniques est notamment le type de tâche difficile auquel les systèmes de RAP doivent faire face (différentes conditions d’enregistrement, locuteurs variés et inconnus, grande variabilité des thèmes abordés. . . ). Ces différentes problématiques supposent donc des réponses adaptées à chaque problème, et de nombreux efforts de recherche ont été réalisés au cours de ces dernières années pour proposer des solutions. Grâce à ces avancées, la précision actuelle des systèmes de RAP est telle que ceux-ci peuvent être intégrés dans différentes applications (transcriptions manuelles assistées, dialogue hommemachine, sous-titrage automatique. . . ). Notons que ces applications n’existent que si les systèmes de RAP sont suffisamment performants.
Les transcriptions automatiques fournies par ces systèmes ne sont cependant pas parfaites, et certains problèmes n’ont toujours pas de solution satisfaisante. Selon le type d’émission transcrit, les performances des systèmes de RAP sont très variables. En effet, les systèmes arrivent à fournir des transcriptions avec un haut niveau de précision lorsque la parole est préparée (très proche d’une parole lue, comme dans des journaux d’information), mais voient leurs performances chuter fortement lorsque la parole est dite spontanée, apparaissant lors de conversations non préparées (dialogues, débats. . . ). Des travaux de recherche se sont focalisés sur cette difficulté. Le projet “Spontaneous Speech : Corpus and Processing Technology”, conduit de 1999 à 2004, a permis d’obtenir un corpus japonais, appelé Corpus of Spontaneous Japanese (CSJ), contenant des enregistrements audio (650 heures) et leurs transcriptions manuelles (7 millions de mots). Le corpus est composé principalement de présentations orales spontanées. Il a aidé à réaliser des études à grande échelle et à fournir des solutions spécifiques sur ce type de parole. La récente campagne d’évaluation Rich Transcription Fall 2004 , organisée par le NIST (National Institute of Standards and Technology), a notamment mis en lumière le fait qu’une importante chute au niveau des résultats des systèmes de RAP est visible lorsque ceux-ci devaient transcrire de la parole spontanée.
Le projet ANR EPAC
Le projet EPAC, financé par l’ANR (Agence Nationale de la Recherche), concerne le traitement de données audio non structurées. Il met en scène quatre laboratoires académiques durant 44 mois :
– l’Institut de Recherche en Informatique de Toulouse (IRIT),
– le Laboratoire d’Informatique de Tours (LI),
– le Laboratoire d’Informatique d’Avignon (LIA),
– le Laboratoire d’Informatique de l’Université du Maine (LIUM).
Le projet EPAC propose des méthodes d’extraction d’information et de structuration de documents spécifiques aux données audio, en prenant en compte l’ensemble des canaux d’information : segmentation du signal (parole / musique / jingle. . . ), identification et suivi du locuteur, transcription de parole, détection et suivi de thèmes, détection d’émotions, analyse du discours, interactions conversationnelles. . Ces tâches de traitement du signal et de la parole sont en grande partie maîtrisées par les différents partenaires du projet dont la plupart ont participé aux campagnes d’évaluation ESTER .
En particulier, ce projet met l’accent sur le traitement de la parole spontanée. Parmi les émissions radiophoniques ou télévisuelles d’information, la parole spontanée est souvent marginale : des techniques de détection et d’extraction de ce type de parole particulier doivent être proposées et développées. Le projet propose des méthodes de traitement de la parole spontanée en proposant des descripteurs pertinents et en développant les outils nécessaires à leur exploitation. Cette partie fut l’objet d’une collaboration entre chercheurs en linguistique (LI, LIUM) et chercheurs en traitement automatique de la parole (IRIT, LIA, LIUM). Enfin, un cadre d’évaluation commun aux différents acteurs du projet a été mis en place pour chacune des tâches étudiées. Cette évaluation portait sur une partie des 2 000 heures d’émissions radiophoniques disponibles, contribuant ainsi à la valorisation de ces données.
Le corpus, qui est réalisé dans le cadre du projet EPAC, se compose de transcriptions manuelles de 100 heures d’enregistrement audio. Ces transcriptions ont été annotées en partie grâce à une transcription assistée , le reste ayant été fait entièrement manuellement. Les enregistrements audio proviennent des 1 500 heures d’audio brut diffusées aux participants de la campagne ESTER 1. Il s’agit d’émissions de France Info, France Culture et RFI diffusées entre 2003 et 2004. Finalement, les sorties automatiques produites par les différents outils des partenaires du projet EPAC pour l’ensemble des 1 500 heures d’audio brut de ESTER 1 viennent s’ajouter à ces transcriptions manuelles.
Modèles de Markov Cachés
Les modèles acoustiques utilisés pour la reconnaissance de la parole sont, depuis des années, principalement basés sur les modèles de Markov cachés (MMC, connus en anglais sous le nom de HMM : Hidden Markov Models) [Jelinek 1976, Rabiner 1989]. Les MMC sont des automates probabilistes à états finis qui permettent de calculer la probabilité d’émission d’une séquence d’observations. Pour un système de RAP, les séquences d’observations sont les vecteurs de caractéristiques du signal de parole composés de coefficients MFCC ou PLP par exemple . Les MMC respectent l’hypothèse markovienne d’ordre 1 : la connaissance du passé se résume à celle du dernier état occupé. Pour capter certains comportements et évolutions du signal dans le temps, on intègre dans les vecteurs de caractéristiques du signal les dérivées premières et secondes des vecteurs de paramètres.
Les systèmes de RAP à base de MMC reposent ainsi sur les postulats suivants :
1. La parole est pondérée par une suite d’états stationnaires, représentés par des gaussiennes émettant des vecteurs (MFCC par exemple) et leurs dérivées premières et secondes.
2. L’émission d’une séquence de ces vecteurs est générée par un MMC respectant l’hypothèse markovienne d’ordre 1.
De manière générale, l’unité de modélisation utilisée est le phonème. Ainsi la modélisation d’un mot s’effectue à partir de la concaténation des modèles de phonèmes qui composent ce mot. Pour tenir compte de la variabilité de prononciation d’un phonème, un MMC est construit pour un phonème donné, associé à un contexte gauche et un contexte droit particuliers. Un contexte gauche (resp. droit) d’un phonème est un phonème qui précède (resp. succède à) ce phonème. Ce triplet (contexte gauche, phonème, contexte droit) est appelé triphone, ou phonème en contexte. Pour affiner la modélisation d’un phonème en contexte, la position de ce phonème dans un mot (début, milieu, fin ou phonème isolé) est parfois prise en compte. Afin de réduire la taille du modèle, une factorisation d’états similaires est effectuée : les états sont dits partagés.
|
Table des matières
Introduction
1 Le projet ANR EPAC
2 Problématique
3 Structure du document
Chapitre 1 Reconnaissance de la parole
1.1 Principe de base
1.2 Extraction de paramètres
1.3 Modèles acoustiques
1.3.1 Modèles de Markov Cachés
1.3.2 Apprentissage
1.3.2.1 Techniques
1.3.2.2 Dictionnaire de phonétisation
1.3.2.3 Alignement phonème/signal
1.3.3 Adaptation
1.3.3.1 Méthode MLLR
1.3.3.2 Adaptation SAT-CMLLR
1.3.3.3 Méthode MAP
1.4 Modèle de langage
1.4.1 Modèle n-gramme
1.4.2 Estimation des probabilités
1.4.3 Lissage
1.4.4 Évaluation du modèle de langage
1.4.5 Mesures de confiance
1.4.5.1 Théorie
1.4.5.2 Évaluation des mesures de confiance
1.4.6 Évaluation des systèmes de RAP
1.5 Système du LIUM
1.5.1 Apprentissage
1.5.1.1 Données d’apprentissage
1.5.1.2 Vocabulaire
1.5.1.3 Modèles acoustiques
1.5.1.4 Modèles de langage
1.5.2 Transcription
1.5.2.1 Système de segmentation et de regroupement en locuteurs
1.5.2.2 Système de transcription multi-passes
1.6 Campagnes d’évaluation ESTER 1 et 2
Chapitre 2 Traitement de la parole spontanée
2.1 Spécificités de la parole spontanée
2.1.1 Les disfluences
2.1.1.1 Les pauses
2.1.1.2 Les troncations, répétitions et faux-départs
2.1.1.3 L’élision
2.1.1.4 Les hésitations
2.1.2 Autres phénomènes
2.1.2.1 Agrammaticalité
2.1.2.2 L’intonation
2.1.2.3 Le débit de parole et l’état émotionnel du locuteur
2.2 Gestion des disfluences
2.2.1 Objectifs
2.2.2 Détection automatique
2.2.3 Correction automatique
2.3 Impacts et solutions pour la reconnaissance de la parole
2.3.1 Modélisation acoustique
2.3.2 Modélisation linguistique
2.3.3 Dictionnaire de prononciations
2.3.3.1 Approche guidée par les données
2.3.3.2 Approche à base de connaissances
2.4 Conclusion
Chapitre 3 Homophonie
3.1 Description générale
3.1.1 Mots homophones sémantiquement différents
3.1.2 Mots homophones sémantiquement identiques
3.2 Systèmes de RAP et homophonie
3.2.1 Quelques particularités du français
3.2.2 Analyse des erreurs d’homophonie
3.3 Méthodes automatiques appliquées aux erreurs de reconnaissance des systèmes de RAP
3.3.1 Approches statistiques globales
3.3.1.1 Détection automatique des erreurs
3.3.1.2 Correction automatique des erreurs
3.3.2 Approches ciblées sur les homophones
3.3.2.1 Approches par règles linguistiques
3.3.2.2 Approches statistiques
3.3.3 Combinaison des approches
3.4 Conclusion
Conclusion
Télécharger le rapport complet