Variabilité acoustique dans le SRAP
Le travail effectué dans cette thèse se situe dans le cadre de la reconnaissance automatique de la parole utilisant des modèles statistiques. La reconnaissance de la parole s’inscrit dans le domaine plus général de la reconnaissance des formes. L’idée de base est d’apprendre des formes (des statistiques sur ces formes) pour pouvoir les reconnaître par la suite. La forme reconnue est celle, parmi toutes les formes apprises, qui ressemble le plus à la forme inconnue. Si les formes de test ne subissent pas de distorsions majeures par rapport aux formes apprises avant que les mesures de similarité utilisées ne soient appliquées, le système de reconnaissance de formes atteint les meilleures performances. En revanche, si les formes de test sont modifiées par des événements inconnus a priori, les performances du système de reconnaissance des formes chutent. Dans ce cas, nous parlons de non concordance entre les conditions d’apprentissage et les conditions de test.
Dans le cadre de la reconnaissance de la parole, deux types de variabilité affectant la réalisation d’un signal de parole peuvent être distinguées : le premier type de variabilité correspond à celui naturellement présent dans la parole est liée aux caractéristiques propres du locuteur ou à l’aspect étranger ou régional du locuteur, au style et à la vitesse de production de la parole, à l’âge du locuteur ou encore, à l’état émotionnel du locuteur. Nous appelons ce type de variabilité, les variabilités intrinsèques de la parole. Le deuxième type de variabilité n’est pas lié au locuteur, mais plutôt à son environnement (ouvert ou fermé, bruit ambiant, écho, etc). Ces sources de variabilité sont très pénalisantes pour le développement et l’exploitation à grande échelle des SRAP. Pour cette raison, de nombreuses techniques ont été proposées pour augmenter la robustesse des systèmes, en particulier leur résistance aux bruits (Lim, 1978) (Acero, 1990) (Vaseghi et Milner, 1992) (Gales et Young, 1996) (Holmes et Sedgwick, 1986). L’objectif de ces techniques est de compenser les différences entre les conditions d’apprentissage et les conditions d’utilisation du système.
Modélisation acoustique compacte
Dans le cadre des SRAP, le signal acoustique de la parole est modélisable par un ensemble réduit d’unités acoustiques, qui peuvent être considérées comme des sons élémentaires de la langue. L’unité acoustique la plus utilisée est le phonème dépendant du contexte. Un phonème contextuel est modélisé par un modèle de Markov caché (MMC) gauche-droit à trois états. Pour relier ce modèle aux vecteurs de paramètres acoustiques du signal de parole, à chaque état est associé un mélange de densités de probabilité qui suivent chacune une loi gaussienne (GMM, signifiant Gaussian Mixture Model).
La multiplication de modèles contextuels permet de rendre la modélisation acoustique plus précise. Cependant, cette amélioration théorique est limitée dans la pratique par des problèmes d’estimation : la quantité de données disponible pour l’estimation de chaque modèle contextuel se réduit au fur et à mesure de l’augmentation de la complexité des modèles.
En outre, l’augmentation de la taille des modèles acoustiques présente un grand défi lors de l’intégration de SRAP dans des appareils légers tels que les téléphones portables et les lecteurs MP3. En effet, les modèles sont composés de dizaines de millions de paramètres représentant une complexité incompatible avec la puissance de calcul et l’espace mémoire généralement disponible dans ce type d’appareils. Différentes architectures ont été proposées dans la littérature pour réduire l’empreinte mémoire des modèles acoustiques (Huang et al., 1989) (Lee et al., 1990) (Demuynck et al., 1996) (Bocchieri et Mak, 2001) (LEVY, 2006).
Classification phonétique
Depuis les premières applications dans le traitement de la parole, la problématique de calcul de similitudes entre phonèmes (ou allophones) a été posée comme sujet de recherche par la communauté scientifique. Cette mesure est utilisée dans plusieurs applications dans tous les domaines du traitement de la parole : reconnaissance du locuteur, reconnaissance de la langue, synthèse de la parole ou encore analyse de variation de la prononciation. Dans le domaine de la reconnaissance de la parole, le calcul de similitude est utilisé principalement dans la procédure de partage des états. Cette procédure, incontournable dans la modélisation acoustique, consiste à associer la même fonction de densité de probabilité (probability density function : pdf) aux états des phonèmes contextuels acoustiquement proches (Young, 1992). La réalisation de cette procédure est confrontée à la difficulté de la définition d’une distance de similarité entre les états des MMC. En effet, chaque état est généralement modélisé par un mélange de gaussiennes. Ce qui rend complexe la définition de distance entre les différents états. Afin de réduire le nombre de calculs de distances entre états, une méthode fondée sur l’utilisation d’informations linguistiques et phonétiques a été proposée. Il s’agit d’une méthode à base de connaissances phonétiques : elle utilise un arbre de décision où à chaque noeud est associé un certain nombre de questions linguistiques qui permettent de parcourir l’arbre de haut en bas. Cette méthode ne peut être utilisée que dans le cadre de langues pour lesquelles de telles connaissances phonétiques et linguistiques sont disponibles, tout comme de grandes quantités de données d’apprentissage. Pour les langues qualifiées de peu dotées, nous ne disposons pas de telles informations ni d’aussi grandes quantités de données d’apprentissage.
Travaux réalisés
Dans cette thèse, nos contributions concernent la modélisation acoustique compacte, la classification phonétique et enfin la compensation de variabilité nuisible. Les approches que nous proposons sont toutes issues de l’analyse factorielle.
Modélisation acoustique compacte
L’objectif de la modélisation compacte est de réduire le nombre de paramètres des modèles acoustiques tout en préservant les performances du SRAP. Pour ce faire, nous proposons d’utiliser l’analyse factorielle. La méthode consiste à modéliser l’espace acoustique de la parole par un modèle générique appelé modèle du monde (Universal Background Models : UBM), puis à dériver les modèles des différents états des MMCs depuis ce modèle générique, en mutualisant une large partie des paramètres des modèles. La première étude expérimentale permet de trouver un point de fonctionnement optimal entre la taille et les performances du modèle. La modélisation proposée permet de décomposer l’ensemble des paramètres des modèles acoustiques en sous-ensembles de paramètres indépendants. Cela donne une grande flexibilité pour d’éventuelles adaptations (adaptation au locuteur, à l’environnement acoustique, etc.). La seconde étude expérimentale consiste donc à exploiter cette décomposition dans les différentes adaptations possibles.
Classification phonétique
Dans la deuxième partie, nous proposons une nouvelle vision de la classification des phonèmes : la représentation vectorielle des états du MMC. Nous obtenons cette représentation à l’aide de l’analyse factorielle. Nous appelons ces vecteurs représentatifs d’états du MMC, facteurs d’états. En utilisant ces vecteurs, la classification phonétique est formulée comme un problème de classification usuel dans l’espace R d . Cette représentation vectorielle permet d’exploiter les résultats scientifiques obtenus au cours de plusieurs années de recherche dans le domaine de l’analyse de données. Ces résultats peuvent servir dans l’analyse de variabilité acoustique et de la variation de l’articulation phonétique. Également, les facteurs d’états peuvent être utilisés dans d’autres applications comme la phonétique cliniques, la détection de dialecte ou l’identification automatique de la langue. Nous montrons que cette représentation vectorielle peut être dans la réalisation de la procédure de partage d’états du MMC, utilisée dans le cadre de la modélisation acoustique contextuelle. La plupart des techniques proposées dans la littérature pour réaliser cette procédure nécessitent notamment des connaissances linguistiques qui peuvent ne pas être disponibles pour certaines langues. Notre nouvelle méthode de partage d’états s’appuie uniquement sur l’information portée par les facteurs d’états. Cette méthode nous permet de contourner le problème d’insuffisance ou d’absence d’informations phonétiques ou linguistiques pour les langues peu dotées. Dans nos expériences, nous évaluons la pertinence de notre méthode sur la langue française. Ensuite, nous l’appliquons sur deux langues catégorisées comme langues peu dotées : la langue vietnamienne et la langue berbère. Nous montrons aussi l’utilité des facteurs d’états dans l’analyse graphique de quelques phénomènes acoustiques.
Compensation de variabilité nuisible
Dans la troisième partie, nous nous intéressons à la robustesse du SRAP face à la variabilité locuteur, variabilité canal et le bruit additif. Dans cette partie nous développons une nouvelle approche de compensation de la variabilité nuisible en nous appuyant sur l’analyse factorielle. Les vecteurs cepstraux sont supposés être générés par l’UBM et les états des HMM doivent être modélisés par des GMM obtenus à partir de l’UBM par une adaptation MAP. Dans nos expériences, nous nous intéressons à la variable aléatoire, appelée super-vecteur, constituée par la concaténation des moyennes des gaussiennes composant le GMM (dépendant du phonème ou de l’état). L’isolation et l’estimation du bruit se fait en utilisant l’analyse factorielle dans l’espace des super-vecteurs. En effet, le super-vecteur d’un état est donné selon trois composantes : la première composante est indépendante de l’état et de la variabilité nuisible en question, la deuxième composante correspond à l’information phonétique (état d’un MMC ou d’un phonème) et la troisième est une composante correspondant à la variabilité nuisible que nous traitons ici. L’hypothèse fondamentale, dans le formalisme développé, est que la variabilité nuisible est située dans un sous-espace de faible dimension par rapport à la dimension du super vecteur. Dans nos expériences, nous étudions plusieurs scénarios liés à la variabilité nuisible pour la reconnaissance de la parole. Dans un premier temps, nous nous intéressons à la variabilité locuteur et la variabilité canal. La variabilité locuteur est une des plus perturbantes pour un système de reconnaissance de la parole. Cette variabilité inclut la variabilité intra-locuteur due au mode d’élocution et la variabilité inter-locuteur due aux différences entre locuteurs. L’effet de cette variabilité sur le signal est très complexe, certaines des parties étant linéaires et d’autres non. Cependant, on peut considèrer que le changement de locuteur se traduit par des changements du conduit vocal et que cette variabilité peut être considérée comme étant additive dans le domaine cepstral. Pour la variabilité canal, nous désignons la variabilité qui inclut tout changement de condition d’enregistrement, notamment le changement de microphone (ou du téléphone), la position du microphone par rapport à la bouche, ou encore l’endroit ou s’effectue l’enregistrement (la géométrie de l’endroit où se passe l’enregistrement : hall, bureau, ville, etc.). Dans un second temps, nous nous intéresserons à un autre type de source de nuisance pour le SRAP : le bruit additif. Ce type de bruit est caractérisé par sa non-linéarité avec le signal de parole dans le domaine cepstral. Malgré cette caractéristique, l’objectif de ce travail est de savoir s’il est possible de modéliser le bruit additif (ou une partie du bruit additif) comme une composante additive en utilisant la modélisation d’analyse factorielle.
|
Table des matières
1 Introduction
1.1 Contexte général
1.1.1 Variabilité acoustique dans le SRAP
1.1.2 Modélisation acoustique compacte
1.1.3 Classification phonétique
1.2 Travaux réalisés
1.2.1 Modélisation acoustique compacte
1.2.2 Classification phonétique
1.2.3 Compensation de variabilité nuisible
1.3 Organisation du document
2 Système de reconnaissance de la parole : définitions, modèles et algorithmes
2.1 Principe général d’un système de reconnaissance automatique de la parole
2.2 Traitement du signal et paramétrisation acoustique
2.2.1 Analyse par prédiction linéaire perceptuelle
2.3 Modélisation acoustique : Modèles de Markov Cachés
2.3.1 Structure d’un MMC
2.3.2 Les mixtures de gaussiennes
2.4 Apprentissage et adaptation acoustique
2.4.1 Apprentissage d’un MMC
2.4.1.1 Maximum de vraisemblance (ML)
2.4.1.2 Algorithme EM
2.4.2 Adaptation des modèles acoustiques
2.4.3 Avantage et limitation des MMC/GMM
2.5 Modèle de langage
2.6 Algorithme de décodage
2.6.1 Recherche synchrone basée sur un arbre réentrant
2.6.2 Recherche synchrone à pile
2.6.3 Décodage multi-passes
2.7 Évaluation d’un système de reconnaissance automatique de la parole
3 L’analyse factorielle pour la modélisation acoustique
3.1 Introduction
3.2 L’analyse en composantes principales (ACP)
3.3 L’analyse en composantes principales probabiliste (ACPP)
3.4 Analyse Factorielle
3.5 Application à un GMM
3.5.1 Définitions, notations et modèle
3.5.2 Estimation des paramètres
3.6 Analyses factorielles pour la vérification de locuteur
3.7 Conclusion
4 Analyse factorielle pour la modélisation acoustique compacte
4.1 Introduction
4.2 Modélisation d’analyse factorielle
4.2.1 Vérification du locuteur
4.2.2 Modélisation acoustique compacte
4.2.2.1 Adaptation des moyennes des états des GMM
4.2.2.2 Adaptation des poids des états des GMM
4.3 Comparaison avec SGMM pour la modélisation acoustique compacte
4.4 Expérimentations
4.4.1 Cadre expérimental
4.4.2 Modèle compact générique
4.4.2.1 Modèle à base d’analyse factorielle vs modèle semicontenu HMM
4.4.3 Adaptation du modèle compact
4.4.3.1 Adaptation de l’UBM
4.4.3.2 Adaptation des vecteurs d’états
4.5 Conclusion
5 Conclusion
Télécharger le rapport complet