LA RECONNAISSANCE DE LA PAROLE
Le but de la Reconnaissance Automatique de la Parole (RAP) est d’extraire d’un signal vocal, par le biais d’un ordinateur, l’information lexicale contenue dans ce signal de parole.Les applications liées à la RAP ont réellement pris leur essor sous l’ère de la micro- électronique qui a fournit aux chercheurs les moyens physiques pour tester les théories développées longtemps auparavant. Ainsi, les méthodes les plus performantes actuellement sont des méthodes statistiques utilisant le formalisme des modèles de Markov développé au milieu des années 70 [4, 5]. Ces techniques rendent concevable la reconnaissance de la parole continue à grands vocabulaires et indépendamment du locuteur. L’information sur le signal vocal en termes de traitement du signal est connue depuis plus longtemps encore. On peut trouver encore de nos jours des ouvrages datant des années 50.Le signal de parole «à l’état brut» n’est pas exploitable directement par un système de RAP à cause de sa grande redondance.
Nous verrons qu’il a fallu trouver des représentations plus compactes du signal. Celui-ci sera classiquement représenté comme une suite de vecteurs de paramètres calculée de manière à maximiser la discrimination entre ces paramètres. Les représentations les plus efficaces sont les représentations spectrales tenant compte de certaines connaissances acquises sur la production, la perception et la variabilité de la parole. En effet, un symbole donné peut avoir plusieurs réalisations acoustiques différentes en fonction de l’identité de la personne (variabilité inter-locuteur), de l’état de la personne (variabilité intra-locuteur), et de l’environnement (facteurs contextuels)
Complexité et variabilité du signal vocal
La conception d’un système de reconnaissance de la parole est rendue difficile par la complexité et la variabilité du signal vocal. D’une manière générale, la parole peut être vue comme la concaténation d’un signal acoustique (physique) et d’un espace de communication linguistique (abstrait). Cela fait apparaitre deux problèmes importants à prendre en compte :
• Le message doit être suffisant clair pour être intelligible, en effet, il ne doit pas comporter trop de bruits induits par l’émetteur ou encore par le support de transmission (canal téléphonique, bruit ambiant dans l’air, etc.).
• Une écoute parfaite du signal vocal ne signifie pas pour autant une compréhension du contenu du message. Il faut, pour cela, tout un ensemble de règles linguistiques, grammaticales, syntaxiques qui, pour l’homme, sont acquises tout au long de l’apprentissage de la langue. Mais pour un système de reconnaissance, il faut lui préciser ces règles par le biais d’une grammaire. Une grammaire, au sens formel du terme, est un ensemble de règles de production de suites de mots appartenant à un vocabulaire préalablement connu.Les propriétés intrinsèques du signal vocal varient énormément d’un locuteur à l’autre, en fonction de son sexe, de son âge, de son état émotif, de son attitude, et même des contraintes environnantes qui l’entrainent à modifier sa voix pour être mieux compris par son interlocuteur (phénomène connu sous le nom de l’effet Lombard [6, 7]).
Calcul des coefficients cepstraux
Le calcul des coefficients modélisant chaque trame est le stade ultime de l’analyse acoustique. À l’issue de cette phase, les coefficients seront directement utilisés par l’analyse probabiliste des algorithmes de reconnaissance. Les coefficients les mieux adaptés dans ce domaine sont les coefficients issus des méthodes paramétriques. Lesméthodes paramétriques reposent sur une étude a priori de la synthèse vocale dans laquelle le modèle de production de la parole est considéré comme linéaire résultant de la convolution d’une source et d’un filtre.
Le cepstre [11], le codage prédictiflinéaire [8] et l’analyse prédictive linéaire perceptuelle [12] sont les trois méthodes paramétriques les plus répandues en traitement de la voix. Nous nous attacherons à décrire la première car mieux adaptée aux environnements bruités ce qui est précisément l’objet de cette étude.L’appareil phonatoire humain peut être modélisé comme un système composé d’une excitation et d’un filtre [13]. Pour la parole voisée, la source, générée par le larynx, est modélisée comme un train d’impulsions à la fréquence du fondamental.Le filtre est quant à lui assimilé à l’ensemble constitué du conduit vocal, de la cavité résonante et du10 rayonnement des lèvres. L’analyse cepstrale découle de ce modèle de production de la parole par une déconvolution de la source et du filtre. Le cepstre est défini comme la transformée de Fourier inverse (FFT1) du logarithme du module du spectre.
Décodage
La méthode de reconnaissance est surtout valable pour la reconnaissance de mots isolés où la démarche de tester chacun des mots possibles est encore possible. Ici, tester toutes les phrases possibles par enchainement de mots est impensable. Le chemin intra-modèle le plus probable est déterminé itérativement étape par étape parmi toutes les transitions possibles. Comme le chemin inter-modèle ne peut être choisi en testant tous les chemins possibles, on joint à l’algorithme de Viterbi un réseau de mots qui va simplifier le nombre de transitions possibles en respectant la syntaxe définie. Il va ainsi interconnecter tous les modèles syntaxiquement correctes. Le réseau de mots est un arbre avec des nœuds, des branches, des étiquettes qui décrit les combinaisons possibles à priori de mots (ou de l’unité lexicale utilisée) à partir du dictionnaire des unités utilisées. La suite d’états optimale trouvée par l’algorithme de Viterbi dans ce réseau fournit un décodage de la phrase en mots ou en phonèmes, ainsi qu’une segmentation du signal acoustique. Cependant, l’algorithme recherche la meilleure suite d’états dans le réseau et non pas la meilleure suite de modèles. En effet, toutes les phrases syntaxiquement correctes admises par le réseau sont à priori équiprobables ce qui n’est pas le cas dans la réalité où des phrases apparaissent plus souvent que d’autres. Nous verrons au chapitre consacré à la construction de notre système de reconnaissance, une technique permettant d’identifier les suites de phonèmes les plus probables d’un point de vue syntaxique.
Bruits liés à l’acquisition et au transport de la parole au travers du réseau téléphonique commuté
Principalement, 2 types de bruits interviennent depuis l’émetteur jusqu’au récepteur: les bruits additifs et les bruits convolutifs. Il faut ajouter également comme sources de distorsion les éléments non linéaires apportés par les équipements du réseau . Ces derniers, très difficiles à corriger et généralement assez faibles, sont rarement pris en compte dans le cadre de 1’étude du canal téléphonique.
Les bruits additifs Les bruits additifs ne sont pas propres au canal téléphonique en lui-même. Ils sontengendrés principalement par les conditions d’acquisitions de la voix au niveau del’émetteur. On dit de ces bruits qu’ils sont additifs car le signal enregistré est la somme du signal vocal et du bruit. Ainsi, le bruit d’ambiance (voiture en marche, bruit de foules) est considéré comme du bruit additif.
Les bruits convolutifs Les bruits convolutifs viennent perturber le signal original au niveau de ses propriétés spectrales. On peut citer les sources suivantes :
• Le microphone apporte son lot de distorsions suivant la marque du microphone utilisé (bonne au mauvaise qualité) mais aussi suivant la position la personne en train de parler compte tenu de la directivité du microphone (omnidirectionnel, cardioïde, bidirectionnel, hyper cardioïde, canon, [20] ).
• Les câbles téléphoniques et les commutateurs dégradent le signal. La restriction de la largeur de bande par le canal vient considérablement perturber le signal à transmettre et les propriétés fréquentielles de la parole.
• Enfin, il ne faut pas oublier les phénomènes d’échos et de réverbération sur les lignes téléphoniques qui modifient également le spectre du signal.
Effets du canal téléphonique sur la parole
Le spectre d’un signal de parole est constitué de composantes fréquentielles très spécifiques. Outre la fréquence fondamentale Fo (l’énergie) correspondant à la fréquence de vibration des cordes vocales, les résonnances du conduit vocal (cavité pharyngale,cavité buccale, positions des lèvres) font apparaître des harmoniques renforcés aux fréquences Fi, ce sont les formants Ils sont numérotés de F 1 (premier formant) jusqu’à F5 (cinquième formant). Par exemple, le fondamental F0 se situe entre 100 et 150Hz pour les hommes, 140 à 240Hz pour les femmes. Quant à F 1, il se situe entre 270 et 730 Hz pour les hommes, entre 310 et 850 Hz pour les femmes [9].Le spectre de la parole humaine peut s’étendre jusqu’à 12 kHz. La bande utile du téléphone [300 Hz, 3400 Hz] ne peut donc contenir tout le spectre et la totalité des formants. Elle permet seulement de faire passer les 3 premiers formants avec comme conséquence la dégradation du signal original. On aura ainsi de la difficulté à distinguer les sons (prononcés de manière isolée au cours d’une conversation téléphonique) puisant leur énergie (non exclusivement) au delà de 3 premiers formants comme par exemple les fricatives /s/ ou /f/. Toutefois, l’intelligibilité demeure tout à fait acceptable car il s’est démontré qu’elle est portée par les premiers formants, plus précisément, que la sensationnaturelle de la voix se situe au premier formant et l’intelligibilité au second formant.
Effets du canal en terme de performances de reconnaissance
Une des conditions nécessaires pour avoir des bons scores de reconnaissance demeure l’existence d’une certaine similarité entre le corpus d’apprentissage et les données de test effectivement rencontrées. Ainsi, pour une application de reconnaissance vocale via le téléphone, il est clair que si la phase d’apprentissage est réalisée sur une base de données propres, le taux de reconnaissance sera assurément bas à cause des nombreuses dégradations qu’apportent l’acquisition et le cheminement du signal. Il y aurait, dans ce cas, ce qu’on appelle un phénomène de non-appariement des données d’apprentissage avec celles de test (de l’anglais unmatching).
Moreno et Stem [22] ont montré qu’un système de reconnaissance appris et testé sur TIMIT (voir description au Chapitre 4) atteint 52.7 %de phonèmes reconnus alors que s’ils renouvellent l’expérience en apprenant le système sur TIMIT et en le testant sur NTIMIT (le corpus TIMIT passé via le canal téléphonique), le taux chute à 31.3%. Une diminution des performances est systématiquement observée lorsque la base de test est enregistré dans des conditions d’environnement différentes du corpus d’entrainement [23, 24].Il semble donc important d’élaborer des techniques visant à compenser l’effet du canal sur les données du corpus de test pour que 1’appariement avec les données d’apprentissage soit meilleur.
Techniques d’égalisation du canal PSTN
Le paragraphe précédent a mis en lumière la nécessité d’apporter une correction aux systèmes de reconnaissance de la parole bruitée. D’une règle générale, les méthodes visant à réduire le non appariement des données d’entraînement avec celles de test peuvent se classer en 2 catégories :
Adaptation des paramètres
La correction apportée va donner plus de robustesse aux paramètres (les coefficients cepstraux ici en l’occurrence) corrompus par le système de transmission de la voix sur le réseau commuté. Il ne s’agit pas de refaire toute l’analyse acoustique en trouvant une nouvelle transformation pour représenter autrement les échantillons du signal vocal. Lebut est de garder les mêmes paramètres mais de les modifier grâce aux connaissances a priori acquises sur le corpus d’apprentissage ou sur le canal proprement dit. On peut citer par exemple la technique d’égalisation cepstrale [26] ou la technique de filtrage RASTA .
Adaptation des modèles
La correction s’opère ici non plus au niveau des données mais sur lesmodèles de HMM et leurs constituants. Les lois d’observations caractérisant les états d’un modèle ont tendance à ne plus respecter une loi gaussienne lorsque le bruit devient trop fort. Ainsi,on se sert de corpus d’apprentissage bruité pour apprendre les modèles ou bien encore d’imaginer une double représentation pour chaque modèle, une pour le signal propre, une pour le bruit .Rappelons que le sujet de cette maîtrise se cantonne à l’étude des méthodes pour réduire l’effet convolutif du canal téléphonique nuisible aux performances d’un système de RAP. Nous nous attacherons donc à ne décrire que des techniques compensatoires du bruit convolutif. Les techniques développées et implémentées dans le cadre ce mémoire concernent en majorité (sauf mention) la première catégorie (adaptation des paramètres), elles sont détaillées dans les sections suivantes.
|
Table des matières
ABSTRACT
REMERCIEMENTS
LISTE DES TABLEAUX
LISTE DES FIGURES
LISTE DES ABRÉVIATIONS ET SIGLES
INTRODUCTION
CHAPITRE 1 LA RECONNAISSANCE DE LA PAROLE
1.1 Complexité et variabilité du signal vocal
1.2 Redondance du signal vocal
1.3 Extraction des paramètres
1.3.1 Échantillonnage
1.3.2 Pré-accentuation
1.3.3 Fenêtrage
1.3.4 Calcul des coefficients cepstraux
1.4 Les modèles de Markov cachés (HMM)
1.5 Les outils statistiques de la reconnaissance de la parole
1.5.1 Entraînement d’un modèle: Méthode du maximum de vraisemblance
1.5.2La reconnaissance d’un modèle: Méthode de l’algorithme de Viterbi
1.5.2.1 Probabilité d’émission des observations
1.5.2.2 Algorithme de Viterbi
1.6 La reconnaissance de la parole continue
1.6.1 Modèles connectés
1.6.2 Apprentissage
1.6.3 Décodage
CHAPITRE2 ÉTUDE DU CANAL TÉLÉPHONIQUE
2.1Bruits liés à l’acquisition et au transport de la parole au travers du réseau téléphonique commuté
2.1.1 Les bruits additifs
2.1.2 Les bruits convolutifs
2.2 Effets du canal téléphonique sur la parole
2.3 Effets du canal en terme de performances de reconnaissance
2.4 Techniques d’égalisation du canal PSTN
2.4.1 La normalisation par moyenne cepstrale (CMN)
2.4.2 La normalisation par moyenne cepstrale améliorée (CMN Best)
2.4.2.1 Algorithme utilisé de détection d’activité de la voix
2.4.2.1.1 Energie d’une trame
2.4.2.1.2 Méthode simple de détection
2.4.2.1.3 Méthode plus élaborée de détection
2.4.2.2 Le calcul de la nouvelle valeur du cepstre du canal
2.4.3 La normalisation cepstrale augmentée (ACN)
2.4.3.1 Calcul de la probabilité a posteriori Pi
2.4.3.1.1 Estimation discrète
2.4.3.1.2 Estimation continue
2.4.4 La méthode du filtrage RASTA
CHAPITRE 3 MISE EN PLACE DU SYSTÈME DE RECONNAISSANCE
3.1 AVECHTK
3.2 Calcul des coefficients mel-cepstraux (MFCC)
3.2.1 Apprentissage par monophone
3.2.2 Création d’un prototype de HMM
3.2.3 Initialisation des modèles de HMM
3.2.4 Apprentissage
3.2.5 La reconnaissance des modèles
3.3 L’obtention du taux de reconnaissance
3.4 Nouvel apprentissage suite à l’amélioration du modèle de silence
3.5 Nouvel apprentissage suite au réalignement des données
d’entraînement
3.5.1 Apprentissage par triphones
3.5.2 Création de triphones à partir de phonèmes
3.5.3 Clonage
3.6 Création de triphones avec états partagés
3.7 Augmentation du nombre de Gaussiennes par état
Conclusion
CHAPITRE 4 MÉTHODE PROPOSÉE ET RÉSULTATS EXPÉRIMENTAUX
4.1 Modélisation du canal téléphonique
4.1.1 Construction de filtres modélisant le canal téléphonique
4.1.1.1Exemple avec le canal de type 3002
4.1.1.1.1 Génération de la réponse en amplitude
4.1.1.1.2 Génération de l’enveloppe du retard
4.1.1.1.3 Génération du filtre
4.1.1.2 Génération des 3 autres canaux
4.1.1.3 Généralisation à une multitude de canaux
4.2 Description de la base de données utilisée
4.3 Description des tests de reconnaissance
4.3.1 Evaluation du système de référence
4.3.2 Evaluation des techniques de compensation
4.3.2.1 Adaptations des paramètres
4.3.2.2 Méthode proposée : apprentissage multiréférences
4.3.2.3 Méthode proposée combinée à l’adaptation des paramètres
CONCLUSION
BIBLIOGRAPHIE
Télécharger le rapport complet