RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES
Les Mélanges de Gaussiennes en RAL
La reconnaissance du locuteur s’appuie sur une représentation discrète du signal de parole. Celui-ci est transformé en une séquence de vecteurs de paramètres, dont la fréquence d’échantillonnage est généralement 100Hz.Considérons que chaque vecteur de paramètres extrait d’un signal de parole est une réalisation d’une variable aléatoire multidimensionnelle. Les approches génératives en reconnaissance du locuteur reposent sur l’hypothèse qu’il existe une fonction injective de l’ensemble des locuteurs dans l’espace des fonctions de densité de probabilité. Cette hypothèse suppose, plus précisément, que les vecteurs de paramètres provenant d’un locuteur suivent une loi de probabilité propre à ce locuteur ..
La complexité de ces fonctions de densité nous conduit à rechercher une approximation suffisant à la résolution du problème de reconnaissance du locuteur. Dans les Méthodes Statistiques du Second Ordre (MSSO) [30],les locuteurs sont représentés par une loi Gaussienne, c’est à dire un doublé (,Σ), où est le vecteur moyen de la Gaussienne et Σ la matrice de covariance, estimée à partir de la séquence acoustique d’apprentissage. Nous avons souligné la simplicité de la modélisation des locuteurs par MSSO et le fait qu’elle limite la granularité de modélisation des variations acoustiques.
L’utilisation de mélanges de Gaussiennes (GMM) permet d’obtenir une approximation plus précise de la fonction de densité de probabilité caractéristique des locuteurs, tout en restant relativement simple à estimer La densité de probabilité d’un mélange de distributions Gaussienne sont respectivement le poids, le vecteur moyens et la matrice de covariance de la distribution dans la mixture.est le vecteur de paramètres global de mixture de Gaussienne. La densité de probabilité gaussienne En reconnaissance du locuteur, la matrice de covariance est généralement supposée diagonale. La vraisemblance pour qu’un vecteur de paramètres ait été produit par le GMM de vecteur de paramètres La valeur moyenne de la log-vraisemblance pour une séquence de paramètre .
La densité d’une mélange de gaussienne
La détermination du Θ pour une collection de trames s’effectue par l’algorithme d’apprentissage EM (Expectation Maximisation) [1]. Cet algorithme itératif effectue à chaque étape deux phases Expectation et Maximisation destiné à augmenter la vraisemblances des donnée d’apprentissage au modèle de gaussiennes(d’où le suffixe ML Maximum Likelhood ajouté à son nom).L’algorithme garantit à chaque itération la croissance d’une fonction objective de vraisemblances des paramètres sachant .Il converge vers un maximum de vraisemblance, mais seulement locales, dans le champs d’optimisation de la fonction de densité [34] . Le paramètre Θ= {,,Σ} de la mixture contient [() ] valeurs à estimer. Or la collection de trames pour un segment de voix de durée initiale allant de 30 secondes à quelques minutes contient un effectif de trames de l’ordre de 5 à 20 000 trames après VAD. Pour une dimension de l’espace acoustique = 50 et une mixture G=64 gaussienne, le paramètre Θ contient déjà 81664 valeurs à estimer. Et ici le nombre G de 64 s’avère assez loin de la quantité minimale empirique nécessaire pour façonner une mixture de segment de voix de vraisemblances satisfaisante. L’estimation EM-ML conduit alors, par sous-apprentissage, à un modèle médiocre[34]. L’alternative consiste à la matrice de covariance Σ la contrainte de diagonalité dans l’algorithme EM. La matrice Σ de chaque gaussienne est seulement rempli avec la diagonale des variances. Cette contrainte peut apparaitre restrictive, voire peut réaliste, mais en réduisant de [() ] à (2+ 1) le nombre de valeurs à estimer, elle permet l’accroissement du nombre G de gaussiennes de la mixture et donc de la précision locale de l’estimation[34].
Mesure de vraisemblances
Etant donné la collection de trames d’un énoncé de voix et un locuteur présumés, le système doit déterminer la probabilité de l’hypothèse locuteur : «cet énoncé de voix est prononcé par s » Etant définie une densité pour la loi du modèle de s, le facteur de vraisemblance (|)est alors estimé par la valeur de cette densité pour .Sous l’hypothèse d’indépendance des trames de, ce facteur est le produit des vraisemblances(|).La comparaison des probabilités permet de mesurer le risque associé à la décision d’acceptation. Le ratio des hypothèses complémentaires (likelhood ratio) , une décision binaire d’acceptation ou rejet est obtenue en fixant un seuil de décision Ω à(,|).Après incorporation des probabilités a priori () et ()à ce seuil, la décision dépend seulement de la valeur : Acceptée si >Ω,rejetée sinon. Dans le cadre de la modélisation par GMM, la vraisemblance est évaluée par la densité de suivant la mixture de gaussiennes du locuteur s. La vraisemblance nécessite l’estimation d’un modèle GMM des imposteurs de s.
Guide du mémoire de fin d’études avec la catégorie DECISION ET MESURE DE PERFORMANCE |
Étudiant en université, dans une école supérieur ou d’ingénieur, et que vous cherchez des ressources pédagogiques entièrement gratuites, il est jamais trop tard pour commencer à apprendre et consulter une liste des projets proposées cette année, vous trouverez ici des centaines de rapports pfe spécialement conçu pour vous aider à rédiger votre rapport de stage, vous prouvez les télécharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de télécharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres étudiants dans leurs propres travaux, est classé dans la catégorie MACHINES A VECTEURS SUPPORTS où vous pouvez trouver aussi quelques autres mémoires de fin d’études similaires.
|
Table des matières
DEDICACE
REMERCIEMENTS
RESUME
ABSTRACT
TABLE DES MATIERES
LISTE DE FIGURES
LISTE DES TABLEAUX
INTRODUCTION GENERALE
CHAPITRE I SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEUR
I. INTRODUCTION AUX SYSTEMES DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEUR 1. Les différentes tâches en RAL
5 1.1. Identification Automatique du Locuteur
1.2. Vérification Automatique du Locuteur
1.3. Indexation automatique en locuteur
2. Dépendance et Indépendance du Texte
3. La variabilité du signal de la parole
II. SYSTEME DE RECONNAISSANCE AUTOMATIQUE DU LOCUTEUR
1. Paramètrisation du signal de parole
1.1. Paramètres de l’analyse spectrale
1.2. Paramètres dynamique
1.3. Paramètres prosodiques
2. Modélisation du locuteur
2.1. Approche Vectorielle
2.2. L’approche statistique
2.3. L’approche connexionniste
2.4. L’approche relative
III. DECISION ET MESURE DE PERFORMANCE
1. Vérification du locuteur
2. Identification du locuteur
Conclusion
CHAPITRE II RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES
I. L’APPROCHE STATISTIQUE GMM-UBM EN RAL
Introduction
1. Schéma général
2. Les Mélanges de Gaussiennes en RAL
3. La densité d’une mélange de gaussienne
4. Mesure de vraisemblances
5. L’algorithme EM (Expectation Maximisation)
6. Le modèle GMM-UBM
7. Adaptation à Postériori MAP
8. Adaptation par MLLR
9. Calcul de score Conclusion
CHAPITRE III MACHINE A VECTEUR SUPPORTS (SVM)
I. MACHINES A VECTEURS SUPPORTS
1. Construction de l’hyperplan optimal
1.1. Cas des données linéairement séparables
1.2. Cas des données non-linéairement séparables
2. Principe des SVM
II. NOYAU DE VECTEUR ET DE SEQUENCE
1. Noyaux de vecteur
1.1. L’astuce de Noyau
1.2. Le noyau entre des vecteurs (Le noyau projectif et radial)
2. Noyau de séquence
2.1. Le noyau GLDS (Generalized Linear Discriminant Scoring)
2.2. Le noyau de Fisher Discriminant (Kernel Fisher Discriminant (KFD))
Conclusion
CHAPITRE IV SVM POUR L’IDENTIFICATION DU LOCUTEUR EN MODE INDEPENDANT DU TEXTE
I. HISTORIQUE
II. APPROCHE HYBRIDE GMM-SVM
1. Description du système
2. Protocole expérimentale
2.1. Base de données
2.2. Paramétrisation
2.3. Modélisation GMM
2.4. Décision
3. Résultats et Evaluation
Conclusion
CONCLUSION ET PERSPECTIVES
Télécharger le rapport complet