Application de la transformée en ondelettes à la reconnaissance des commandes vocales en milieu bruité

Production de la parole

La production de la parole est due à l’action des systèmes respiratoire et masticatoire sous l’effet du contrôle du système nerveux central . Pour produire de la parole, le larynx, constitué de cartilages et de muscles, reçoit une quantité d’air des poumons.

Ensuite, avec l’ouverture et la fermeture du larynx à l’aide des cordes vocales, il fait varier le flux d’air avant d’être envoyé à la région vocale qui est constituée d’une cavité buccale et nasale. Le processus de production de la voix consiste en deux modes : celui qui donne des sons voisés, par la pression de l’air qui fait vibrer les cordes vocales du larynx et celui qui donne des sons non voisés, ceci est dû à un flux d’air turbulent dans le conduit vocal .

Perception de la parole

La perception de la parole est effectuée par l’ appareil auditif (oreille) qui est constitué de l’oreille externe, l’oreille moyenne et l’oreille interne. La perception de l’appareil auditif humain a une bande de fréquences qui s’étend entre 800 Hz et 8 KHz et au maximum entre 20Hz et 20KHZ .

Oreille externe :Le pavillon qui est la grande partie de l’oreille externe, protège l’oreille contre les corps étrangers et permet aussi une localisation du son qui est transmis au tympan à travers le conduit auditif.

Ce dernier est un tube acoustique qui a sa première fréquence de résonance autour de 3 kHz et par conséquence, la sensibilité de l’appareil auditif est élevée dans cette gamme de fréquences .

Oreille moyenne :L’oreille moyenne est une cavité d’air qui est constituée du tympan et des osselets (le marteau, l’enclume et l’étrier). Ces derniers ont pour rôle de transmettre les vibrations reçus par le tympan au milieu liquide de l’oreille interne. L’oreille moyenne permet aussi de protéger l’oreille interne des sons très forts . La trompe d’eustache, qui est reliée à la gorge, a pour rôle de régler la pression d’air des deux faces du tympan.

Oreille interne :L’oreille interne est formée d’un milieu liquide. Elle contient la cochlée qui comprend la membrane basilaire. Quand cette dernière reçoit des vibrations, les cellules ciliées, des milliers de cellules, de l’organe de corti situé sur la membrane basilaire déclenchent des influx nerveux au nerf auditif .

Reconnaissance de mots isolés

Le principe de base d’un système de reconnaissance de mots isolés est de donner une image acoustique à chacun des mots à reconnaître. Il existe deux méthodes de reconnaissance de mots isolés. La première méthode dite globale consiste à comparer le mot à reconnaître en entier avec le mot de référence. Par contre, dans la deuxième méthode dite analytique le mot à reconnaître est subdivisé en composantes élémentaires (phonèmes ou syllabes etc.) qui sont comparées avec les composantes élémentaires de la référence.

Prétraitement : après avoir séparé le mot du silence, on effectue la préaccentuation et on divise le mot en différents segments.

Extraction de paramètres : on extrait les paramètres pour chaque segment.

Dictionnaire : on crée des modèles de références pour chaque mot.

Comparaison et décision: les paramètres du mot à reconnaître sont comparés avec ceux des modèles du dictionnaire.

Le modèle qui a les paramètres proches, va être choisi comme mot reconnu.

Quelques méthodes de reconnaissance des mots isolés

Après l’extraction des paramètres, on passe à l’étape de la reconnaissance. Dans cette partie nous présenterons les deux méthodes de reconnaissance les plus utilisées. La première est basée sur l’algorithme d’alignement temporel dynamique et la deuxième sur un modèle stochastique.

Distance

Durant l’étape de la reconnaissance du mot, une distance est utilisée pour mesurer la ressemblance entre le mot à reconnaître et le mot du dictionnaire de référence. Cette distance doit être : Significative sur le plan acoustique. Formalisable d’une façon efficace sur le plan mathématique. Définie dans un espace de paramètres judicieusement choisi.

Alignement temporel dynamique

Le même mot peut être prononcé avec différents rythmes et différentes vitesses, ceci entraîne des modifications de l’échelle temporelle. On distingue deux types de ce genre de modifications :

Les modifications de la vitesse de prononciation donnent une transformation linéaire de l’échelle temporelle.

Les modifications du rythme de prononciation qui entraîne une transformation non linéaire de l’échelle temporelle.

Pour la reconnaissance des mots isolés, l’évaluation de la mesure de ressemblance entre le mot à reconnaître et le mot de référence qui ont des échelles temporelles différentes est un problème. Pour remédier à ce problème, on utilise un algorithme d’alignement temporel dynamique (DTW Dynamic Time Warping). Le DTW est un algorithme non linéaire qui consiste à dilater ou compresser les axes de temps des mots à comparer.

Modèle de Markov cachés

Les modèles de Markov cachés (Hidden Markov Model HMM) sont des approches stochastiques qui utilisent la probabilité à la place de la distance où le signal de la parole est représenté par une séquence d’états d’observations. Le principe de reconnaissance d’un mot avec HMM consiste à trouver un modèle qui reconstitue le mot avec une grande probabilité .

Dictionnaire de références

Le dictionnaire de références regroupe tous les modèles de mots du vocabulaire utilisés pour la reconnaissance et il est créé par apprentissage. Il est important d’avoir des modèles qui représentent bien les mots du vocabulaire pour obtenir une bonne performance de la reconnaissance. Il existe deux types de dictionnaire: le dictionnaire monolocuteur et le dictionnaire multilocuteur.

L’apprentissage monolocuteur est plus facile à réaliser, mais il comporte aussi des difficultés à cause de la variabilité intra-locuteur (vitesse d’élocution, rhume … etc.). Parmi les méthodes utilisées pour réaliser le dictionnaire monolocuteur, il y’a la méthode à références variés qui prend la totalité des prononciations d’un mot par le locuteur comme des références du mot, et la méthode par moyennage où le mot de référence est obtenu à partir des prononciations moyennées après les avoir ramenées sur une échelle temporelle identique avec l’algorithme DTW.

L’apprentissage multilocuteur est plus difficile à réaliser car on a en plus la variabilité inter locuteur (particularités anatomiques, accents régionaux, … etc). Pour réaliser un dictionnaire de référence multilocuteur , on utilise généralement un algorithme de classification qui divise les prononciations d’un mot en classes d’occurrences. Chaque centre de classe d’occurrence va être une référence du mot.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 : RECONNAISSANCE DE LA PAROLE
1.1 Introduction
1.2 Production de la parole
1.3 Perception de la parole
1.3.1 Oreille externe
1.3.2 Oreille moyenne
1.3.3 Oreille interne
1.4 Reconnaissance de mots isolés
1.4.1 Détection du mot
1.4.2 Préaccentuation
1.4.3 Segmentation et fenêtrage
1.4.4 Extractions de paramètres
1.4.4.1 Codage linéaire prédictif
1.4.4.2 MFCC
1.4.5 Quelques méthodes de reconnaissance des mots isolés
1.4.5.1 Distance
1.4.5.2 Alignement temporel dynamique
1.4.5.3 Modèle de Markov cachés
1.4.6 Dictionnaire de références
1.4.6.1 Algorithme de classification (K-means)
1.5 Conclusion
CHAPITRE2 : TRANSFORMÉE EN ONDELETTES
2.1 Introduction
2.2 Transformée de Fourier
2.3 Transformée en ondelettes
2.4 Transformée en ondelettes dyadique
2.5 Concept d’analyse multirésolution
2.6 Décomposition par banc de filtres
2.7 Décomposition dyadique
2.8 Décomposition en paquet d’ondelettes
2.9 Reconnaissances de la parole avec les ondelettes
2.10 Débruitage à l’aide de la transformée en ondelettes
2.10.1 Estimation du seuil
2.10.2 Seuillages des coefficients de la décomposition
2.11 Conclusion
CHAPITRE 3 : PROCESSEUR DÉDIÉ AU TRAITEMENT NUMÉRIQUE DES SIGNAUX
3.1 Introduction
3.2 Code Composer Studio
3.2.1 Les composantes du CCS
3.2.2 Création du fichier exécutable
3.2.3 Temps réel avec CCS
3.3 DSP TMS320C6711
3.3.1 L’unité centrale de traitement (CPU)
3.3.1.1 Unité de contrôle de programme
3.3.1.2 Unités fonctionnelles
3.3.1.3 Registres
3.3.2 Les périphériques du TMS320C6711
3.3.3 La structure de la mémoire
3.4 Carte DSK6711
3.5 Conclusion
CHAPITRE4 : MÉTHODOLOGIE ET SIMULATIONS
4.1 Introduction
4.2 Méthodologie du système de reconnaissance
4.3 Prétraitement
4.3.1 Contrôle automatique du gain
4.3.2 Isolation du mot du silence
4.3.3 Segmentation et fenêtrage
4.4 Extraction de paramètres
4.5 Dictionnaire de référence
4.6 Reconnaissance
4.7 Débruitage
4.8 Simulation et résultats
4.9 Implémentation sur DSP
4.10 Conclusion
CONCLUSION
BIBLIOGRAPHIE