Audition – Perception
Les ondes sonores sont recueillies par l’appareil auditif, ce qui provoque les sensations auditives. Ces ondes de pression sont analysées dans l’oreille interne qui envoie au cerveau l’influx nerveux qui en résulte, le phénomène physique induit ainsi un phénomène psychique grâce à un mécanisme physiologique complexe. L’appareil auditif comprend l’oreille externe, l’oreille moyenne, et l’oreille interne (figure 1.09). Le mécanisme d’audition consiste à la transmission des vibrations acoustique perçu par l’oreille externe jusqu’au tympan et vers la cochlée où se passe la transformation de la vibration en signal nerveux via le nerf auditif. Le rôle de l’oreille interne (marteau, enclume, étrier) est l’adaptation d’impédance entre l’air externe et le milieu liquide dans l’oreille. L’oreille ne répond pas également à toutes les fréquences. La figure 1.08 présente le champ auditif humain, délimité par la courbe de seuil de l’audition et celle du seuil de la douleur. Sa limite supérieure en fréquence (≈ 16000 Hz, variable selon les individus) fixe la fréquence d’échantillonnage maximale utile pour un signal auditif (≈ 32000 Hz). A l’intérieur de son domaine d’audition, l’oreille ne présente pas une sensibilité identique à toutes les fréquences. La figure « 1.09.a » fait apparaître les courbes de l’impression de puissance auditive – physiologique (aussi appelée sonie, exprimée en sones) en fonction de la fréquence. Elles révèlent un maximum de sensibilité dans la plage [500Hz, 10kHz], en dehors de laquelle les sons doivent être plus intenses pour être perçus. Enfin, un son peut en cacher un autre. Cette propriété, appelée phénomène de masquage, peut être visualisée sous la forme de courbes de masquage (figure « 1.09.b »), qui mettent en évidence la modification locale du seuil d’audition en fonction de la présence d’un signal déterminé (un bruit à bande étroite centré sur 1kHz dans le cas de la figure « 1.09.b »). Une modélisation efficiente des propriétés de masquage de l’oreille permet de réduire le débit binaire nécessaire au stockage ou à la transmission d’un signal acoustique, en éliminant les composantes inaudibles (méthode à l’origine de la compression MP3).
Echelle des Mels Apres 500Hz, la puissance perçue par l’oreille diminue largement avec l’accroissement de la fréquence. Des expériences ont alors permis d’établir la loi qui relie la fréquence et la hauteur perçue : l’échelle des Mels où le « Mel » est une unité représentative de la hauteur perçue d’un son.
Echelle de Bark Le Bark n’est pas vraiment une unité physique. C’est une bande de fréquence (bande critique) établie par Zwicker dans le cadre de la sonie spécifique. Les Barks se divisent en 24 bandes critiques comprises entre 0 et 15500 Hz. Le Bark est un outil qui permet de créer l’axe des abscisses de la courbe de sonie spécifique d’un son complexe, lorsque les 24 Barks sont mis bout à bout. [5] [6] [7]
Les matériels de simulation
– Microphone : Le choix du microphone est essentiel parce que la présence éventuelle du bruit de fond risque de donner un résultat erroné. La distance entre la bouche et le microphone joue aussi un rôle important.
– Logiciel MATLAB : Version R2007b, il peut fonctionner avec une configuration minimale d’un PC avec un processeur Intel Pentium 4 avec 512 Mo de RAM.
– Une carte audio de bonne qualité.
Test avec prononciation découpé en syllabe
Le premier test consiste à refaire les séries de tests précédents en prononçant les mots avec des silences assez longs entre les syllabes, les résultats obtenus sont résumés dans le graphique suivant.
Interprétation des résultats
La modification massive de locution diminue fortement le taux de reconnaissance à cause du changement d’intonation pour certains mots (aoka, vaovao,…). Ce qui entraine une large différence entres les spectres du mot prononcé et ceux du résultat attendu. De plus pendant le découpage en syllabe, il peut s’introduire des bruits entre les silences, bruits d’environnement ou due au bruit de fond du microphone, qui changent aussi les caractéristiques acoustiques du mot.
|
Table des matières
REMERCIEMENTS
LISTE DES ABREVIATIONS ET NOTATIONS
INTRODUCTION GENERALE
CHAPITRE 1 : LA PAROLE
1.1 Description au niveau acoustique
1.1.1 Numérisation du signal vocal
1.1.2 Fréquence fondamentale
1.2 Description au niveau phonétique
1.2.1 La phonation
1.2.2 Phonétique articulatoire
1.2.3 Audition – Perception
1.2.3.1. Echelle des Mels
1.2.3.2. Echelle de Bark
1.3. Conclusion
CHAPITRE 2 : ANALYSE FREQUENTIELLE DU SIGNAL VOCAL
2.1 Le spectrographe
2.2 Transformée de Fourier à court terme
2.2.1 Principe
2.2.2 Spectrogramme
2.3 Modèle de prédiction – LPC (Linear Predictive Coding)
2.3.1 Principe
2.3.2 Coefficients LPC
2.4 Analyse cepstrale
2.4.1 Traitement homomorphique
2.4.2 Coefficients MFCC (Mel Frequency Cepstrum Coefficient)
2.4.2.1 Banc de Filtre
2.4.2.2 Méthode de calcul
2.5 Conclusion
CHAPITRE 3 : RECONNAISSANCE DE LA PAROLE
3.1 Historique
3.2 Niveaux de complexité
3.3 Les techniques de reconnaissance vocale
3.3.1 Approche globale
3.3.2 Approche analytique
3.3.3 L’algorithme de comparaison
3.3.3.1 Déformation temporelle linéaire
3.3.3.2 Déformation temporelle dynamique (DTW)
3.4 Classification des systèmes
3.4.1 Nombre de locuteurs
3.4.2 Longueur de mots
3.5 Applications de la reconnaissance vocale
3.5.1 Domaine d’application
3.5.2 Limites
3.6 Conclusion
CHAPITRE 4 : SIMULATION DE LA RECONNAISSANCE DES MOTS ISOLES
4.1 Les matériels de simulation
4.2 Description de la simulation
4.2.1 Extraction des paramètres caractéristiques
4.2.1.1. Avantages de la méthode
4.2.1.2. Choix des paramètres pour l’algorithme
4.2.2 Apprentissage du système
4.2.3 Reconnaissance
4.3 Résultat de la simulation
4.3.1 Test avec prononciation découpé en syllabe
4.3.2 Test avec prononciation lente
4.3.3 Interprétation des résultats
4.4 Conclusion et perspectives
CONCLUSION GENERALE
BIBLIOGRAPHIE
PAGE DE RENSEIGNEMENTS
RESUME
ABSTRACT
Télécharger le rapport complet