Modélisation de l’appareil phonatoire humain
Les modèles d’écoulement d’air, de sources et de propagation acoustique, en association avec des modèles articulatoires, permettent de constituer un synthétiseur articulatoire complet, contrôlé par deux jeux de paramètres : les paramètres supra laryngés qui commandent le modèle articulatoire, et un jeu de paramètres qui pilotent les cordes vocales (pression sous glottique, longueur des cordes vocales et hauteur de la glotte au repos). Le larynx est un lieu important pour les mécanismes phonatoires. Il est situé dans la région moyenne du cou et il est constitué du cartilage, de muscles et de nerfs. Il contient les « cordes vocales » qui sont un ensemble de muqueuses, de ligaments et de muscles. La langue joue un rôle dans la phonation parce que sa mobilité lui permet d’agir avec précision et rapidité sur la taille du conduit vocalique. Les lèvres sont situées à l’extrémité du conduit vocal et c’est la variance de leur écartement qui est importante du point de vue acoustique
Acquisition et stockage des signaux de la voix humaine
Il faut d’abord différencier les deux types de sons: le son analogique et le son numérique. Le son analogique est représenté sous la forme de signaux électriques d’intensité variable. Ces signaux sont issus d’un micro qui transforme le son acoustique d’une voix ou la vibration des cordes d’une guitare en impulsions électriques. Ces signaux sont enregistrables tels quels sur une bande magnétique (K7 audio par exemple) et peuvent être ensuite amplifiés, puis retransformés en son acoustique par des haut-parleurs. Le son analogique n’est pas manipulable tel quel par un ordinateur, qui ne connaît que les 0 et les 1. Le son numérique est représenté par une suite binaire de 0 et de 1. L’exemple le plus évident de son numérique est le CD audio. Le processus de passage du son analogique en son numérique est appelé « numérisation » dont la première étape est l’échantillonnage. Celui-ci consiste à mesurer la tension (en Volt) du signal analogique à intervalles réguliers. La valeur obtenue est quantifiée puis codée en binaire (suite de 0 et de 1) Le composant qui réalise cette tâche est appelé CAN (Convertisseur Analogique Numérique). Évidemment, ce processus de mesure et de conversion binaire doit être très rapide. C’est là qu’intervient la fréquence du son à numériser. Par exemple, pour une voix dont la fréquence est de 3400 Hz (Hertz), le signal électrique issu du micro aura aussi une fréquence de 3400 Hz. Pour transformer ce signal en numérique et à qualité équivalente, le théorème de Shannon a démontré qu’il fallait que le prélèvement de mesures soit fait à une fréquence au moins 2 fois plus rapide que la fréquence originale, soit pour l’exemple de la voix, 8000 fois par seconde (8000 Hz ou 8 kHz). Un autre paramètre très important de l’échantillonnage est la précision avec laquelle la tension du signal électrique sera lue et codée. Le codage peut, en effet se faire sur n bits donnant 2n valeurs possibles. Une précision de 8 bits donnera une tension codée parmi 256 valeurs, alors que 16 bits donneront 65 536 valeurs. L’avantage évident de ce type de son, c’est qu’étant codé sous la forme de 0 et de 1, il est directement manipulable par un ordinateur et son stockage ne pose aucun problème sur un disque dur. En revanche, le nombre de valeurs enregistrées étant énorme (44 100 valeurs/s), ce type de son occupe beaucoup de place dans la mémoire ainsi que sur le disque dur de l’ordinateur.
CONCLUSION GENERALE
Ce travail nous a permis de visualiser quelques techniques de reconnaissance vocale basée sur la reconnaissance de mots isolés dans le cas de petit vocabulaire. On constate que parmi ces méthodes, une seule semble pouvoir offrir un service de qualité satisfaisante et elle est largement utilisée dans la reconnaissance vocale à petit vocabulaire. Il s’agit de la méthode du calcul de la distance au travers d’une DTW. Ce projet a également permis de constater que ces techniques pouvaient être appréhendées au travers d’un outil de développement simple tel que Matlab. Dans un processus temps réel, il faudra tenir compte de la charge de calcul élevée engendrée par le calcul de la DTW. Il faudrait donc faire appel à des langages plus performants pour permettre d’embarquer de tels algorithmes dans les GSM par exemple. Les logiciels d’application de la reconnaissance vocale actuelle sont basés par l’utilisation du moteur vocal. Le problème est donc axé sur le développement et exploitation de ces moteurs vocaux selon l’activité à faire. Ce que nous avons réalisé dans ce livre n’est qu’un exemple d’exploitation du moteur vocal « Sapi Developer Sample Engine ». La partie simulation que nous avons présentée est un système monolocuteur. Elle nécessite une phase d’apprentissage. Une première approche utilise comme unité de base le mot et c’est à travers le mot qu’on fait la reconnaissance. C’est le principe de la méthode globale. La deuxième exploite la méthode analytique .Elle tire parti de la structure des mots et identifie les composantes élémentaires (phonèmes, syllabes,..) comme unités de base à reconnaître. Ces deux systèmes peuvent être utilisés comme un système multilocuteur à condition bien sûr que chaque utilisateur à son propre dictionnaire de référence. En bref la reconnaissance vocale ouvre des perspectives nouvelles. Cependant, même dans le futur, la reconnaissance vocale risque d’atteindre rapidement des limites. En effet, nous avons parfois du mal à comprendre ce que dit une personne en raison par exemple de mots homophones. On peut donc se demander comment une machine, dont le principe de reconnaissance est fondé sur celui de l’homme, serait capable de faire mieux. Il reste néanmoins clair, que la reconnaissance vocale est encore très limitée et loin d’être parfaite.
|
Table des matières
INTRODUCTION GENERALE
CHAPITRE 1 : GENERALITES
1.1. Le son [2] [6] [11] [13]
1.2. La parole
1.2.1 Modélisation de l’appareil phonatoire humain
1.2.2 Production de la parole
1.3. Caractéristiques essentielles de la voix [1] [4]
1.3.1 Fréquence fondamentale (Pitch)
1.3.2 Description des voyelles
1.3.3 Structure des consonnes
1.4. Acquisition et stockage des signaux de la voix humaine [10]
1.4.1 Mise en forme du signal
1.5 L’appareil auditif [7]
1.5.1 L’échelle des Mels
1.5.2 L’échelle de Bark
Chapitre 2: LES PRINCIPES DES TECHNIQUES DOMINANTES DE LA RECONNAISSANCE VOCALE
2.1 Classification des systèmes [1] [5] [8] [9]
2.1.1 Classes suivant le nombre de locuteurs qui peuvent l’utiliser
2.1.2 Classes suivant la longueur du mot
2.2 Les techniques de reconnaissance vocale [4] [7] [8] [17]
2.2.1 La structure d’un système de reconnaissance de mots isolés
2.2.2 Authentification de la voix
2.2.3 Difficultés
Chapitre 3 : PRINCIPALES METHODES D’IDENTIFICATION ET DOMAINE D’APPLICATION
3.1 La méthode spectrale [11]
3.1.1 Difficulté rencontrée
3.2 La méthode par spectrogramme [1] [8] [18]
3.2.1 Mode de calcul
3.2.2 Principe d’identification
3.3 Déformation temporelle dynamique [14] [15] [17] [18] [19]
3.3.1 Coefficients LPC (Linear Predictive Coding)
3.3.2 Outil de comparaison DTW
3.3.3 Applications de la reconnaissance vocale
3.3.4 Les limites
Chapitre 4 : SIMULATION
4.1 Simulation sous Matlab
4.1.1 Description
4.1.2 Traitement
4.1.3 Présentation de la page d’accueil
4.2 Application sous MS Visual basic [19]
4.2.1 Réalisation
4.2.2 Présentation du logiciel
CONCLUSION GENERALE
ANNEXES
Télécharger le rapport complet