Traitement du signal et LA RECONNAISSANCE DE LA PAROLE

Transformée de Fourier Discret

                  La Transformée de Fourier d’un signal à temps continu et celle d’un signal à temps discret ne sont pas sous une forme appropriée pour être obtenue par un calculateur numérique. En effet, un tel operateur ne peut traiter que des nombres, et de plus, en quantité limitée par la taille de sa mémoire. Vu l’importance de la Transformée de Fourier en traitement de signal, il est nécessaire de la mettre sous une forme pratiquement réalisable. Cette forme s’appelle « Transformée de Fourier Discret ou TFD ».

L’intensité

                   L’intensité du son se mesure en général en [dB] et celui-ci distingue un son fort d’un son faible. Par exemple une conversation normale a une intensité entre 20 et 50 dB, tandis qu’une discussion animée se mesure de 50 à 65 dB. Un son est représenté mathématiquement par plusieurs paramètres:
➢ La fréquence d’échantillonnage qui désigne le nombre des valeurs définissant l’amplitude pour une seconde d’enregistrement. Plus la fréquence d’échantillonnage est élevée, meilleure est la qualité des échantillons ;
➢ Plus l’amplitude est élevée, plus le son est fort, bruyant. C’est l’amplitude qui est numérisée par le CAN. Par exemple, en 8 bits, l’amplitude possède une résolution de 256 valeurs. Plus la résolution est élevée, plus l’échantillon est proche du son original ;
➢ Le nombre de bits d’un échantillon ;
➢ Le nombre de voies (un seul correspond à la monophonie, deux à la stéréophonie) ;

La perception de la parole

               La connaissance des mécanismes d’audition et de perception de la parole est importante dans le cadre du traitement de la parole. L’audition joue un rôle fondamental dans le processus de production de la parole. Les ondes sonores sont recueillies par l’appareil auditif, ce qui provoque les sensations auditives. Ces ondes de pression sont analysées dans l’oreille interne qui envoi au cerveau l’influx nerveux qui en résulte ; le phénomène physique induit ainsi un phénomène psychique grâce à un mécanisme physiologique complexe.

Applications de la reconnaissance vocale

             La reconnaissance de la parole s’applique dans beaucoup de domaines. Actuellement il existe beaucoup des systèmes qui utilisent la reconnaissance vocale, on peut le regrouper en différents catégories selon le domaine d’application :
➢ Télécommunications : La technique de l’ASR s’applique sur des serveurs d’informations téléphoniques, pour automatisation des services de renseignement, composition vocale du numéro « mains libres », commande et contrôle de service d’accès à des bases de données, de services de réservation ou d’achat par téléphone.
➢ Informatiques industrielles
– Commandes et Contrôles Vocales des logiciels, des robots, des appareils mécaniques ou électroniques tel que les pilotages automatiques ou contrôle de production dans les usines.
– Dictée vocale pour saisie d’information ou traduction linguistique pour la machine à dictée qui reçoit à l’entrée le signal de parole et envoie à la sortie des textes
➢ Sécurités
– Contrôles d’accès d’un système en utilisant l’emprunt vocal tel que l’ouverture d’un coffre fort ou le déverrouillage d’un appareil mobile quelconque.

Reconnaissance du locuteur (speaker-dependent)

               Ce type de reconnaissance s’intéresse plutôt à la personne qui parle, c’est-à-dire que l’objectif est de reconnaître celle qui parle. Dans ce type de reconnaissance, on s’oriente beaucoup à l’empreinte vocale de la personne qui parle, mais pas à ce qu’elle a dit. Ce type de reconnaissance est utilisée pour la sécurité et trouvent un grand champ d’applications dans le domaine des serveurs vocaux mais également du contrôle d’accès. Lorsqu’on parle de reconnaissance du locuteur le système de reconnaissance peut être appelé un « système monolocuteur ». C’est à dire le reconnaisseur de parole est entraîné à reconnaitre la voix d’une personne. En principe c’est un système qui utilise l’empreint vocale d’une personne pour pouvoir le comparaître à d’autre.

Segmentation du signal

                     La segmentation est l’action de traiter le signal en segments élémentaires, suivie ensuite par l’étiquetage de ces segments. Il est important de choisir les unités sur lesquelles portera le décodage. Si des unités longues telles que les syllabes ou les mots sont choisies, la reconnaissance en elle-même sera facilitée mais leur identification est difficile. Si des unités courtes sont choisies, comme les phones (sons élémentaires), la localisation sera plus facile mais leur exploitation nécessitera de les assembler en unités plus larges. Les phonèmes constituent un bon compromis, leur nombre est limité ainsi on les utilise souvent. Mais le choix dépend également du type de reconnaissance effectuée : reconnaissance des mots isolés ou de parole continue.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 : LE TRAITEMENT DU SIGNAL
1.1. Numérisation du signal
a. Echantillonnage
b. La Quantification
c. Codage
1.2. Traitement numérique du signal
a. Transformée de Fourier d’un signal discret
b. Transformée de Fourier Discret
CHAPITRE 2 : GENERALITES SUR LE SIGNAL DE LA PAROLE
2.1. Définitions et caractéristiques du signal de la parole
a. La fréquence fondamentale (le pitch)
b. La hauteur de la voix
c. L’intensité
2.2. Production et perception de la parole
a. La production de la parole
b. La perception de la parole
2.3. Niveaux de description de la parole
CHAPITRE 3 : RECONNAISSANCE DE LA PAROLE
3.1. Introduction
a. Définition
b. Recherche en reconnaissance vocale
c. Complexité de la reconnaissance vocale
d. Applications de la reconnaissance vocale
e. Classement de la reconnaissance vocale
f. Objectifs de l’ASR
3.2. Paramétrisation du signal de la parole
a. Représentation temporelle
b. Empreinte caractéristique
c. Décodage acoustico-phonétique
3.3. Techniques de reconnaissance vocale
CHAPITRE 4 : APPLICATION DE LA RECONNAISSANCE DE LA PAROLE SUR WINDOWS
4.1 Introduction
4.2. Le logiciel « DICTPAD »
a. Présentation générale
b. Manuel utilisateur
c. Mode de fonction de Dictpad
d. Programmation
CONCLUSION
ANNEXE A : Le Modèle de Markov Caché (HMM)
Formalisme
ANNEXE B : Algorithme DTW
Notion de l’algorithme DTW
ANNEXE C: SAPI avec Windows
C.1 Les bases de la programmation sous Windows
a. Introduction
b. Hello, World !
c. La fonction WinMain
C.2 Les fenêtres
a. Introduction
b. Les messages
C.3 SAPI (Speech Application Programming Interface)
a. Vue d’ensemble
b. API pour Text-to-Speech
c. API pour la reconnaissance vocale
d. Microsoft Speech SDK
ANNEXE D : L’alphabet phonétique international (IPA)
REFERENCES

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *