RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

Émission, Propagation, Réception du son

Pour qu’un son soit émis, une énergie doit avant tout mettre en mouvement un corps pour produire une vibration. Ainsi, le muscle du larynx, la chute d’un objet sur le sol, ou la tension électrique dans un haut-parleur, provoqueront l’énergie nécessaire pour produire cette vibration. Ensuite, pour que ce son puisse se propager, il faut un milieu élastique favorable à la transmission de la vibration. En créant des surpressions ou des dépressions, l’air permet la propagation de l’onde. Les matériaux solides ont aussi cette capacité de transmettre le son. Dans le vide par contre, aucun son ne peut se propager, car il n’y a aucun de support. Enfin, pour être perçue, il doit y avoir un récepteur sensible. Chez l’homme, l’oreille possède une membrane (le tympan) capable de transmettre les informations de vibration en signaux nerveux jusqu’au cerveau, grâce au nerf auditif. De même, le microphone possède également une membrane permettant de transformer les déplacements de l’air en signaux électriques.

Le Timbre

Le timbre est le paramètre qui permet de préciser la « couleur » du signal (son). Suivant le théorème de Fourrier, un son complexe peut être décomposé en une somme de sinusoïdes de fréquence et d‟amplitude données.
– La fréquence la plus basse est appelée « FONDAMENTALE »,
– Les fréquences multiples à la fondamentale sont appelées «HARMONIQUE». Plus le son a des harmoniques, plus on dit qu‟il est «riche». L‟analyseur de spectre permet : de montrer le contenu spectral du son (signal) Certains sons n‟ont pas de spectre bien défini: les fréquences sont générées aléatoirement.
– le bruit rose (Pink Noise) : contient toutes les harmoniques dont la somme donne un contenu spectral «plat»
– le bruit blanc (White Noise) : contient toutes les harmoniques dont la somme donne un contenu croissant.

La parole

La parole est un moyen de communication très efficace et naturel de l’humain. La parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine dans les mécanismes de production. La parole apparaît physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire. Les sons de parole sont produits soit par des vibrations des cordes vocales (source de voisement), soit par une turbulence crée par l’air s‟écoulant rapidement dans une constriction ou lors du relâchement d‟une occlusion du conduit vocal (sources de bruit). L’unité de parole de plus petite taille est un phonème (voyelle ou consonne). Le nombre de phonèmes est toujours très limité, normalement inférieur à cinquante.

Empreinte vocale

Une Empreinte vocale est un résumé numérique généré à partir d’un signal audio. Cette empreinte permet d’identifier un échantillon sonore, ou de localiser une séquence sonore dans une base de données audio. Le procédé d’empreinte vocale fut mis au point à partir d’expérimentations réalisées par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels destinés à être analysés et mesurés. Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande magnétique, comme dans un enregistrement sonore ordinaire, mais les impulsions sont ensuite traitées électroniquement par un balayage successif de l’enregistrement magnétique original et converties en un enregistrement sous forme d’images sur un papier de spectrogramme sensibilisé électriquement. Les images qui en résultent peuvent être systématiquement classées par durée, fréquence et intensité et comparées avec des images en provenance d’autres sources. L’empreinte vocale est quelquefois utilisée par la police pour identifier des personnes proférant des menaces téléphoniques ou à l’origine d’appels anonymes.

Reconnaissance de locuteurs par des profanes

Une croyance ancienne, toujours d‟actualité de nos jours, stipule que l‟humain peut être fiable à identifier autrui en entendant sa voix. En effet, en se basant sur notre capacité à reconnaître des voix d‟amis ou d‟identifier des voix d‟acteurs ou de politiciens, le mythe d‟une reconnaissance vocale auditive par des profanes exacte et précise est né. Selon le même auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de locuteurs. Un grand nombre de paramètres entre également en jeu dans ce genre de reconnaissance : la qualité de la voix, la nature du discours, la durée de l‟écoute, le temps écoulé entre l‟écoute de la voix du locuteur et la procédure d‟identification, la différence d‟âge, de genre et d‟ethnie entre le témoin auditif et le locuteur, le déguisement de la voix, etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats d‟une identification de locuteur par des profanes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Chapitre I. Généralités
I.1. Les Sons
a. Émission, Propagation, Réception du son
b. Caractéristiques du son [3]
I.2. La parole [4]
I.3. Empreinte vocale
I.4. Reconnaissance vocale [5]
Chapitre II. Analyse acoustique du signal de la parole
II.1. Traitement des signaux [6]
a. Echantillonnage des signaux
b. Représentation des signaux périodiques sous la forme de séries de Fourier
II.2. Analyse spectrale des signaux numériques
a. Transformation de Fourier numérique [7]
b. Transformation de Fourier discrète [8]
c. Transformée de Fourier Rapide
II.3. Fenêtrage [9]
II.4. Analyse Cepstrale
Chapitre III. Reconnaissance de locuteur
III.1. Historique
a. Reconnaissance de locuteurs par des profanes
b. Reconnaissance de locuteurs par des experts
c. Reconnaissance de locuteurs automatisée
III.2. Principe et fonctionnement de la reconnaissance de locuteur [13]
a. Création de l’empreinte vocale
b. Détection des zones de silence
c. Calcul des coefficients MFCC
d. Conversion de l‟échelle en logarithme
e. La transformée en cosinus discret (DCT)
III.3. Comparaison dynamique (Dynamic Time Warping (DTW))
III.4. Les variabilités du signal de parole
III.5. Application de la reconnaissance de locuteur
III.6. Problèmes majeurs
Chapitre IV. Réalisation
IV.1. Présentation du logiciel
a. Programmation
b. Fonctionnement
c. Organigramme
IV.2. Les interfaces de « zazakely »
a. Fenêtre de démarrage
b. Fenêtre principale
c. Fenêtre dico
IV.3. Manuel d‟utilisation de « zazakely »
a. Enregistrement
b. Reconnaissance d‟un locuteur
IV.4. Les matériels requis
Conclusion et Perspectives