Télécharger le fichier pdf d’un mémoire de fin d’études
Principe de la reconnaissance biométrique
Le fonctionnement de la reconnaissance biométrique illustré par la figure 1.1 peut se décomposer de la façon suivante :
– Capture de l’information à analyser.
– Traitement de l’information et création d’un fichier « signature », puis mise en mémoire de ce fichier de référence sur un support (disque dur, carte à puce, code à barres).
– Phase de vérification, on procède ici comme pour la création du fichier « signature » de référence, puis on compare les deux fichiers pour déterminer leur taux de similitude et prendre la décision qui s’impose.
Figure I.1 Fonctionnement de la reconnaissance biométrique
Quelques moyens actuellement à l’étude [2]
Les empreintes digitales, La forme de la main
Le visage La voix L’iris
La rétine
La signature dynamique La thermographie
Le code génétique (A.D.N ou Acide DésoxyriboNucléique).
Figure I.2 Identification biométrique
En ce qui concerne « la voix », les avantages relevés sont les suivants :
– C’est, à ce jour, le seul moyen pour connaitre un interlocuteur via une liaison téléphonique,
– Par rapport aux autres technologies, il est plus facile de protéger le récepteur; on pourra en effet aisément protéger un micro derrière une grille anti-vandalisme.
Mais « la voix », possède aussi des inconvénients :
– Elle est sensible à l’état physique de l’individu.
– Elle est sensible aux bruits ambiants.
– Il sera possible de frauder par un enregistrement.
– Les taux de faux rejets et fausses acceptations sont élevés.
Identification de la voix
Le domaine pluridisciplinaire concernant l’identification vocale d’utilisateurs rassemble des phonéticiens (production et perception de la parole) et des ingénieurs (traitement du signal, informatique, théorie de la décision).
L’identification de la voix est considérée par les utilisateurs comme une des formes les plus normales de la technologie biométrique, car elle n’est pas intrusive et n’exige aucun contact physique avec le récepteur du système.
Chaque personne possède donc une voix propre que l’on peut analyser à l’aide d’un micro. La plupart des systèmes d’identification de la voix utilisent l’affichage d’un texte, des mots spécifiques doivent être lus, puis répétés afin de vérifier que la personne à identifier est bien présente et qu’il ne s’agit pas d’un enregistrement. Les imitateurs essayent habituellement de reproduire les caractéristiques vocales qui sont les plus évidentes au système auditif humain et ne recréent pas les caractéristiques moins accessibles. Il n’est donc pas possible d’imiter la voix d’une personne inscrite dans une base de données
LE SON [3]
Un son est défini comme étant à la fois un phénomène physique d’origine mécanique (dû à des vibrations de l’air), et comme la sensation (physiologique) qui en résulte et que l’on appelle audition. Dans son état stabilisé, un son peut être caractérisé à partir de 3 éléments qui sont : l’intensité (figure 1-3), la hauteur (figure 1-4), le timbre (figure 1-5).
Intensité d’un son
L’intensité d’un son est la propriété qui fait la perception plus ou moins forte. La sensation subjective d’intensité est aussi appelée « sonie ».
Deux unités sont utilisées pour traduire l’intensité d’un son :
le décibel (unité physique)
le phone (unité physiologique)
Figure I.3 Représentation de deux sons de même fréquences et de même timbre mais d’intensité différente
Hauteur d’un son
La hauteur d’un son est la propriété qui fait qu’on le perçoit comme grave ou aigu. La sensation de hauteur est appelée « tonie ». La hauteur d’un son correspond à la fréquence de vibration de l’onde sonore. Cette fréquence s’exprime en Hertz (1 Hz = une vibration par seconde)
Figure I.4 Représentation de deux sons de même intensité et de même timbre mais de hauteurs différentes
Timbre d’un son
Le timbre d’un son est la propriété qui fait différencier des sons de même hauteur et de même intensité.
Figure I.5 Représentation de deux sons de même intensité et de même hauteur mais de timbre différent
EMPREINTE VOCALE
Une empreinte vocale est un résumé numérique généré à partir d’un signal audio. Cette empreinte permet d’identifier un échantillon sonore, ou de localiser une séquence sonore dans une base de données audio.
Le procédé d’empreinte vocale fut mis au point à partir d’expérimentations réalisées par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels destinés à être analysés et mesurés. Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande magnétique, mais les impulsions sont ensuite traitées et converties en un enregistrement sous forme d’images sur un papier de spectrogramme sensibilisé électriquement. Les images qui en résultent peuvent être systématiquement classées par durée, fréquence et intensité et peuvent être comparées avec des images en provenance d’autres sources. L’empreinte vocale est quelquefois utilisée par la police pour identifier des personnes proférant des menaces téléphoniques ou à l’origine d’appels anonymes.
RECONNAISSANCE VOCALE
Il existe deux grands types de reconnaissance vocale (figure 1.6) :
– La reconnaissance de la parole ou « Speech recognition » :
La reconnaissance de la parole est utilisée pour reconnaître ce qui est dit. Dès lors, elle permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce n’est pas du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.
– La reconnaissance du locuteur ou « Speaker recognition » :
Le but de la reconnaissance du locuteur est de reconnaître qui parle et donc de reconnaître le locuteur et non pas le contenu.
Figure I.6 Types de reconnaissance vocale
RECONNAISSANCE DE LOCUTEUR
Historiques
La reconnaissance vocale est définie comme étant un processus de prise de décision utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est à l’origine d’une énonciation. Cette prise de décision porte sur une éventuelle familiarité entre la voix cible et les voix de référence [4].
Reconnaissance de locuteurs par des profanes [5]
Une croyance ancienne, toujours d’actualité de nos jours, stipule que l’humain peut être fiable à identifier l’autrui en entendant sa voix. En effet, en se basant sur notre capacité à reconnaître des voix d’amis ou d’identifier des voix d’acteurs ou de politiciens, le mythe d’une reconnaissance vocale auditive par des profanes exacte et précise est né. Selon le même auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de locuteurs.
Un grand nombre de paramètres entre également en jeu dans ce genre de reconnaissance : la qualité de la voix, la nature du discours, la durée de l’écoute, le temps écoulé entre l’écoute de la voix du locuteur et la procédure d’identification, la différence d’âge, de genre et d’ethnie entre le témoin auditif et le locuteur, le déguisement de la voix, etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats d’une identification de locuteur par des profanes.
Reconnaissance de locuteurs par des experts
Les experts phonéticiens analysent en détail la voix du locuteur, pour extraire des paramètres au niveau de la voix (hauteur, et timbre), de la parole (articulation, diction, vitesse d’élocution, pauses, intonation et défauts), du langage (dynamique, style et prosodie), ainsi qu’au niveau des caractéristiques linguistiques (syntaxe, idiotisme et respiration).
L’utilisation de moyens techniques pour extraire certaines de ces caractéristiques permet de les quantifier. Ces experts se basent sur l’amplitude, les bandes de fréquence, la distribution spectrale des énergies, la fréquence fondamentale, ainsi que sur la durée et le rythme des segments de voix.
Après la 2ème Guerre Mondiale, une approche consistant à comparer visuellement les spectrogrammes, «empreinte vocale», des voix indiciaires et de comparaison est apparue. Les limites de cette approche ont rapidement été mises en évidence durant la fin du XXème Siècle : contrairement à ce que le nom d’ «empreinte vocale» laisse croire, les spectrogrammes d’un même locuteur ne sont, ni invariants tout au long de la vie, ni uniques, comme les empreintes digitales. Malgré le manque de fiabilité et de validité de cette méthode, ce type d’identification est encore autorisé dans les tribunaux américains. [6]
Reconnaissance de locuteurs automatisée
Il existe plusieurs types de système de reconnaissance automatique de locuteurs : les systèmes dépendants du texte et les systèmes indépendants. Le premier cas comprend les situations dans lesquelles la confection d’enregistrements de contrôle du locuteur suspecté est possible, ce qui est relativement rare dans le domaine forensique. Le second cas comprend les situations dans lesquelles la confection d’enregistrement de contrôle est impossible.
Un grand nombre de systèmes de caractérisation et de comparaison des paramètres ont été testés.
Actuellement, la plupart des systèmes utilisent la modélisation des caractéristiques du locuteur par plusieurs fonctions gaussiennes, appelée «Gaussian Mixture Modelling» ou GMM [6].Les systèmes indépendants du texte utilisant ce type de modélisation sont plus performants que les autres méthodes de caractérisation, comme par exemple l’utilisation des réseaux de neurones, la quantification vectorielle et les modèles de Markov cachés.
|
Table des matières
Introduction
Chapitre I. Notions Préliminaires
I.1. BIOMETRIE
I.1.1. Définition
I.1.2. Domaines d’application de la biométrie
I.1.3. Principe de la reconnaissance biométrique
I.1.4. Quelques moyens actuellement à l’étude
I.1.5. Identification de la voix
I.2. LE SON
I.2.1. Intensité d’un son
I.2.2. Hauteur d’un son
I.2.3. Timbre d’un son
I.3. EMPREINTE VOCALE
I.4. RECONNAISSANCE VOCALE
I.5. RECONNAISSANCE DE LOCUTEUR
I.5.1. Historiques
I.5.2. Informations et caractéristiques d’un locuteur
Chapitre II. Traitement numérique du signal
II.1. LA NUMERISATION
II.1.1. Opération d’échantillonnage
II.1.2. Opération de quantification
II.2. ANALYSE SPECTRALE DES SIGNAUX NUMÉRIQUES
II.2.1. Transformation de Fourier (TF) …
II.2.2. Transformation de Fourier Numérique(TFN)
II.2.3. Transformation de Fourier Discrète(TFD)
II.2.4. La Transformation de Fourier Rapide(TFR)
II.2.5. Méthode d’analyse
II.2.6. Méthodes d’estimation de la densité spectrale de puissance d’un signal numérique
Chapitre III. Reconnaissance De Locuteur
III.1. CREATION DE L’EMPREINTE VOCALE
III.1.1. Fonctionnement général
III.1.2. Prétraitement
III.1.3. Parole en tant que signal quasi-stationnaire
III.1.4. Fenêtrage
III.1.5. DFT
III.1.6. Banc de filtres Mels
III.1.7. Les coefficients Cepstraux
III.2. LA COMPARAISON DYNAMIQUE OU DTW
III.3. PERFORMANCES DU RECONNAISSANCE DE LOCUTEUR
Chapitre IV. Réalisation
IV.1. PRESENTATION DU LOGICIEL
IV.1.1. Programmation
IV.1.2. Fonctionnement
IV.1.3. Les interfaces de « zazakely »
IV.1.4. Manuel d’utilisation de « zazakely »
IV.2. LES MATERIELS REQUIS
CONCLUSION
Annexe A: Java Sound
Annexe B: L’algorithme DTW
Annexe C: Connexion avec MatlabServer
Annexe D: Filtre de Butterworth
Annexe F: Diagramme de cas d’utilisation
REFERENCES
Télécharger le rapport complet