La parole est un moyen de communication naturel chez l’homme, c’est pourquoi il a cherché à l’intégrer dans les interfaces hommes machines. Son rêve de communiquer avec la machine est devenue de plus en plus réalisable grâce aux progrès réalisés dans le développement d’applications basé sur la parole comme moyen de communication homme-machine. Le domaine du traitement de la parole dont celui de la reconnaissance automatique de la parole (RAP) et la reconnaissance automatique du locuteur (RAL) ont connu une grande avancé , dans le premier le but est de reconnaître le message prononcé, le second vise à reconnaître l’identité du locuteur . Cependant, des améliorations restent nécessaires car les applications de ce type reste peu robuste aux différentes conditions tels que la variabilité de l’environnement sonore ambiant lors de la prise de son, la variabilité intra locuteur, inter locuteurs et les conditions d’enregistrements.
La Reconnaissance Automatique du Locuteur
La Reconnaissance Automatique du Locuteur RAL a pour objectif de reconnaître l’identité d’une personne a l’aide de sa voix. La variabilité de la parole entre locuteurs dite variabilité interlocuteur est l’essence même de la RAL. Sans cette variabilité, il serait impossible de reconnaître une voix parmi plusieurs voix possibles. La RAL est définit selon [MEU01] comme « tout processus de décision qui utilise quelques caractéristiques du signal de parole pour déterminer si une personne particulière est auteur d’un énoncé donné ».
La RAL, contrairement a la Reconnaissance Automatique de la Parole (RAP) s’intéresse tout particulièrement aux informations extralinguistiques véhiculées par un signal de parole. Pourtant, la RAL a très souvent bénéficie des avancées de la RAP. Ainsi, de nombreuses techniques ont été appliquées en RAP avant d’être adaptées au domaine de la RAL. Les applications de la RAL sont principalement liées aux problèmes d’authentification ou de confidentialité.
Identification Automatique du Locuteur
L’Identification Automatique du Locuteur (IAL) est le processus qui consiste a déterminer, parmi une population de locuteurs connus, la personne ayant prononce un message donné. Le signal de parole fournis à l’entré du système d’IAL est comparé à la référence caractéristique de chacun des locuteurs connus et l’identité retournée est celle dont la référence est la plus proche du signal de test[BLO02].
La Vérification Automatique Du Locuteur
La Val est un domaine de la reconnaissance Automatique du locuteur fort utile surtout pour les applications sécurisées et les transactions bancaires. La Val peut se faire a distance (ligne téléphonique) ou même sur place comme l’exemple des portes automatiques verrouillés (mot de passe prononce) .En fait un mot de passe ou une carte d’accès peuvent être vole et même cédé, ainsi le recours au caractéristiques physiologique d’une personne dite modalité biométrique et donc sa voix se révèle être un bon moyen de fiabiliser la sécurité de ces systèmes. Plusieurs définitions ont été énoncées dont :
Définition
– La vérification Automatique du locuteur VAL est un problème de classification binaire (acceptation ou Rejet) et se définit comme le processus de vérification de l’identité proclamée par un locuteur par analyse acoustique de son mot de passe ou d’un texte prononcé et en le comparant à sa référence acoustique dans la base de donnée déjà préenregistrée suite à quoi une décision est prise de l’acceptation ou le rejet en fonction d’un seuil estimé.
– Un système de Vérification Automatique du Locuteur (VAL) est un système qui permet de décider à partir d’un signal de parole, appelé segment de test, et une identité proclamée si le signal provient de l’identité proclamée ou non[kha02].
– En VAL une personne revendiquant une identité particulière et prononçant un message vocal désire accéder à un système sécurisé. Si cette identité est connu du système et est représenté par une référence caractéristique dite modèle client qui estimé sur des signaux de paroles (texte lu ou mot de passe) préenregistrés. Lors du processus de vérification de l’identité si le message prononcé et l’identité proclamé coïncide moyennant un seuil donc provienne de la même personne alors l’accès est autorisé autrement c’est un accès imposteur et donc refusé.
– Lors de la vérification le signal de parole prononcé est comparé au modèle client de l’identité revendiqué .le système de val utilise une mesure de similarité entre le signal de parole et le modèle client puis le compare à un seuil qui permet d’accepter ou de rejeter cette identité.
Un utilisateur potentiel prétend avoir une certaine identité qu’il énonce ; il s’agit de décider si cette identité prétendue est vraie ou fausse, c’est-à-dire d’accepter ou de rejeter l’accès a cet individu.
Mode d’utilisation des Systèmes de VAL
On distingue différents mode pour les systèmes de VAL, il y a la VAL indépendante du texte ou les mots prononcés par le client ne peuvent être devines ou prédits, de la vérification dépendante du texte ou le système connaît par avance la phrase ou le mot de passe du locuteur. On a :
– Système indépendant du texte : le locuteur peut prononcé un texte quelconque aucune contrainte n’est émise sur le texte a prononcer.
– Systèmes a message promptés : pour vérifier l’identité du locuteur le client doit prononcer un message imposé par le système ou le message peut être différent a chaque nouvel accès minimisant ainsi le risque qu’un imposteur possédant un enregistrement vocal de la voix d’un client puisse accéder au système comme dans [HIG91], ou bien le client choisira son message a l’avance.
– Systèmes a unités segmentales fixés lors d’un accès aux systèmes, l’utilisateur doit prononcer un signal de parole contenant une séquence de mots ou chiffres soit des traits phonétiques connu du système.
Les Systèmes de VAL en mode dépendant du texte sont plus performant mais sont cependant vulnérable car un simple enregistrement de la voix du client peut mener à un accès imposteur accepté. C’est pourquoi les systèmes de val utilisent les messages promptés qui peuvent varier de manière aléatoire.
Contraintes sur les Systèmes de VAL
Le signal de parole émis par un individu est influencé par des facteurs morphologique et physiologique de la personne ainsi que des facteurs sociaux culturels, en effet il ya plusieurs niveaux d’informations [Ben04] qui sont :
1- Niveau acoustique : qui est en lien direct avec le contenu du spectre de la parole et est lié aux caractéristiques physiques de l’appareil vocal.
2- Niveau phonétique : les caractéristiques phonétiques du signal de parole se rattachent a la façon de prononcer les différents sons identifiables d’une langue. Chaque locuteur possède une manière propre a lui de prononcer ces phonèmes.
3- Niveau Prosodique : La prosodie désigne les spécificité d’un message parlé relative a l’accentuation, l’intonation, le rythme d’élocution du locuteur et la duré des phonèmes et les tons employés par celui-ci et les pauses introduites.
Dans plusieurs domaines d’analyse et de traitement du signal vocal, on définit par paramètres prosodiques :
❖ la fréquence fondamentale F0 (vibration des cordes vocales) ;
❖ l’intensité de la voix (ou énergie) ;
❖ la durée successive des segments syllabiques.
Ces paramètres prosodiques prennent une importance particulière en permettant aux systèmes de reconnaissance d’effectuer une analyse ou segmentation par ordre d’unité phonétique. La variation dans le temps de ces paramètres (intonation) véhicule divers indices caractéristiques de l’individu que ce soit au niveau de son état physique (age, sexe, physiologie), de son état émotionnel (triste content,..) ou de son accent régional. Les paramètres prosodiques ne sont utilises en général que pour faire rehausser légèrement les performances de ces systèmes [KAR98].
4- Niveau dialogal : désigne la manière de dialoguer d’un locuteur, la durée de prise de parole et les indices de fréquences. ce niveau est très dépendant du contexte de la conversation.
5- Niveau idiolectal : elle désigne les particularité des mots prononcés par une personne, ces termes fréquents et ces tics. elle dépend aussi de la situation émotionnelle de cette personne.
6- Niveau sémantique : ce sont des informations sémantiques dans le langage du locuteur elle sont difficile à identifier.
|
Table des matières
INTRODUCTION
CHAPITRE I : VERIFICATION AUTOMATIQUE DU LOCUTEUR
I- La Reconnaissance Automatique du Locuteur
I-1- Identification Automatique du Locuteur
I-2- Vérification Automatique du Locuteur
I-2-1 Définition
I-2-2 Mode d’utilisation des Systèmes de VAL
I-2-3 Contraintes sur les Systèmes de VAL
I-2-4 Les limitations de la VAL
I-2-5 L’Architecture de La Vérification Automatique du Locuteur
I-2-5-1 Numérisation
I-2-5-2 La paramétrisation
I-2-5-3 La modélisation
I-2-5-3-1 Approche Vectorielle
I-2-5-3-2- Approche Connexionniste
I-2-5-3-3- Approche Statistique
I-2-5-4- La Normalisation
I-2-5-5- La Décision
I-2-6- Types d’erreurs et Evaluation des Performance
I-2-7- Facteurs de Qualité d’un Système de Val
I-2-8- Etat de l’Art des Réalisations des systèmes de VAL
I-2-9- Etude Comparative des approches de Modélisation
I.3- Conclusion
CHAPITRE II : LES SYSTEMES HYBRIDES
II-1 Les Approches Hybrides
II-2 Les Multiclassifieurs
II-3 Motivations de l’architecture Hybride
Partie A : Les Supports Vector Machines
II-4 Introduction
II-5 Définition des SVM
II-6 Construction De L’hyperplan Optimal
II.6.1 Classificateur Linéaire
II.6.2 Cas Des Données Linéairement Séparables
II.6.3 Cas Des Données Non Linéairement Séparable
II-7 SVM Non Linéaire
II-7-1 Fonctions noyaux
II-7-2 Passage à l’espace de Redescription
II-7-3 Exemples de Fonctions Noyaux
II-8 Conclusion
II-9 Reconnaissance Automatique De La Parole RAP
II.9.1 Parole
II.9.2 Reconnaissance Automatique de La Parole
II.9.2.1 Problèmes de la RAP
II.9.2.2- Le Type de système de RAP
II.9.2.3- La taille du vocabulaire
II.10 Architecture d’un Système de RAP
II.10.1 L’Apprentissage
II.10.1.1 La Numérisation
II.10.1.2 L’analyse Acoustique
II.10.1.3 La Modélisation
II.10.2 Le Test
II.11 Conclusion
CONCEPTION & REALISATION
CHAPITRE III : Conception de l’Architecture Hybride du Système HMM SVM
3.1 Introduction
3.2 Description de l’architecture HMM SVM proposée
3.2.1 Reconnaissance Automatique de la parole
3.2.1.1 Phase d’apprentissage
3.2.1.2 Phase de Test
3.2.2 La Vérification du locuteur Basé sur les SVM
3.2.2.1 Phase d’apprentissage
3.2.2.2 Phase de Test
3.2.2.3 Evaluation des Performances
Chapitre IV La Réalisation du Système Hybride HMM SVM
4.1 Introduction
4.2 Base de donnée
4.3 Résultats du système proposé
4.4 Réalisation du Système de RAP
4.5 Résultats des Tests du système de RAP
4.6 Le système de référence de VAL basé sur les HMM
4.7 Codes Matlab utilisés
4.8 Résultats du système LLR HMM de VAL
4.9 Tableaux comparatifs entre HMM LLR et HMM SVM
4.10 Conclusion
Conclusion