Principe de la reconnaissance du locuteur

LE SIGNAL DE PAROLE

ย  ย Depuis le dรฉbut des annรฉes 70, les รฉtudiants et chercheurs de AT&T, BBN, CMU, IBM,Lincoln Labs, MIT, et SRI ont largement contribuรฉ dans la recherche et la comprรฉhension du langage parlรฉ [1], [2]. Basiquement, la parole n’est qu’une sรฉquence de segments sonores discrets, reliรฉs les uns aux autres dans le temps. Ces segments, appelรฉs phonรจmes, ont par dรฉfinition des caractรฉristiques articulatoires et acoustiques uniques. Bien que 1′ appareil phonatoire humain puisse produire une infinitรฉ de mouvements articulatoires, le nombre de phonรจmes quant ร  lui reste limitรฉ [1]. Chaque phonรจme a des caractรฉristiques acoustiques distinctes et, en se combinant avec d’autres phonรจmes, ils permettront de former des entitรฉs plus grandes telles que des syllabes ou des mots. La connaissance des diffรฉrences acoustiques des sons produits permettra alors de distinguer un mot d’un autre et donc de faire de la reconnaissance de la parole. Lorsque les sons sont connectรฉs pour former des unitรฉs linguistiques encore plus grandes (phrases, texte, … ), les propriรฉtรฉs acoustiques d’un phonรจme donnรฉ vont changer en fonction de 1′ environnement phonรฉtique ; ceci est du aux interactions des diverses structures anatomiques (la langue, les lรจvres, les cordes vocales) qui composent l’appareil phonatoire humain et ร  leur degrรฉ de lenteur [1]. Il en rรฉsulte alors un chevauchement de l’information phonรฉmique d’un segment ร  un autre. Cet effet connu sous le nom de coarticulation, peut survenir dans un mot ou ร  la fin de celui-ci [1]. Par consรฉquent, nous voyons que lors de la production de la parole, de nombreux paramรจtres spรฉcifiques ร  chaque individu vont venir marquer les sons prononcรฉs. L’action de toutesย  les structures anatomiques crรฉera une empreinte vocale spรฉcifique ร  chaque individu, qui sera contenue dans tous les messages vocaux, et qui pourra รชtre exploitรฉe dans les systรจmes de reconnaissance du locuteur. C’est sur ces structures que nous allons nous pencher dans ce chapitre afin de comprendre comment est produite la parole. Ainsi, nous serons en mesure de localiser et d’identifier les donnรฉes pertinentes dans le signal vocal, puis, dans le chapitre suivant, nous verrons comment les extraire pour caractรฉriser et identifier chaque locuteur.

Les mรฉcanismes de la parole

ย  L’appareil phonatoire humain est formรฉ de diffรฉrentes parties qui peuvent nous sembler complexes (fig.l). Cependant, il peut facilement รชtre assimilรฉ, et mรชme souvent reprรฉsentรฉ comme un systรจme composรฉ simplement d’une source vibrante et d’un filtre (rรฉsultant du conduit vocal qui est formรฉ d’une cavitรฉ rรฉsonante complexe)
L’appareil phonatoire La cavitรฉ rรฉsonnante (ou rรฉsonateur) de l’appareil phonatoire se compose de quatre cavitรฉs principales : tout d’abord, nous avons le pharynx ou arriรจre gorge (1);puis, les deux cavitรฉs buccales (2 et 3) dรฉlimitรฉes par la langue (que l’on simplifiera ร  une seule) ; ensuite, nous avons l’ajutage labiale (4) situรฉ entre les dents et les lรจvres; Ces trois cavitรฉs sont placรฉes enยซ sรฉrie ยป ร  la suite de la source vibrante. enfin, la cavitรฉ nasale (5), qui vient complรฉter le rรฉsonateur. Cette derniรจre cavitรฉ quant ร  elle, est placรฉe en ยซparallรจle sur l’ensemble ยซsรฉrieยป prรฉcรฉdent.
Production de la parole La parole naรฎt de l’excitation de la cavitรฉ rรฉsonante. L’appareil respiratoire fournit l’รฉnergie nรฉcessaire ร  la production de sons, en poussant l’air ร  travers l’appareil phonatoire, vers la source du rรฉsonateur [ 1]. Selon Joseph Campbell, la source du rรฉsonateur est en fait dรฉcomposable en deux รฉmissions distinctes et d’origines diffรฉrentes [ 5]: Les cordes vocales, qui possรจdent la particularitรฉ de produire, en plus de leur frรฉquence fondamentale, un spectre riche en harmoniques ; elles produisent les sons voisรฉs . Le bruit d’รฉcoulement de l’air en provenance des poumons, dont le spectre est similaire ร  un bruit blanc ; il crรฉe les sons non-voisรฉs .Cependant, une source vibrante placรฉe devant une cavitรฉ rรฉsonante, produira toujours un son dont les frรฉquences seront filtrรฉes par la bande passante du rรฉsonateur.

Application de l’รฉchelle de perception de Mel

ย  Comme nous 1′ avons mentionnรฉ dans le premier chapitre, la perception frรฉquentielle de l’oreille ne suit pas une รฉchelle linรฉaire. C’est pourquoi il est important de simuler ce filtrage dans notre systรจme, pour ne pas alourdir le traitement des signaux en accumulant des donnรฉes souvent inutiles. L’รฉchelle des perceptions que nous avons choisi de schรฉmatiser est l’รฉchelle frรฉquentielle de Mel [63]. Notre choix s’est tournรฉ vers cette รฉchelle ร  cause du phรฉnomรจne de masquage perceptuel [ 46]. Afin de simuler le spectre subjectif, nous allons implรฉmenter un banc de filtres ร  la suite de la FFT, chaque filtre รฉtant attribuรฉ ร  chaque composante frรฉquentielle de Mel dรฉsirรฉe. Le banc de filtres a une rรฉponse frรฉquentielle de type passe-bande de forme triangulaire, avec un espacement et une bande passante similaire aux valeurs dรฉfinies par 1′ รฉchelle frรฉquentielle de Mel [22]. Le spectre soit disant ยซ perรงu ยป par 1′ oreille correspond par consรฉquent ร  la puissance obtenue en sortie de ces filtres. Pour chaque trame, on calcule alors 1′ amplitude de son spectre (obtenu par la FFT), puis on conserve son module au carrรฉ. On passe ensuite le vecteur d’รฉnergie ร  travers le banc de filtres de Mel.

Motivation de l’utilisation des coefficients cepstraux MFCC

ย  Outre la popularitรฉ de la mรฉthode des MFCC et les excellents rรฉsultats relevรฉs dans la littรฉrature, il existe d’autres motivations qui nous ont poussรฉ ร  adopter cette mรฉthode de paramรฉtrisation. L’excitation contient de l’information prosodique ainsi que des donnรฉes propres au locuteur ; cependant ces informations ne sont pas correctement modรฉlisรฉes dans les systรจmes de reconnaissance. C’est pourquoi il est important de les filtrer afin de reprรฉsenter correctement le locuteur. La dรฉconvolution rรฉalisรฉe par 1′ opรฉrateur logarithme a pour effet de dรฉcoupler les caractรฉristiques du conduit vocal de celles de l’excitation glottale, et nous permet ainsi de faire la sรฉlection des donnรฉes. Enfin, pour obtenir une reprรฉsentation de bonne qualitรฉ avec la technique de modรฉlisation que nous avons choisi (ร  savoir les GMM avec des matrices de covariance diagonales), il est nรฉcessaire d’avoir des vecteurs paramรฉtriques dรฉcorrรฉlรฉs [62]. La mรฉthode des MFCC a justement cette propriรฉtรฉ grรขce ร  la DCT finale qui a pour effet de dรฉcorrรฉler les รฉlรฉments des vecteurs [ 4 7]. Nous venons de voir dans cette partie comment transformer un signal de parole en une sรฉquence de vecteurs acoustiques spรฉcifiques ร  chaque locuteur.

Introduction aux ondelettes

ย  Les premiers travaux concernant 1′ analyse par ondelettes se situent autour du dรฉbut des annรฉes 80, et ils ont รฉtรฉ entrepris par Morlet, et Grassmann, [75]. En 1985, Stรฉphane Mallat donne un nouvel รฉlan aux ondelettes ร  travers ses travaux en traitement numรฉrique du signal [76]. En effet, ce dernier rรฉussi ร  mettre en รฉvidence des liens entre les filtres miroirs en quadrature (FMQ ou en anglais QMF: Quadrature Miror Filters),Nous rappelons que dans le cas des ondelettes, nous ne devrions pas employer le terme de reprรฉsentation temps-frรฉquence, mais plutรดt celui de รฉchelle-frรฉquence, l’รฉchelle รฉtant en fait l’inverse de la frรฉquence; le terme de frรฉquence est strictement rรฉservรฉ ร  la TF. les algorithmes pyramidaux, et les bases orthonormales d’ondelettes. Inspirรฉ en partie par ces travaux, Y. Meyer crรฉa les premiรจres ondelettes ร  forme non triviale [77]. Contrairement ร  l’ondelette de Haar, les ondelettes de Meyer sont continues et intรฉgrables. Cependant, il fallut attendre 1988 pour qu’un article d’Ingrid Daubechies [78], conclu notamment grรขce aux travaux de Mallat [76], attire dรฉfinitivement l’attention des ingรฉnieurs sur les possibilitรฉs d’application de cette mรฉthode. Le but recherchรฉ ร  l’รฉpoque, รฉtait de donner une reprรฉsentation des signaux permettant de faire apparaรฎtre simultanรฉment des informations temporelles (localisation dans le temps, durรฉe) et frรฉquentielles, facilitant par lร  l’identification des caractรฉristiques physiques du signal. Les ondelettes n’ont depuis lors cessรฉ de se dรฉvelopper et de trouver de nouveaux champs d’application. C’est ainsi qu’est apparu un parallรจle รฉtonnant entre ces mรฉthodes et des techniques dรฉveloppรฉes ร  des fins totalement diffรฉrentes en traitement d’images [108], mais aussi d’autres thรฉories mathรฉmatiques poursuivant des objectifs sans aucun lien apparent (comme par exemple des problรจmes d’analyse mathรฉmatique pure, ou d’autres liรฉs au problรจme de la quantification de certains systรจmes classiques, ou plus rรฉcemment des problรจmes de statistiques) . De nos jours, les ondelettes sont de plus en plus utilisรฉes dans les le domaine des nouvelles technologies. Que ce soit pour la compression d’images [76], pour le traitement du son et de l’image (tรฉlรฉphonie, tรฉlรฉvision [80], … ), le graphisme, la modรฉlisation numรฉrique ou pour la gรฉologie, l’astronomie, le radar, … Enfin, presque partout. A titre d’exemple, la base de donnรฉes d’empreintes digitales du FBI est compressรฉe avec les ondelettes depuis le dรฉbut des annรฉes 90 [81]; le format JPEG 2000 par exemple, fait รฉgalement usage des ondelettes [82].

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

ABSTRACT
REMERCIEMENTS
LISTE DES TABLEAUX
LISTE DES FIGURES
LISTE DES ABRร‰VIATIONS ET SIGLES
INTRODUCTION
CHAPITRE 1 LE SIGNAL DE PAROLEย 
1.1 Introductionย 
1.2 Les mรฉcanismes de la paroleย 
1.2.1 L’appareil phonatoire
1.2.2 Production de la parole
1.3 L’information vocaleย 
1.3 .1 Traits acoustiques du signal de parole
1.3.1.1 La frรฉquence fondamentale
1.3 .1.2 Le spectre du signal de parole
1.4 La perception de la paroleย 
1.4.1 Le systรจme auditif
1.4.2 Analyse frรฉquentielle
1.4.3 Aire d’audition
1.4.4 ร‰chelles de modรฉlisation
1.4.4.1 L’รฉchelle de Bark
1.4.4.2 L’รฉchelle de Mel
1.5 Conclusionย 
CHAPITRE 2 SYSTรˆME DE Rร‰Fร‰RENCE POUR LA RECONNAISSANCE DU LOCUTEUR
2.1 Introduction
2.2 Principe de la reconnaissance du locuteur
2.3 Module de prรฉ-traitement et de paramรฉtrisation
2.3.1 Prรฉ-traitement
2.3.2 Extraction des points caractรฉristiques – Mรฉthode des MFCC
2.3.2.1 Blocage des trames
2.3.2.2 Fenรชtrage et mise en trames
2.3.2.3 Transformรฉe de Fourier Rapide (FFT)
2.3.2.4 Application de l’รฉchelle de perception de Mel
2.3.2.5 Coefficients MFCC
2.3.2.6 Dรฉrivรฉes temporelles des coefficients MFCC
2.3.2.7 Motivation de l’utilisation des coeffcients cepstraux MFCC
2.4 Module de modรฉlisation et d’apprentissage
2.4.1 Modรฉlisation du locuteur par mรฉlange de Gaussiennes (GMM)
2.4.2 Modรจle du locuteur avec les GMM
2.4.2.1 Dรฉfinition
2.4.2.2 Type de modรจle
2.4.3 Estimation ร  maximum de vraisemblance des paramรจtres des GMM – phase d’entraรฎnement
2.4.3.1 Maximisation directe
2.4.3.2 Maximisation ร  1′ aide de 1′ algorithme EM
2.5 Module de reconnaissance – phase de test
2.5.1 ร‰tape prรฉliminaire
2.5.2 Identification du locuteur
2.6 Derniers rรฉglages de perfectionnement pour la mise au point du systรจme de rรฉfรฉrence pour la reconnaissance du locuteur
2.6.1 Choix du nombre de Gaussiennes pour les GMM
2.6.2 Initialisation des paramรจtres du modรจle pour l’algorithme EM
2.6.2.1 Mรฉthode d’initialisation des poids
2.6.2.2 Mรฉthode d’initialisation des centres
2.6.2.3 Mรฉthode d’initialisation des covariances
2.6.3 Nombre d’itรฉrations pour l’algorithme EM
2.7 Expรฉrimentation du systรจme d’identification de rรฉfรฉrence
2.7.1 Paramรจtres optimaux du systรจme de rรฉfรฉrence
2.7.1.1 Normalisation du signal de parole
2.7.1.2 Extraction des vecteurs de caractรฉristiques avec les MFCC
2.7.1.3 Phase d’apprentissage
2.7.1.4 Phase de test
2.7.2 Rรฉsultats expรฉrimentaux trouvรฉs pour le systรจme de rรฉfรฉrence
2.8 Conclusionsย 
CHAPITRE 3 LES ONDELETTES ET SES APPLICATIONSย 
3 .1 Introductionย 
3 .1.1 Position du problรจme
3.1.2 Introduction aux ondelettes
3.2 ร‰tude de la mรฉthode des ondelettesย 
3.2.1 Qu’appelle-t-on une ondelette?
3 .2.1.1 Prรฉsentation gรฉnรฉrale
3.2.1.2 Condition d’admissibilitรฉ
3.2 .1.3 Condition de rรฉgularitรฉ
3 .2.1.4 Compression et dilatation d’une ondelette
3.2.2 Exemples classiques d’ondelettes continues ID
3.2.2.1 Prรฉsentation de l’ondelette de Morlet
3.3 ร‰tude de la transformรฉe en ondelettes continue
3.3.1 La transformรฉe en ondelettes continue
3.3.2 Transformรฉe de Fourier d’une ondelette ; analyse temps frรฉquence
3.3.3 Avantages de la TOC
3.3.4 La transformรฉe en ondelettes continue inverse
3.3.5 Qu’y a-t-il de continu dans la TOC?
3.4 Passage en revue des autres transformรฉes en ondelettes
3.4.1 Dรฉcomposition discrรจte en sรฉrie d’ondelettes
3.4.2 Transformรฉe en ondelettes ร  temps discret
3.4.3 Transformรฉe en ondelettes discrรจte
3.5 Conclusion
CHAPITRE 4 MODIFICATION DU SYSTรˆME DE RECONNAISSANCE Rร‰Fร‰RENCE ร€ L’AIDE DE LA TOC: UTILISATION D’UNE GRILLE DE Sร‰LECTION DES COEFFICIENTS DE LA TOC DE
4.1 Introduction
4.2 Prรฉsentation des bases de donnรฉes utilisรฉes dans la phase de tests
4.2.1 Base de donnรฉes YOHO
4.2.2 Bases de donnรฉes dรฉrivรฉes de YOHO
4.3 Modification du systรจme de reconnaissance de rรฉfรฉrence avec la TOC
4.3.1 Mise en place de la TOC pour essayer d’amรฉliorer les performances du systรจme
4.3.1.1 Empreinte graphique du locuteur
4.3.1.2 Proposition d’utilisation de la TOC pour faire de laย  reconnaissance de mots isolรฉs
4.3.1.3 Mรฉthode proposรฉe pour exploiter 1 ’empreinte du locuteur
4.3.2 Prรฉsentation des systรจmes de reconnaissance hybrides proposรฉs
4.3.2.1 Procรฉdure
4.3.2.2 Systรจmes de reconnaissance hybrides utilisant une grille pour la sรฉlection des coefficients de la TOC : systรจmes hybrides G
4.3.2.3 Recombinaison des coefficients de la TOC en un nouveau signal1D
4.4 Phase expรฉrimentale
4.4.1 Paramรจtres optimaux additionnels pour les systรจmes hybrides
4.4.1.1 Ondelette analysante
4.4.1.2 ร‰chelle d’analyse
4.4.2 Essais expรฉrimentaux pour les systรจmes hybrides G
4.4.2.1 Tests des systรจmes d’identification hybrides G 1
4.4.2.2 Tests des systรจmes d’identification hybrides G2
4.5 Conclusions
CHAPITRE 5 MODIFICATION ET AMร‰LIORATION DU SYSTรˆME DE RECONNAISSANCE HYBRIDE PROPOSร‰ : UTILISATION DE LIGNES POUR Sร‰LECTIONNER LES COEFFICIENTS DE LA TOCย ย 
5.1 Introductionย 
5.2 Prรฉsentation du systรจme de reconnaissance hybride amรฉliorรฉย 
5.2.1 Systรจmes de reconnaissance hybrides utilisant une combinaison de lignes pour la sรฉlection des coefficients de la TOC : systรจmes hybrides C
5.2.2 Tests du systรจme d’identification hybride C
5.2.3 Conclusions sur le systรจme hybride C
5.3 Prรฉsentation d’un nouveau systรจme hybride amรฉliorรฉย 
5.3.1 Systรจmes de reconnaissance hybrides utilisant une seule ligne pour la sรฉlection des coefficients de la TOC : systรจmes hybrides L
5.3.2 Tests du systรจme d’identification L
5.3.3 Conclusions sur le systรจme hybride L
5.4 Amรฉlioration des performances du systรจme hybride L par un raffinement d’รฉchellesย ย 
5.4.1 Sรฉlection des coefficients de la TOC : premier raffinement des รฉchelles
5.4.2 Performances
5.4.3 Conclusions sur le premier raffinement des รฉchelles
5.4.4 Nouvelle sรฉlection des coefficients de la TOC : second raffinement
des รฉchelles
5.4.5 Performances
5.4.6 Conclusions sur le second raffinement des รฉchelles
5.5 Vรฉrification des testsย 
5.6 Conclusionsย 
CHAPITRE 6 CHOIX DE L’ร‰CHELLE D’ANALYSE DE LA TOC POURย  LA RECONNAISSANCE AUTO MA TIQUE DU LOCUTEUR
6.1 Introduction
6.2 ร‰tude des lignes de coefficients de la TOCย 
6.2.1 Analyses statistiques du premier ordre
6.2.2 Analyses รฉnergรฉtiques
6.2.3 Analyse du taux de passage par zรฉro
6.2.4 Conclusions sur 1′ รฉtude des lignes de coefficients de la TOC
6.3 ร‰tude des coefficients MFCC extraits ร  partir des lignes de la TOC
6.3.1 Analyses statistiques du premier ordre
6.3.2 Analyses graphiques des histogrammes
6.3.3 Hypothรจse
6.3.3.1 Analyse de 1′ รฉnergie
6.3.3.2 Analyse de l’entropie
6.3.4 Conclusions sur l’รฉtude des coefficients MFCC extraits ร  partir des lignes de la TOC
6.4 Proposition d’une technique pour la reconnaissance automatique du locuteur utilisant la TOC
6.4.1 Mรฉthodologie
6.4.2 Essais expรฉrimentaux
6.4.3 Conclusions sur la mรฉthode pour la reconnaissance automatique du locuteur
6.5 Conclusionsย 
CONCLUSION
ANNEXE 1 REPRร‰SENTATION DES ร‰CHELLES DE MEL ET DE BARK PAR UN BANC DE FILTRES
ANNEXE 2 L’OPTIMISATION DE LAGRANGE
ANNEXE 3 L’ALGORITHME DES K-MEANS
ANNEXE 4 BASE DE DONNร‰ES DE YOHO
ANNEXE 5 SOUS BASES DE DONNร‰ES DE YOHO
ANNEXE 6 Rร‰SULTATS COMPLETS DES TESTS DU SYSTรˆME DE RECONNAISSANCE HYBRIDE L
ANNEXE 7 Rร‰SULTATS COMPLETS DES TESTS DE RAFFINEMENT (1รจre partie) DU SYSTรˆME DE RECONNAISSANCE HYBRIDE L
ANNEXE 8 Rร‰SULTATS COMPLETS DES TESTS DE RAFFINEMENT (2รจme partie) DU SYSTรˆME DE RECONNAISSANCE HYBRIDE L
ANNEXE 9 Rร‰SULTATS COMPLETS DES TESTS DE RAFFINEMENT (3รจme partie) DU SYSTรˆME DE RECONNAISSANCE HYBRIDE L
ANNEXE 10 L’ESTIMATEUR DE DENSITร‰ DE KERNEL
BIBLIOGRAPHIE

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *