La reconnaissance automatique du locuteur par la voix IP
Points forts et limites de la voix sur IP
Diffรฉrentes sont les raisons qui peuvent pousser les entreprises ร sโorienter vers la Voix sur IP comme solution, les avantages les plus marquรฉs sont :
Rรฉduction des coรปts : Aujourdโhui, la position des opรฉrateurs tรฉlรฉphoniques classique est rapidement menacรฉe par lโarrivรฉe massive de la tรฉlรฉphonie sur IP, dont la tarification tend vers la gratuitรฉ, les coรปts des communications interurbaines ont chutรฉ de maniรจre considรฉrable ce qui laisse croire quโelle a encore de beaux jours devant elle.
Standards ouverts : La voix sur IP nโest plus uniquement H323, mais un usage multiprotocoles selon les besoins de services nรฉcessaires. Par exemple, H323 fonctionne en mode รฉgale ร รฉgale alors que MGCP fonctionne en mode centralisรฉ. Ces diffรฉrences de conception offrent immรฉdiatement une diffรฉrence dans lโexploitation des terminaisons considรฉrรฉes.
Un rรฉseau voix, vidรฉo et donnรฉes (ร la fois) : Grรขce ร lโintรฉgration de la voix comme une application supplรฉmentaire dans un rรฉseau IP, ce dernier va simplifier la gestion des trois applications (voix, rรฉseau et vidรฉo) par un seul transport IP. Une simplification de gestion, mais รฉgalement une mutualisation des efforts financiers vers un seul outil.
Un service PABX distribuรฉ ou centralisรฉ : Les PABX en rรฉseau bรฉnรฉficient de services centralisรฉs tel que la messagerie vocale et la taxation, etcโฆ Cette mรชme centralisation continue ร รชtre assurรฉe sur un rรฉseau Voix IP sans limitation du nombre de canaux. Il convient, pour en assurer une bonne utilisation, de dimensionner convenablement le lien rรฉseau. Lโutilisation de la voix IP met en commun un mรฉdia qui peut ร la fois offrir ร un moment prรฉcis une bande passante maximum ร la donnรฉe, et dans une autre pรฉriode une bande passante maximum ร la voix, garantissant toujours la prioritรฉ ร celle-ci.
Les points faibles de la voix sur IPย
Fiabilitรฉ et qualitรฉ sonore : Un des problรจmes les plus importants de la tรฉlรฉphonie sur IP est la qualitรฉ de la retransmission qui nโest pas encore optimale. En effet, des dรฉsagrรฉments tels la qualitรฉ de la reproduction de la voix du correspondant ainsi que le dรฉlai entre le moment oรน lโun des interlocuteurs parle et le moment oรน lโautre entend peuvent รชtre extrรชmement problรฉmatiques. De plus, il se peut que des morceaux de la conversation manquent (des paquets perdus pendant le transfert) sans รชtre en mesure de savoir si des paquets ont รฉtรฉ perdus et ร quel moment.
Dรฉpendance de lโinfrastructure technologique et support administratif exigeant : les centres de relations IP peuvent รชtre particuliรจrement vulnรฉrables en cas dโimproductivitรฉ de lโinfrastructure. Par exemple, si la base de donnรฉes nโest pas disponible, les centres ne peuvent tout simplement pas recevoir dโappels. La convergence de la voix et des donnรฉes dans un seul systรจme signifie que la stabilitรฉ du systรจme devient plus importante que jamais et lโorganisation doit รชtre prรฉparรฉe ร travailler avec efficience ou ร encourir les consรฉquences.
Vol : Les hackers qui parviennent ร accรฉder ร un serveur voix IP peuvent รฉgalement accรฉder aux messages vocaux stockรฉs et au mรชme au service tรฉlรฉphonique pour รฉcouter des conversations ou effectuer des appels gratuits aux noms dโautres comptes.
Attaque de virus : Si un serveur voix IP est infectรฉ par un virus, les utilisateurs risquent de ne plus pouvoir accรฉder au rรฉseau tรฉlรฉphonique. Le virus peut รฉgalement infecter dโautres ordinateurs connectรฉs au systรจme. 2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
En 2001, ils ont proposรฉ une approche pour lโextraction des vecteurs caractรฉristiques directement du signal de parole codรฉ (sans dรฉcoder le signal, et puis le traiter) (figure 2.10), en se basant sur le codec G.723.1 qui est principalement utilisรฉ dans la voix sur IP, puis ils ont comparรฉ cette approche avec deux approches classiques de la reconnaissance automatique de locuteur : la reconnaissance automatique des chiffres isolรฉs et la reconnaissance automatique de parole continue en mode indรฉpendant de locuteur, les rรฉsultats obtenus montrent que cette nouvelle approche est plus performante que les deux approches classiques, parce que cette mรฉthode a deux avantages, dโune part le systรจme nโest affectรฉ que par la distorsion de lโenveloppe spectrale, et dโautre part, dans le cas de perte de paquets, cette approche devient plus efficace puisquโelle nโest pas limitรฉ ร lโerreur de manipulation de codecs.Il est clair quโavec lโexplosion dโinternet et de la tรฉlรฉphonie mobile, les moyens de communication ont totalement changรฉ et appellent de nouveaux moyens pour la sรฉcurisation des accรจs et des รฉchanges de donnรฉes, cโest sur cet aspect que sโest focalisรฉ lโarticle [4] qui propose une nouvelle mรฉthodologie pour รฉvaluer les performances de la vรฉrification de locuteur qui peut รชtre affectรฉ par la transmission des donnรฉes via lโinternet (perte de paquets par exemple), en se basant sur la base de donnรฉe XM2VTS qui est considรฉrรฉe comme la norme dans la communautรฉ biomรฉtrique audio et visuelle de vรฉrification multimodale (parole et image), ce travail sโest effectuรฉ dans le cadre de lโaction europรฉenne COST-275.
Dans dโapproche classique de lโidentification de locuteur par la voix sur IP, aprรจs la numรฉrisation de la voix, elle doit รชtre compressรฉe pour lโinsรฉrer dans les paquets IP, ร la rรฉception, un processus de dรฉcompression est nรฉcessaire pour restituer lโinformation et la transformer en signal sonore (figure 2.11), ce processus de compression et dรฉcompression peut gรฉnรฉrer des problรจmes et des limitations en termes de ressources processeur ou mรฉmoire, influencer le dรฉbit de flux aprรจs dรฉcompression ou la taille de fichier rรฉsultant, un temps de latence trรจs รฉlevรฉ. Pour remรฉdier ร ces problรจmes, une nouvelle approche a รฉtรฉ proposรฉe qui fait la reconnaissance de locuteur par voix IP en direct, en utilisant une mรฉthode de clustering pour rassembler les vecteurs caractรฉristiques similaires appelรฉe micro-clustering, le taux de prรฉcision de ce nouveau systรจme est de 80%, et il est trois fois plus rapide que lโapproche classique basรฉe sur la modรฉlisation des GMM
|
Table des matiรจres
Sommaire
Introduction gรฉnรฉrale
Chapitre 1 : Etat de lโart sur les systรจmes de reconnaissance automatique du locuteur
1.1 Introduction
1.2 Terminologie
1.2.1 Identification & vรฉrification automatique de locuteur
๏ La Vรฉrification Automatique de Locuteur (VAL)
๏ LโIdentification Automatique de Locuteur ( IAL)
1.2.2 Dรฉpendance et indรฉpendance du texte
1.2.3 Les variabilitรฉs du signal de la parole
1.3 Fonctionnement dโun systรจme de reconnaissance automatique du locuteur
1.3.1 Paramรฉtrisation
๏ Paramรจtres de lโanalyse spectrale
๏ Paramรจtres prosodiques
๏ Paramรจtres dynamiques
1.3.2 Traitement post paramรฉtrisation
๏ La mรฉthode RASTA
๏ Feature warping
๏ CMVN (Normalisation moyenne et variance des paramรจtres cepstraux)
๏ Le feature mapping
๏ VTLN (Vocal Tract Length Normalization)
๏ HLDA (HETEROSCEDASTIC LINEAR DISCRIMINANT ANALYSIS)
๏ง LDA (Analyse discriminante linรฉaire)
๏ง HLDA (HeteroscedasticLinear Discriminant Analysis)
๏ Speech enhancement
๏ง La soustraction spectrale
๏ง Le filtre de Wiener
๏ง Filtrage de Kalman
1.3.3 Modรฉlisation
๏ Approche vectorielle
๏ง La programmation dynamique
๏ง La quantification vectorielle
๏ Approche statistique
๏ง Mรฉthodes statistiques du second ordre
๏ง Mรฉlange de gaussiennes
๏ง Modรจles de Markov cachรฉs
๏ Approche prรฉdictive
๏ Approche connexionniste
1.3.4 Dรฉcision et mesures de performances
๏ Identification automatique de locuteur
๏ Vรฉrification automatique de locuteur
1.4 Evolution dโun systรจme de reconnaissance automatique de locuteur
1.5 Les approches classiques utilisรฉes dans le systรจme de reconnaissance automatique de locuteur
1.6 Domaines dโapplication
Conclusion
Chapitre 2 : La reconnaissance automatique du locuteur par la voix IP
2.1 Introduction
2.2 La thรฉorie de la voix sur IP
2.2.1 Architecture de la transmission de la voix IP
2.2.2 Protocoles de la voix
๏ Le protocole H.323
๏ง Prรฉsentation gรฉnรฉrale
๏ง Les limites du protocole
๏ Le protocole SIP
๏ง Prรฉsentation gรฉnรฉrale
๏ง Fonctionnement
๏ง Avantages et inconvรฉnients
2.2.3 Points forts et limites de la voix sur IP
2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
2.4 Connexions internationales
Conclusion
Chapitre 3 : Expรฉriences et rรฉsultats
3.1 Introduction
3.2 La paramรฉtrisation
3.2.1 MFCC_FB20
3.2.2 DavisSkowronski_MFCC_FB20
3.2.3 HTK_MFCC_FB24
3.2.4 HTK_MFCC_FB26
3.2.5 MFCC_FB40
3.2.6 HFCC_E_FB29
3.3 Le protocole expรฉrimental
3.3.1 Description de la base de donnรฉes
3.3.2 Dรฉcomposition parole/non parole
3.3.3 La phase de la paramรฉtrisation
3.3.4 Apprentissage par GMM
3.3.5 La phase de la dรฉcision
3.4 Rรฉsultats et tests
3.4.1 Identification du locuteur dans un milieu fermรฉ
3.4.2 Discussion des rรฉsultats obtenus
3.4.3 Identification de locuteur en milieu ouvert
3.5 Implรฉmentation de lโinterface graphique
Conclusion et perspectives
Bibliographie
Webographie
Tรฉlรฉcharger le rapport complet