La reconnaissance automatique du locuteur par la voix IP

La reconnaissance automatique du locuteur par la voix IP

Points forts et limites de la voix sur IP

Diffรฉrentes sont les raisons qui peuvent pousser les entreprises ร  sโ€™orienter vers la Voix sur IP comme solution, les avantages les plus marquรฉs sont :
Rรฉduction des coรปts : Aujourdโ€™hui, la position des opรฉrateurs tรฉlรฉphoniques classique est rapidement menacรฉe par lโ€™arrivรฉe massive de la tรฉlรฉphonie sur IP, dont la tarification tend vers la gratuitรฉ, les coรปts des communications interurbaines ont chutรฉ de maniรจre considรฉrable ce qui laisse croire quโ€™elle a encore de beaux jours devant elle.
Standards ouverts : La voix sur IP nโ€™est plus uniquement H323, mais un usage multiprotocoles selon les besoins de services nรฉcessaires. Par exemple, H323 fonctionne en mode รฉgale ร  รฉgale alors que MGCP fonctionne en mode centralisรฉ. Ces diffรฉrences de conception offrent immรฉdiatement une diffรฉrence dans lโ€™exploitation des terminaisons considรฉrรฉes.
Un rรฉseau voix, vidรฉo et donnรฉes (ร  la fois) : Grรขce ร  lโ€™intรฉgration de la voix comme une application supplรฉmentaire dans un rรฉseau IP, ce dernier va simplifier la gestion des trois applications (voix, rรฉseau et vidรฉo) par un seul transport IP. Une simplification de gestion, mais รฉgalement une mutualisation des efforts financiers vers un seul outil.
Un service PABX distribuรฉ ou centralisรฉ : Les PABX en rรฉseau bรฉnรฉficient de services centralisรฉs tel que la messagerie vocale et la taxation, etcโ€ฆ Cette mรชme centralisation continue ร  รชtre assurรฉe sur un rรฉseau Voix IP sans limitation du nombre de canaux. Il convient, pour en assurer une bonne utilisation, de dimensionner convenablement le lien rรฉseau. Lโ€™utilisation de la voix IP met en commun un mรฉdia qui peut ร  la fois offrir ร  un moment prรฉcis une bande passante maximum ร  la donnรฉe, et dans une autre pรฉriode une bande passante maximum ร  la voix, garantissant toujours la prioritรฉ ร  celle-ci.

Les points faibles de la voix sur IPย 

Fiabilitรฉ et qualitรฉ sonore : Un des problรจmes les plus importants de la tรฉlรฉphonie sur IP est la qualitรฉ de la retransmission qui nโ€™est pas encore optimale. En effet, des dรฉsagrรฉments tels la qualitรฉ de la reproduction de la voix du correspondant ainsi que le dรฉlai entre le moment oรน lโ€™un des interlocuteurs parle et le moment oรน lโ€™autre entend peuvent รชtre extrรชmement problรฉmatiques. De plus, il se peut que des morceaux de la conversation manquent (des paquets perdus pendant le transfert) sans รชtre en mesure de savoir si des paquets ont รฉtรฉ perdus et ร  quel moment.
Dรฉpendance de lโ€™infrastructure technologique et support administratif exigeant : les centres de relations IP peuvent รชtre particuliรจrement vulnรฉrables en cas dโ€™improductivitรฉ de lโ€™infrastructure. Par exemple, si la base de donnรฉes nโ€™est pas disponible, les centres ne peuvent tout simplement pas recevoir dโ€™appels. La convergence de la voix et des donnรฉes dans un seul systรจme signifie que la stabilitรฉ du systรจme devient plus importante que jamais et lโ€™organisation doit รชtre prรฉparรฉe ร  travailler avec efficience ou ร  encourir les consรฉquences.
Vol : Les hackers qui parviennent ร  accรฉder ร  un serveur voix IP peuvent รฉgalement accรฉder aux messages vocaux stockรฉs et au mรชme au service tรฉlรฉphonique pour รฉcouter des conversations ou effectuer des appels gratuits aux noms dโ€™autres comptes.
Attaque de virus : Si un serveur voix IP est infectรฉ par un virus, les utilisateurs risquent de ne plus pouvoir accรฉder au rรฉseau tรฉlรฉphonique. Le virus peut รฉgalement infecter dโ€™autres ordinateurs connectรฉs au systรจme. 2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
En 2001, ils ont proposรฉ une approche pour lโ€™extraction des vecteurs caractรฉristiques directement du signal de parole codรฉ (sans dรฉcoder le signal, et puis le traiter) (figure 2.10), en se basant sur le codec G.723.1 qui est principalement utilisรฉ dans la voix sur IP, puis ils ont comparรฉ cette approche avec deux approches classiques de la reconnaissance automatique de locuteur : la reconnaissance automatique des chiffres isolรฉs et la reconnaissance automatique de parole continue en mode indรฉpendant de locuteur, les rรฉsultats obtenus montrent que cette nouvelle approche est plus performante que les deux approches classiques, parce que cette mรฉthode a deux avantages, dโ€™une part le systรจme nโ€™est affectรฉ que par la distorsion de lโ€™enveloppe spectrale, et dโ€™autre part, dans le cas de perte de paquets, cette approche devient plus efficace puisquโ€™elle nโ€™est pas limitรฉ ร  lโ€™erreur de manipulation de codecs.Il est clair quโ€™avec lโ€™explosion dโ€™internet et de la tรฉlรฉphonie mobile, les moyens de communication ont totalement changรฉ et appellent de nouveaux moyens pour la sรฉcurisation des accรจs et des รฉchanges de donnรฉes, cโ€™est sur cet aspect que sโ€™est focalisรฉ lโ€™article [4] qui propose une nouvelle mรฉthodologie pour รฉvaluer les performances de la vรฉrification de locuteur qui peut รชtre affectรฉ par la transmission des donnรฉes via lโ€™internet (perte de paquets par exemple), en se basant sur la base de donnรฉe XM2VTS qui est considรฉrรฉe comme la norme dans la communautรฉ biomรฉtrique audio et visuelle de vรฉrification multimodale (parole et image), ce travail sโ€™est effectuรฉ dans le cadre de lโ€™action europรฉenne COST-275.
Dans dโ€™approche classique de lโ€™identification de locuteur par la voix sur IP, aprรจs la numรฉrisation de la voix, elle doit รชtre compressรฉe pour lโ€™insรฉrer dans les paquets IP, ร  la rรฉception, un processus de dรฉcompression est nรฉcessaire pour restituer lโ€™information et la transformer en signal sonore (figure 2.11), ce processus de compression et dรฉcompression peut gรฉnรฉrer des problรจmes et des limitations en termes de ressources processeur ou mรฉmoire, influencer le dรฉbit de flux aprรจs dรฉcompression ou la taille de fichier rรฉsultant, un temps de latence trรจs รฉlevรฉ. Pour remรฉdier ร  ces problรจmes, une nouvelle approche a รฉtรฉ proposรฉe qui fait la reconnaissance de locuteur par voix IP en direct, en utilisant une mรฉthode de clustering pour rassembler les vecteurs caractรฉristiques similaires appelรฉe micro-clustering, le taux de prรฉcision de ce nouveau systรจme est de 80%, et il est trois fois plus rapide que lโ€™approche classique basรฉe sur la modรฉlisation des GMM

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Sommaire
Introduction gรฉnรฉrale
Chapitre 1 : Etat de lโ€™art sur les systรจmes de reconnaissance automatique du locuteur
1.1 Introduction
1.2 Terminologie
1.2.1 Identification & vรฉrification automatique de locuteur
๏ƒ˜ La Vรฉrification Automatique de Locuteur (VAL)
๏ƒ˜ Lโ€™Identification Automatique de Locuteur ( IAL)
1.2.2 Dรฉpendance et indรฉpendance du texte
1.2.3 Les variabilitรฉs du signal de la parole
1.3 Fonctionnement dโ€™un systรจme de reconnaissance automatique du locuteur
1.3.1 Paramรฉtrisation
๏ƒ˜ Paramรจtres de lโ€™analyse spectrale
๏ƒ˜ Paramรจtres prosodiques
๏ƒ˜ Paramรจtres dynamiques
1.3.2 Traitement post paramรฉtrisation
๏ƒ˜ La mรฉthode RASTA
๏ƒ˜ Feature warping
๏ƒ˜ CMVN (Normalisation moyenne et variance des paramรจtres cepstraux)
๏ƒ˜ Le feature mapping
๏ƒ˜ VTLN (Vocal Tract Length Normalization)
๏ƒ˜ HLDA (HETEROSCEDASTIC LINEAR DISCRIMINANT ANALYSIS)
๏‚ง LDA (Analyse discriminante linรฉaire)
๏‚ง HLDA (HeteroscedasticLinear Discriminant Analysis)
๏ƒ˜ Speech enhancement
๏‚ง La soustraction spectrale
๏‚ง Le filtre de Wiener
๏‚ง Filtrage de Kalman
1.3.3 Modรฉlisation
๏ƒ˜ Approche vectorielle
๏‚ง La programmation dynamique
๏‚ง La quantification vectorielle
๏ƒ˜ Approche statistique
๏‚ง Mรฉthodes statistiques du second ordre
๏‚ง Mรฉlange de gaussiennes
๏‚ง Modรจles de Markov cachรฉs
๏ƒ˜ Approche prรฉdictive
๏ƒ˜ Approche connexionniste
1.3.4 Dรฉcision et mesures de performances
๏ƒ˜ Identification automatique de locuteur
๏ƒ˜ Vรฉrification automatique de locuteur
1.4 Evolution dโ€™un systรจme de reconnaissance automatique de locuteur
1.5 Les approches classiques utilisรฉes dans le systรจme de reconnaissance automatique de locuteur
1.6 Domaines dโ€™application
Conclusion
Chapitre 2 : La reconnaissance automatique du locuteur par la voix IP
2.1 Introduction
2.2 La thรฉorie de la voix sur IP
2.2.1 Architecture de la transmission de la voix IP
2.2.2 Protocoles de la voix
๏ƒ˜ Le protocole H.323
๏‚ง Prรฉsentation gรฉnรฉrale
๏‚ง Les limites du protocole
๏ƒ˜ Le protocole SIP
๏‚ง Prรฉsentation gรฉnรฉrale
๏‚ง Fonctionnement
๏‚ง Avantages et inconvรฉnients
2.2.3 Points forts et limites de la voix sur IP
2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
2.4 Connexions internationales
Conclusion
Chapitre 3 : Expรฉriences et rรฉsultats
3.1 Introduction
3.2 La paramรฉtrisation
3.2.1 MFCC_FB20
3.2.2 DavisSkowronski_MFCC_FB20
3.2.3 HTK_MFCC_FB24
3.2.4 HTK_MFCC_FB26
3.2.5 MFCC_FB40
3.2.6 HFCC_E_FB29
3.3 Le protocole expรฉrimental
3.3.1 Description de la base de donnรฉes
3.3.2 Dรฉcomposition parole/non parole
3.3.3 La phase de la paramรฉtrisation
3.3.4 Apprentissage par GMM
3.3.5 La phase de la dรฉcision
3.4 Rรฉsultats et tests
3.4.1 Identification du locuteur dans un milieu fermรฉ
3.4.2 Discussion des rรฉsultats obtenus
3.4.3 Identification de locuteur en milieu ouvert
3.5 Implรฉmentation de lโ€™interface graphique
Conclusion et perspectives
Bibliographie
Webographie

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *