La reconnaissance automatique du locuteur par la voix IP

La reconnaissance automatique du locuteur par la voix IP

Points forts et limites de la voix sur IP

Différentes sont les raisons qui peuvent pousser les entreprises à s’orienter vers la Voix sur IP comme solution, les avantages les plus marqués sont :
Réduction des coûts : Aujourd’hui, la position des opérateurs téléphoniques classique est rapidement menacée par l’arrivée massive de la téléphonie sur IP, dont la tarification tend vers la gratuité, les coûts des communications interurbaines ont chuté de manière considérable ce qui laisse croire qu’elle a encore de beaux jours devant elle.
Standards ouverts : La voix sur IP n’est plus uniquement H323, mais un usage multiprotocoles selon les besoins de services nécessaires. Par exemple, H323 fonctionne en mode égale à égale alors que MGCP fonctionne en mode centralisé. Ces différences de conception offrent immédiatement une différence dans l’exploitation des terminaisons considérées.
Un réseau voix, vidéo et données (à la fois) : Grâce à l’intégration de la voix comme une application supplémentaire dans un réseau IP, ce dernier va simplifier la gestion des trois applications (voix, réseau et vidéo) par un seul transport IP. Une simplification de gestion, mais également une mutualisation des efforts financiers vers un seul outil.
Un service PABX distribué ou centralisé : Les PABX en réseau bénéficient de services centralisés tel que la messagerie vocale et la taxation, etc… Cette même centralisation continue à être assurée sur un réseau Voix IP sans limitation du nombre de canaux. Il convient, pour en assurer une bonne utilisation, de dimensionner convenablement le lien réseau. L’utilisation de la voix IP met en commun un média qui peut à la fois offrir à un moment précis une bande passante maximum à la donnée, et dans une autre période une bande passante maximum à la voix, garantissant toujours la priorité à celle-ci.

Les points faibles de la voix sur IP

Fiabilité et qualité sonore : Un des problèmes les plus importants de la téléphonie sur IP est la qualité de la retransmission qui n’est pas encore optimale. En effet, des désagréments tels la qualité de la reproduction de la voix du correspondant ainsi que le délai entre le moment où l’un des interlocuteurs parle et le moment où l’autre entend peuvent être extrêmement problématiques. De plus, il se peut que des morceaux de la conversation manquent (des paquets perdus pendant le transfert) sans être en mesure de savoir si des paquets ont été perdus et à quel moment.
Dépendance de l’infrastructure technologique et support administratif exigeant : les centres de relations IP peuvent être particulièrement vulnérables en cas d’improductivité de l’infrastructure. Par exemple, si la base de données n’est pas disponible, les centres ne peuvent tout simplement pas recevoir d’appels. La convergence de la voix et des données dans un seul système signifie que la stabilité du système devient plus importante que jamais et l’organisation doit être préparée à travailler avec efficience ou à encourir les conséquences.
Vol : Les hackers qui parviennent à accéder à un serveur voix IP peuvent également accéder aux messages vocaux stockés et au même au service téléphonique pour écouter des conversations ou effectuer des appels gratuits aux noms d’autres comptes.
Attaque de virus : Si un serveur voix IP est infecté par un virus, les utilisateurs risquent de ne plus pouvoir accéder au réseau téléphonique. Le virus peut également infecter d’autres ordinateurs connectés au système. 2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
En 2001, ils ont proposé une approche pour l’extraction des vecteurs caractéristiques directement du signal de parole codé (sans décoder le signal, et puis le traiter) (figure 2.10), en se basant sur le codec G.723.1 qui est principalement utilisé dans la voix sur IP, puis ils ont comparé cette approche avec deux approches classiques de la reconnaissance automatique de locuteur : la reconnaissance automatique des chiffres isolés et la reconnaissance automatique de parole continue en mode indépendant de locuteur, les résultats obtenus montrent que cette nouvelle approche est plus performante que les deux approches classiques, parce que cette méthode a deux avantages, d’une part le système n’est affecté que par la distorsion de l’enveloppe spectrale, et d’autre part, dans le cas de perte de paquets, cette approche devient plus efficace puisqu’elle n’est pas limité à l’erreur de manipulation de codecs.Il est clair qu’avec l’explosion d’internet et de la téléphonie mobile, les moyens de communication ont totalement changé et appellent de nouveaux moyens pour la sécurisation des accès et des échanges de données, c’est sur cet aspect que s’est focalisé l’article [4] qui propose une nouvelle méthodologie pour évaluer les performances de la vérification de locuteur qui peut être affecté par la transmission des données via l’internet (perte de paquets par exemple), en se basant sur la base de donnée XM2VTS qui est considérée comme la norme dans la communauté biométrique audio et visuelle de vérification multimodale (parole et image), ce travail s’est effectué dans le cadre de l’action européenne COST-275.
Dans d’approche classique de l’identification de locuteur par la voix sur IP, après la numérisation de la voix, elle doit être compressée pour l’insérer dans les paquets IP, à la réception, un processus de décompression est nécessaire pour restituer l’information et la transformer en signal sonore (figure 2.11), ce processus de compression et décompression peut générer des problèmes et des limitations en termes de ressources processeur ou mémoire, influencer le débit de flux après décompression ou la taille de fichier résultant, un temps de latence très élevé. Pour remédier à ces problèmes, une nouvelle approche a été proposée qui fait la reconnaissance de locuteur par voix IP en direct, en utilisant une méthode de clustering pour rassembler les vecteurs caractéristiques similaires appelée micro-clustering, le taux de précision de ce nouveau système est de 80%, et il est trois fois plus rapide que l’approche classique basée sur la modélisation des GMM

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Sommaire
Introduction générale
Chapitre 1 : Etat de l’art sur les systèmes de reconnaissance automatique du locuteur
1.1 Introduction
1.2 Terminologie
1.2.1 Identification & vérification automatique de locuteur
 La Vérification Automatique de Locuteur (VAL)
 L’Identification Automatique de Locuteur ( IAL)
1.2.2 Dépendance et indépendance du texte
1.2.3 Les variabilités du signal de la parole
1.3 Fonctionnement d’un système de reconnaissance automatique du locuteur
1.3.1 Paramétrisation
 Paramètres de l’analyse spectrale
 Paramètres prosodiques
 Paramètres dynamiques
1.3.2 Traitement post paramétrisation
 La méthode RASTA
 Feature warping
 CMVN (Normalisation moyenne et variance des paramètres cepstraux)
 Le feature mapping
 VTLN (Vocal Tract Length Normalization)
 HLDA (HETEROSCEDASTIC LINEAR DISCRIMINANT ANALYSIS)
 LDA (Analyse discriminante linéaire)
 HLDA (HeteroscedasticLinear Discriminant Analysis)
 Speech enhancement
 La soustraction spectrale
 Le filtre de Wiener
 Filtrage de Kalman
1.3.3 Modélisation
 Approche vectorielle
 La programmation dynamique
 La quantification vectorielle
 Approche statistique
 Méthodes statistiques du second ordre
 Mélange de gaussiennes
 Modèles de Markov cachés
 Approche prédictive
 Approche connexionniste
1.3.4 Décision et mesures de performances
 Identification automatique de locuteur
 Vérification automatique de locuteur
1.4 Evolution d’un système de reconnaissance automatique de locuteur
1.5 Les approches classiques utilisées dans le système de reconnaissance automatique de locuteur
1.6 Domaines d’application
Conclusion
Chapitre 2 : La reconnaissance automatique du locuteur par la voix IP
2.1 Introduction
2.2 La théorie de la voix sur IP
2.2.1 Architecture de la transmission de la voix IP
2.2.2 Protocoles de la voix
 Le protocole H.323
 Présentation générale
 Les limites du protocole
 Le protocole SIP
 Présentation générale
 Fonctionnement
 Avantages et inconvénients
2.2.3 Points forts et limites de la voix sur IP
2.3 Evolution de la reconnaissance automatique de locuteur par la voix IP
2.4 Connexions internationales
Conclusion
Chapitre 3 : Expériences et résultats
3.1 Introduction
3.2 La paramétrisation
3.2.1 MFCC_FB20
3.2.2 DavisSkowronski_MFCC_FB20
3.2.3 HTK_MFCC_FB24
3.2.4 HTK_MFCC_FB26
3.2.5 MFCC_FB40
3.2.6 HFCC_E_FB29
3.3 Le protocole expérimental
3.3.1 Description de la base de données
3.3.2 Décomposition parole/non parole
3.3.3 La phase de la paramétrisation
3.3.4 Apprentissage par GMM
3.3.5 La phase de la décision
3.4 Résultats et tests
3.4.1 Identification du locuteur dans un milieu fermé
3.4.2 Discussion des résultats obtenus
3.4.3 Identification de locuteur en milieu ouvert
3.5 Implémentation de l’interface graphique
Conclusion et perspectives
Bibliographie
Webographie