Description Physique du Signal Vocal

La parole est depuis tout temps le moyen de communication privilรฉgiรฉ de lโ€™Homme. Elle vรฉhicule, en plus du message linguistique prononcรฉ, plusieurs types dโ€™informations. Ces informations servent en particulier ร  dรฉterminer lโ€™identitรฉ du Locuteur ; elles sont exploitรฉes par les humains pour lโ€™identification des personnes quโ€™ils connaissent en particulier ร  distance (au tรฉlรฉphone par exemple). Les systรจmes de Reconnaissance Automatique du Locuteur (RAL) sโ€™intรฉressent prรฉcisรฉment ร  ces caractรฉristiques particuliรจres du signal de parole. Cette discipline sโ€™inscrit dans le cadre gรฉnรฉral de la reconnaissance des formes ; cโ€™est un terme gรฉnรฉrique qui regroupe les problรจmes relatifs ร  lโ€™identification ou ร  la vรฉrification du Locuteur sur la base de lโ€™information contenue dans le signal acoustique : il est question de reconnaรฎtre une personne ร  partir de sa voix. Le champ dโ€™application est trรจs vaste, il va du simple contrรดle dโ€™accรจs, aux applications militaires passant par des applications judiciaires. Un systรจme de RAL opรจre en trois รฉtapes : lโ€™analyse acoustique du signal de parole, la modรฉlisation du Locuteur et une derniรจre รฉtape de dรฉcision

LA VOIX

La voix est un instrument paradoxal. Il est ร  la fois banal et prรฉcieux, fragile et puissant. [Musimem] La voix de chaque personne dรฉpend des caractรฉristiques, ร  la fois anatomiques et comportementales. Avant de parler de la reconnaissance automatique du Locuteur, il est important de le dรฉcrire anatomiquement pour comprendre le processus dโ€™รฉmission de la voix et connaรฎtre les paramรจtres qui diffรฉrencient un Locuteur dโ€™un autre.

A cรดtรฉ de lโ€™aspect anatomique, on prรฉsentera aussi dans cette section une description du signal vocal.

Description Anatomique du Locuteur

Lโ€™appareil vocalย  est constituรฉ de structures appartenant ร  lโ€™appareil respiratoire et ร  lโ€™appareil digestif. On le dรฉcompose classiquement en trois รฉtages [Kob], [Roublot, 2003], [Flanagan, 1972], [Bartkova, 2002] :

1. La soufflerie : Elle comprend la musculature respiratoire, les poumons, et les conduits sus-jacents. La soufflerie produit le flux dโ€™air qui sera la matiรจre premiรจre de la production vocale, expirรฉ par les poumons et acheminรฉ par la trachรฉe vers le larynx.
2. Le vibrateur : Il sโ€™agit du larynx qui est un tube situรฉ ร  lโ€™extrรฉmitรฉ supรฉrieure de la trachรฉe, au niveau de la pomme dโ€™Adam. La colonne dโ€™air produite par la soufflerie est mise en vibration sous lโ€™action des cordes vocales.
3. Les rรฉsonateurs : Ce sont principalement les cavitรฉs supra laryngรฉes, ร  savoir le pharynx, la cavitรฉ buccale et les fosses nasales. La forme et le volume de ces cavitรฉs sont trรจs variables selon les individus ; cโ€™est ce qui explique que chaque personne ait un timbre de voix personnel et identifiable. Par ailleurs, les mouvements des muscles du pharynx et de la bouche (notamment : de la langue) permettent des modifications rapides du volume et de la forme de ces rรฉsonateurs qui transforment la voix produite par la vibration laryngรฉe en phonรจmes constitutifs de la parole articulรฉe et ce, par lโ€™amplification sรฉlective de certaines frรฉquences laryngรฉes.

Les cordes vocales sont attachรฉes horizontalement entre le cartilage thyroรฏde (la ยซย pomme d’Adamย ยป chez l’homme) situรฉ ร  l’avant et les cartilages arytรฉnoรฏdes situรฉs ร  l’arriรจre. En faisant bouger ces cartilages en parlant, on modifie la longueur et la position des cordes vocales. Lorsque la personne commence ร  dire quelques mots, les cartilages arytรฉnoรฏdes accolent les cordes vocales l’une contre l’autre, fermant ainsi la glotte. Sous la pression de l’air expirรฉ, les cordes vocales s’รฉcartent, puis se referment aussitรดt, entraรฎnant ร  nouveau une hausse de la pression sous la glotte.

En ouvrant et fermant la glotte lors de la phonation, les cordes vocales libรจrent de faรงon saccadรฉe l’air emmagasinรฉ dans les poumons. Au cours d’une phrase, le Locuteur modifie ainsi plusieurs fois la frรฉquence de vibration des cordes vocales pour produire les vibrations acoustiques correspondant ร  diffรฉrents sons [Kob], [Roublot, 2003], [Flanagan, 1972].

Description Physique du Signal Vocal

En plus du message linguistique servant ร  la communication entre individus, le signal de parole vรฉhicule des informations caractรฉristiques de la personne qui l’a รฉmis comme le timbre de sa voix, sa faรงon de parler, son รฉtat รฉmotionnel ou pathologique, etc. Ces informations caractรฉristiques du Locuteur peuvent รชtre classรฉes en deux catรฉgories distinctes :

– Les informations de nature statique telles que les paramรจtres spectraux caractรฉrisant les conduits vocal et nasal, la moyenne et les variations de la frรฉquence fondamentale.

– Les informations de nature dynamique reflรฉtant les phรฉnomรจnes de co-articulation, les trajectoires formantiques ainsi que les informations temporelles (vitesse d’รฉlocution, distribution des pauses).

Nous parlerons ici des caractรฉristiques statiques du signal vocal. Ce dernier peut รชtre dรฉfini par 4 paramรจtres principaux [Zwicker et al., 1981], [Reynolds, 1994], [Homayounpour et al., 1994] :

1. Intensitรฉ: L’intensitรฉ d’un son correspond ร  l’amplitude de la vibration acoustique ; elle caractรฉrise le volume sonore qui nous permet de distinguer un son fort d’un son faible. L’intensitรฉ vocale varie surtout en fonction de la pression sous glottique.
2. Timbre: Le timbre permet de diffรฉrencier deux sons de mรชme hauteur et de mรชme amplitude. Il est constituรฉ d’un ensemble de frรฉquences appelรฉ spectre. La richesse du spectre permettra de dire qu’un son est riche, brillant, profond, etc. Le timbre est fonction des trois critรจres suivants : des conditions d’accolement des cordes vocales, de leur รฉpaisseur et enfin des caractรฉristiques anatomiques des cavitรฉs de rรฉsonance (pharynx, bouche et cavitรฉs nasales).
3. Hauteur: La hauteur dรฉpend de la frรฉquence de la variation de pression acoustique correspondant au son. Elle est fonction de la pรฉriodicitรฉ du mouvement des lรจvres glottiques, c’est-ร -dire en pratique, du nombre d’ouvertures glottiques par seconde. La hauteur dรฉpend aussi de la taille du larynx : plus les cordes vocales sont longues, plus la voix est grave.
4. Frรฉquence : Elle reprรฉsente le nombre de vibrations de l’air en une seconde.

DE LA RECONNAISSANCE HUMAINE A LA RECONNAISSANCE AUTOMATIQUEย 

Reconnaissance Auditive

Utilisรฉe jusqu’ร  nos jours dans le domaine juridique, l’identification auditive se base essentiellement sur la capacitรฉ naturelle de l’รชtre humain ร  reconnaรฎtre une personne en utilisant seulement l’รฉcoute de sa voix. Cette capacitรฉ est cependant variable selon les individus [Ladefoged et al., 1980], [Schmidt et al., 2000] et reste influencรฉe par diffรฉrents facteurs : familiaritรฉ entre l’auditeur et le Locuteur [Van Lancker et al., 1985], [Papcun et al., 1989], [Yarmey et al., 2001], durรฉe des enregistrements, conditions de stress ou de modifications volontaires de la voix, etc.

Reconnaissance par spectrogramme

Une โ€˜empreinte vocaleโ€™ est en fait un terme qui fait rรฉfรฉrence ร  un spectrogramme du signal vocal [Bolt et al., 1970], [Stevens et al., 1968]. Il sโ€™agit dโ€™un graphique qui reprรฉsente le signal en trois dimensions : temps, frรฉquence et intensitรฉ. Le spectrogramme est un outil utile pour le traitement et lโ€™analyse de la voix mais nโ€™a cependant aucun lien avec les empreintes digitales ou gรฉnรฉtiques. Lโ€™analyse des empreintes digitales par exemple, bรฉnรฉficie dโ€™une longue histoire et de bases de donnรฉes expรฉrimentales de dimension trรจs importante. Dans le domaine vocal, les bases de donnรฉes disponibles ne comportent pas un nombre suffisant de Locuteurs, de langues et de conditions d’enregistrement pour lโ€™รฉvaluation des mรฉthodes dโ€™authentification criminalistique, ร  haut niveau de fiabilitรฉ. De plus, la voix prรฉsente des diffรฉrences majeures avec les empreintes digitales et gรฉnรฉtiques. Elle รฉvolue dans le temps, elle peut รชtre modifiรฉe volontairement par son porteur, elle est facilement falsifiable, etc. Par consรฉquent, on ne parle pas dโ€™empreinte vocale mais plutรดt de signature vocale. La reconnaissance vocale par spectrogramme se fait par comparaison spectrale (spectrographiques) de mots.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Introduction Gรฉnรฉrale
CHAPITRE I : La Biomรฉtrie
1-1 Introduction
1-2 Biomรฉtrie
1-2-1 Dรฉfinition
1-2-2 Techniques biomรฉtriques
1-2-3 Panorama dโ€™application
1-2-4 Processus dโ€™identification biomรฉtrique
1-2-5 Identification Vs Vรฉrification
1-2-6 Fiabilitรฉ des systรจmes biomรฉtriques
1-2-7 Biomรฉtrie vocale
1-3 Conclusion
CHAPITRE II : La Reconnaissance Automatique du Locuteur
2-1 Introduction
2-2 La voix
2-2-1 Description Anatomique du Locuteur
2-2-2 Description physique du signal vocal
2-3 De la Reconnaissance Humaine ร  la Reconnaissance Automatique
2-3-1 Reconnaissance Auditive
2-3-2 Reconnaissance par Spectrogramme
2-3-3 Reconnaissance Phonรฉtique
2-3-4 Reconnaissance Automatique
2-4 Reconnaissance Automatique du Locuteur
2-4-1 Gรฉnรฉralitรฉ
2-4-2 Diffรฉrentes tรขches en RAL
2-5 Structures des systรจmes dโ€™IAL
2-5-1 Paramรฉtrisation Acoustique
2-5-2 Modรฉlisation des Locuteurs
2-5-3 Dรฉcision
2-6 Conclusion
Chapitre III : La Fusion de Donnรฉes
3-1 Introduction
3-2 Pourquoi la fusion de donnรฉes ?
3-3 Dรฉfinition de la fusion de donnรฉes
3-3-1 Dรฉfinitions diverses non satisfaisantes de la fusion de donnรฉes
3-3-2 Nouvelles dรฉfinitions de la fusion de donnรฉes
3-3-3 Dรฉfinition JDL de la fusion de donnรฉes
3-4 Concepts de la fusion de donnรฉes
3-4-1 Caractรฉristiques gรฉnรฉrales des donnรฉes
3-4-2 Types de fusion
3-4-3 Etapes du processus de fusion de donnรฉes
3-4-4 Architectures des systรจmes de fusion de donnรฉes
3-4-5 Domaines dโ€™application
3-5 Avantages de la fusion de donnรฉes
3-6 Approches de fusion de donnรฉes
3-6-1 Thรฉorie des probabilitรฉs
3-6-2 Thรฉorie de lโ€™รฉvidence
3-6-3 Thรฉorie des possibilitรฉs
3-6-4 Les rรฉseaux de neurones
3-6-5 Discussion
3-7 Conclusion
Chapitre IV : Systรจme Acoustico-Anatomique pour lโ€™Identification des Locuteurs
4-1 Introduction
4-2 Prรฉsentation du systรจme
4-2-1 Architecture du systรจme Acoustico-Anatomique
4-2-2 Paramรฉtrisation du Locuteur
4-2-3 Algorithme Proposรฉ pour la fusion
4-2-4 Construction de lโ€™espace de reprรฉsentation
4-2-5 Localisation des Locuteurs
4-2-6 Dรฉcision
4-2-7 Corpus Proposรฉ
4-3 Conclusion
Conclusion Gรฉnรฉrale

Lire le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *