La parole est depuis tout temps le moyen de communication privilรฉgiรฉ de lโHomme. Elle vรฉhicule, en plus du message linguistique prononcรฉ, plusieurs types dโinformations. Ces informations servent en particulier ร dรฉterminer lโidentitรฉ du Locuteur ; elles sont exploitรฉes par les humains pour lโidentification des personnes quโils connaissent en particulier ร distance (au tรฉlรฉphone par exemple). Les systรจmes de Reconnaissance Automatique du Locuteur (RAL) sโintรฉressent prรฉcisรฉment ร ces caractรฉristiques particuliรจres du signal de parole. Cette discipline sโinscrit dans le cadre gรฉnรฉral de la reconnaissance des formes ; cโest un terme gรฉnรฉrique qui regroupe les problรจmes relatifs ร lโidentification ou ร la vรฉrification du Locuteur sur la base de lโinformation contenue dans le signal acoustique : il est question de reconnaรฎtre une personne ร partir de sa voix. Le champ dโapplication est trรจs vaste, il va du simple contrรดle dโaccรจs, aux applications militaires passant par des applications judiciaires. Un systรจme de RAL opรจre en trois รฉtapes : lโanalyse acoustique du signal de parole, la modรฉlisation du Locuteur et une derniรจre รฉtape de dรฉcision
LA VOIX
La voix est un instrument paradoxal. Il est ร la fois banal et prรฉcieux, fragile et puissant. [Musimem] La voix de chaque personne dรฉpend des caractรฉristiques, ร la fois anatomiques et comportementales. Avant de parler de la reconnaissance automatique du Locuteur, il est important de le dรฉcrire anatomiquement pour comprendre le processus dโรฉmission de la voix et connaรฎtre les paramรจtres qui diffรฉrencient un Locuteur dโun autre.
A cรดtรฉ de lโaspect anatomique, on prรฉsentera aussi dans cette section une description du signal vocal.
Description Anatomique du Locuteur
Lโappareil vocalย est constituรฉ de structures appartenant ร lโappareil respiratoire et ร lโappareil digestif. On le dรฉcompose classiquement en trois รฉtages [Kob], [Roublot, 2003], [Flanagan, 1972], [Bartkova, 2002] :
1. La soufflerie : Elle comprend la musculature respiratoire, les poumons, et les conduits sus-jacents. La soufflerie produit le flux dโair qui sera la matiรจre premiรจre de la production vocale, expirรฉ par les poumons et acheminรฉ par la trachรฉe vers le larynx.
2. Le vibrateur : Il sโagit du larynx qui est un tube situรฉ ร lโextrรฉmitรฉ supรฉrieure de la trachรฉe, au niveau de la pomme dโAdam. La colonne dโair produite par la soufflerie est mise en vibration sous lโaction des cordes vocales.
3. Les rรฉsonateurs : Ce sont principalement les cavitรฉs supra laryngรฉes, ร savoir le pharynx, la cavitรฉ buccale et les fosses nasales. La forme et le volume de ces cavitรฉs sont trรจs variables selon les individus ; cโest ce qui explique que chaque personne ait un timbre de voix personnel et identifiable. Par ailleurs, les mouvements des muscles du pharynx et de la bouche (notamment : de la langue) permettent des modifications rapides du volume et de la forme de ces rรฉsonateurs qui transforment la voix produite par la vibration laryngรฉe en phonรจmes constitutifs de la parole articulรฉe et ce, par lโamplification sรฉlective de certaines frรฉquences laryngรฉes.
Les cordes vocales sont attachรฉes horizontalement entre le cartilage thyroรฏde (la ยซย pomme d’Adamย ยป chez l’homme) situรฉ ร l’avant et les cartilages arytรฉnoรฏdes situรฉs ร l’arriรจre. En faisant bouger ces cartilages en parlant, on modifie la longueur et la position des cordes vocales. Lorsque la personne commence ร dire quelques mots, les cartilages arytรฉnoรฏdes accolent les cordes vocales l’une contre l’autre, fermant ainsi la glotte. Sous la pression de l’air expirรฉ, les cordes vocales s’รฉcartent, puis se referment aussitรดt, entraรฎnant ร nouveau une hausse de la pression sous la glotte.
En ouvrant et fermant la glotte lors de la phonation, les cordes vocales libรจrent de faรงon saccadรฉe l’air emmagasinรฉ dans les poumons. Au cours d’une phrase, le Locuteur modifie ainsi plusieurs fois la frรฉquence de vibration des cordes vocales pour produire les vibrations acoustiques correspondant ร diffรฉrents sons [Kob], [Roublot, 2003], [Flanagan, 1972].
Description Physique du Signal Vocal
En plus du message linguistique servant ร la communication entre individus, le signal de parole vรฉhicule des informations caractรฉristiques de la personne qui l’a รฉmis comme le timbre de sa voix, sa faรงon de parler, son รฉtat รฉmotionnel ou pathologique, etc. Ces informations caractรฉristiques du Locuteur peuvent รชtre classรฉes en deux catรฉgories distinctes :
– Les informations de nature statique telles que les paramรจtres spectraux caractรฉrisant les conduits vocal et nasal, la moyenne et les variations de la frรฉquence fondamentale.
– Les informations de nature dynamique reflรฉtant les phรฉnomรจnes de co-articulation, les trajectoires formantiques ainsi que les informations temporelles (vitesse d’รฉlocution, distribution des pauses).
Nous parlerons ici des caractรฉristiques statiques du signal vocal. Ce dernier peut รชtre dรฉfini par 4 paramรจtres principaux [Zwicker et al., 1981], [Reynolds, 1994], [Homayounpour et al., 1994] :
1. Intensitรฉ: L’intensitรฉ d’un son correspond ร l’amplitude de la vibration acoustique ; elle caractรฉrise le volume sonore qui nous permet de distinguer un son fort d’un son faible. L’intensitรฉ vocale varie surtout en fonction de la pression sous glottique.
2. Timbre: Le timbre permet de diffรฉrencier deux sons de mรชme hauteur et de mรชme amplitude. Il est constituรฉ d’un ensemble de frรฉquences appelรฉ spectre. La richesse du spectre permettra de dire qu’un son est riche, brillant, profond, etc. Le timbre est fonction des trois critรจres suivants : des conditions d’accolement des cordes vocales, de leur รฉpaisseur et enfin des caractรฉristiques anatomiques des cavitรฉs de rรฉsonance (pharynx, bouche et cavitรฉs nasales).
3. Hauteur: La hauteur dรฉpend de la frรฉquence de la variation de pression acoustique correspondant au son. Elle est fonction de la pรฉriodicitรฉ du mouvement des lรจvres glottiques, c’est-ร -dire en pratique, du nombre d’ouvertures glottiques par seconde. La hauteur dรฉpend aussi de la taille du larynx : plus les cordes vocales sont longues, plus la voix est grave.
4. Frรฉquence : Elle reprรฉsente le nombre de vibrations de l’air en une seconde.
DE LA RECONNAISSANCE HUMAINE A LA RECONNAISSANCE AUTOMATIQUEย
Reconnaissance Auditive
Utilisรฉe jusqu’ร nos jours dans le domaine juridique, l’identification auditive se base essentiellement sur la capacitรฉ naturelle de l’รชtre humain ร reconnaรฎtre une personne en utilisant seulement l’รฉcoute de sa voix. Cette capacitรฉ est cependant variable selon les individus [Ladefoged et al., 1980], [Schmidt et al., 2000] et reste influencรฉe par diffรฉrents facteurs : familiaritรฉ entre l’auditeur et le Locuteur [Van Lancker et al., 1985], [Papcun et al., 1989], [Yarmey et al., 2001], durรฉe des enregistrements, conditions de stress ou de modifications volontaires de la voix, etc.
Reconnaissance par spectrogramme
Une โempreinte vocaleโ est en fait un terme qui fait rรฉfรฉrence ร un spectrogramme du signal vocal [Bolt et al., 1970], [Stevens et al., 1968]. Il sโagit dโun graphique qui reprรฉsente le signal en trois dimensions : temps, frรฉquence et intensitรฉ. Le spectrogramme est un outil utile pour le traitement et lโanalyse de la voix mais nโa cependant aucun lien avec les empreintes digitales ou gรฉnรฉtiques. Lโanalyse des empreintes digitales par exemple, bรฉnรฉficie dโune longue histoire et de bases de donnรฉes expรฉrimentales de dimension trรจs importante. Dans le domaine vocal, les bases de donnรฉes disponibles ne comportent pas un nombre suffisant de Locuteurs, de langues et de conditions d’enregistrement pour lโรฉvaluation des mรฉthodes dโauthentification criminalistique, ร haut niveau de fiabilitรฉ. De plus, la voix prรฉsente des diffรฉrences majeures avec les empreintes digitales et gรฉnรฉtiques. Elle รฉvolue dans le temps, elle peut รชtre modifiรฉe volontairement par son porteur, elle est facilement falsifiable, etc. Par consรฉquent, on ne parle pas dโempreinte vocale mais plutรดt de signature vocale. La reconnaissance vocale par spectrogramme se fait par comparaison spectrale (spectrographiques) de mots.
|
Table des matiรจres
Introduction Gรฉnรฉrale
CHAPITRE I : La Biomรฉtrie
1-1 Introduction
1-2 Biomรฉtrie
1-2-1 Dรฉfinition
1-2-2 Techniques biomรฉtriques
1-2-3 Panorama dโapplication
1-2-4 Processus dโidentification biomรฉtrique
1-2-5 Identification Vs Vรฉrification
1-2-6 Fiabilitรฉ des systรจmes biomรฉtriques
1-2-7 Biomรฉtrie vocale
1-3 Conclusion
CHAPITRE II : La Reconnaissance Automatique du Locuteur
2-1 Introduction
2-2 La voix
2-2-1 Description Anatomique du Locuteur
2-2-2 Description physique du signal vocal
2-3 De la Reconnaissance Humaine ร la Reconnaissance Automatique
2-3-1 Reconnaissance Auditive
2-3-2 Reconnaissance par Spectrogramme
2-3-3 Reconnaissance Phonรฉtique
2-3-4 Reconnaissance Automatique
2-4 Reconnaissance Automatique du Locuteur
2-4-1 Gรฉnรฉralitรฉ
2-4-2 Diffรฉrentes tรขches en RAL
2-5 Structures des systรจmes dโIAL
2-5-1 Paramรฉtrisation Acoustique
2-5-2 Modรฉlisation des Locuteurs
2-5-3 Dรฉcision
2-6 Conclusion
Chapitre III : La Fusion de Donnรฉes
3-1 Introduction
3-2 Pourquoi la fusion de donnรฉes ?
3-3 Dรฉfinition de la fusion de donnรฉes
3-3-1 Dรฉfinitions diverses non satisfaisantes de la fusion de donnรฉes
3-3-2 Nouvelles dรฉfinitions de la fusion de donnรฉes
3-3-3 Dรฉfinition JDL de la fusion de donnรฉes
3-4 Concepts de la fusion de donnรฉes
3-4-1 Caractรฉristiques gรฉnรฉrales des donnรฉes
3-4-2 Types de fusion
3-4-3 Etapes du processus de fusion de donnรฉes
3-4-4 Architectures des systรจmes de fusion de donnรฉes
3-4-5 Domaines dโapplication
3-5 Avantages de la fusion de donnรฉes
3-6 Approches de fusion de donnรฉes
3-6-1 Thรฉorie des probabilitรฉs
3-6-2 Thรฉorie de lโรฉvidence
3-6-3 Thรฉorie des possibilitรฉs
3-6-4 Les rรฉseaux de neurones
3-6-5 Discussion
3-7 Conclusion
Chapitre IV : Systรจme Acoustico-Anatomique pour lโIdentification des Locuteurs
4-1 Introduction
4-2 Prรฉsentation du systรจme
4-2-1 Architecture du systรจme Acoustico-Anatomique
4-2-2 Paramรฉtrisation du Locuteur
4-2-3 Algorithme Proposรฉ pour la fusion
4-2-4 Construction de lโespace de reprรฉsentation
4-2-5 Localisation des Locuteurs
4-2-6 Dรฉcision
4-2-7 Corpus Proposรฉ
4-3 Conclusion
Conclusion Gรฉnรฉrale