Télécharger le fichier pdf d’un mémoire de fin d’études
Transformée de Fourier à court terme
La transformée de Fourier à court terme est obtenue en extrayant de l’audiogramme une 30aine de ms de signal vocal, en pondérant ces échantillons par une fenêtre de pondération (souvent une fenêtre de Hamming) et en effectuant une transformée de Fourier sur ces échantillons.
La figure 2.4 illustre la transformée de Fourier d’une tranche voisée et celle d’une tranche non-voisée. Les parties voisées du signal apparaissant sous la forme de successions de pics spectraux marqués, dont les fréquences centrales sont multiples de la fréquence fondamentale. Par contre, le spectre d’un signal non voisé ne présente aucune structure particulière. La forme générale de ces spectres, appelée enveloppe spectrale, présente elle-même des pics et des creux qui correspondent aux résonances et aux anti-résonances du conduit vocal et sont appelés formants et anti -formants. L’évolution temporelle de leur fréquence centrale et de leur largeur de bande détermine le timbre du son. Il apparaît en pratique que l’enveloppe spectrale des sons voisés est de type passe-bas, avec environ un formant par kHz de bande passante, et dont seuls les trois ou quatre premiers contribuent de façon importante au timbre. Par contre, les sons non-voisés présentent souvent une accentuation vers les hautes fréquences.
Alphabet Phonétique International
L’Alphabet Phonétique International (IPA) associe des symboles phonétiques aux sons, de façon à permettre l’écriture compacte et universelle des prononciations (voir tableau 2.1 pour le français) [BOI87].
Phonétique articulatoire
La parole se distingue des autres sons par des caractéristiques acoustiques ayant leurs origines dans les mécanismes de production. Les sons de parole sont produit soit par les vibrations des cordes vocales (sources de voisements), soit par l’écoulement turbulent de l’air dans le conduit vocal, soit lors du relâchement d’une occlusion de ce conduit (source de bruit).
Il est intéressant de grouper les sons de parole en classes phonétiques, en fonction de leur mode articulatoire. On distingue généralement trois classes principales : les voyelles, les semi-voyelles et les liquides, et les consonnes [GAL90] ; [JUN90].
Caractéristiques phonétiques du Français
Les voyelles [i,e, ε, ∂,a, ς, o, y,u, φ, oe,e, ε, ∂, ς, oe par le degré d’ouverture du conduit vocal (et non, comme on l’entend souvent dire, par le degré d’activité des cordes vocales, déjà mentionné sous le terme de voisement). Si le conduit vocal est suffisamment ouvert pour que l’air poussé par les poumons le traverse sans obstacle, il y a production d’une voyelle. Le rôle de la bouche se réduit alors à une modification du timbre vocalique. Si, au contraire, le passage se rétrécit par endroit, ou même s’il se ferme temporairement, le passage forcé de l’air donne naissance à un bruit : Une consonne est produite. La bouche est dans ce cas un organe de production à part entière.
Audition – perception
Dans le cadre du traitement de la parole, une bonne connaissance des mécanismes de l’audition et des propriétés perceptuelles de l’oreille est aussi importante qu’une maîtrise des mécanismes de production. En effet, tout ce qui peut être mesuré acoustiquement ou observé par la phonétique articulatoire n’est pas nécessairement perçu.
Les ondes sonores sont recueillies par l’appareil auditif, ce qui provoque les sensations auditives. Ces ondes de pression sont analysées dans l’oreille interne qui envoie au cerveau l’influx nerveux qui en résulte; le phénomène physique induit ainsi un phénomène psychique grâce à un mécanisme physiologique complexe.
L’appareil auditif comprend l’ oreille externe, l’oreille moyenne, et l’oreille interne (figure 2.10). Le conduit auditif relie le pavillon au tympan : c’est un tube acoustique de section uniforme fermé à une extrémité, son premier mode de résonance est situé vers 3000 Hz, ce qui accroît la sensibilité du système auditif dans cette gamme de fréquences. Le mécanisme de l’oreille interne (marteau, étrier, enclume) permet une adaptation d’impédance entre l’air et le milieu liquide de l’oreille interne. Les vibrations de l’étrier sont transmises au liquide de la cochlée. Celle-ci contient la membrane basilaire qui transforme les vibrations mécaniques en impulsions nerveuses. La membrane s’élargit et s’épaissit au fur et à mesure que l’on se rapproche de l’apex de la cochlée; elle est le support de l’organe de Corti qui est constitué par environ 25000 cellules ciliées raccordées au nerf auditif. La réponse en fréquence du conduit au droit de chaque cellule est esquissée à la figure 2.11. La fréquence de résonance dépend de la position occupée par la cellule sur la membrane; au-delà de cette fréquence, la fonction de réponse s’atténue très vite. Les fibres nerveuses aboutissent à une région de l’écorce cérébrale appelée aire de projection auditive et située dans le lobe temporal. En cas de lésion de cette aire, on peut observer des troubles auditifs. Les fibres nerveuses auditives afférentes (de l’oreille au cerveau) et efférentes (du cerveau vers l’oreille) sont partiellement croisées : chaque moitié du cerveau est mise en relation avec les deux oreilles internes [LAN77].
COMPLEXITE DU SIGNAL DE PAROLE
Le signal de parole n’est pas un signal ordinaire; il est le vecteur d’un phénomène extrêmement complexe : la communication parlée. La reconnaissance de la parole pose de nombreux problèmes aux chercheurs depuis 1950. D’un point de vue mathématique, il est difficile de modéliser le signal de parole, car ses propriétés statistiques varient au cours du temps. Nous allons ici tenter de mettre en évidence quelques caractéristiques notoires de ce signal non-stationnaire afin de faire ressortir les problèmes posés lors de son traitement.
Redondance
Le signal de parole est extrêmement redondant. Cette grande redondance lui confère une robustesse à certains types de bruits. De nombreuses recherches sont menées afin de rendre les systèmes de reconnaissance robustes aux bruits [DUP96] ; mais les performances humaines sont encore loin d’être atteintes. Rappelons que les expériences décrites dans ce travail ont été réalisées sur des corpus de parole claire (sans bruits).
Variabilité
Le signal de parole possède une très grande variabilité. Une même personne ne prononce jamais un mot deux fois de façon identique. La vitesse d’élocution peut varier, la durée du signal est alors modifiée. Toute altération de l’appareil phonatoire peut modifier la qualité de l’émission (exemple : rhume, fatigue…). De plus, la diction évolue dans le temps. La voix est modifiée au cours des étapes de la vie d’un être humain (enfance, adolescence, âge adulte…). La variabilité interlocuteur est encore plus évidente. La hauteur de la voix, l’intonation, l’accent différent selon le sexe, l’origine sociale, régionale ou nationale. Enfin, la parole est un moyen de communication où de nombreux éléments entrent en jeu, tels le lieu, l’émotion du locuteur, la relation qui s’établit entre les locuteurs (stressante ou amicale). Ces facteurs influencent la forme et le contenu du message. L’acoustique du lieu (milieu protégé ou environnement bruité), la qualité du microphone ou de la ligne téléphonique, les bruits de bouche, les hésitations, les mots hors vocabulaire sont autant d’interférences supplémentaires sur le signal de parole que le système doit compenser.
Effets de coarticulation
La production parfaite d’un son suppose un positionnement précis des organes phonatoires. Le déplacement de ces organes est limité par une certaine inertie mécanique. Les sons émis subissent alors l’influence de ceux qui les précèdent ou les suivent. Ces effets de coarticulation sont des interférences sur le signal de parole. Ils entraînent l’altération des formes sonores en fonction du contexte. L’effet de coarticulation est un facteur de variabilité supplémentaire important du signal de parole.
TACHE DE RECONNAISSANCE
Plutôt que d’affronter simultanément toutes ces difficultés, il est préférable de simplifier le problème de la RAP en se limitant à des sous- problèmes. Les difficultés de mise au point d’un système de reconnaissance de la parole dépendent des conditions d’utilisation du système, qui sont caractérisées par leur degré de liberté, du plus contraint au plus libre, dans les domaines suivants:
-Le nombre d’utilisateurs du système: Celui-ci peut être mono-locuteur, multi- locuteurs ou indépendant du locuteur;
-La taille du vocabulaire: Petit vocabulaire (moins de mille mots), grand vocabulaire (moins de cent mille mots) ou très grand vocabulaire (plus de cent mille mots);
-La complexité du langage utilisé: Langage contraint par une syntaxe artificielle ou langage naturel;
-Le mode d’élocution: Mots isolés ou parole continue;
-La robustesse aux conditions d’enregistrement: Système nécessitant de la parole de bonne qualité ou fonctionnant en milieu bruité.
Avec des méthodes statistiques à base de modèles de Markov cachés, il est concevable de réaliser une reconnaissance de la parole continue indépendamment du locuteur, en grand vocabulaire, pour un enregistrement de bonne qualité et un langage artificiel [LEE88]. En qualité téléphonique, les performances ne permettent pour le moment que des applications avec de petits vocabulaires [GAG90].
Enfin, la « machine à dicter » doit permettre la reconnaissance de parole continue en langage naturel et pour tout locuteur. Cet objectif encore ambitieux fait l’objet d’appels d’offres de la part d’organismes officiels (par exemple de l’AUPELF-UREF en 1994). Le traitement de très grands vocabulaires impose l’utilisation d’unités acoustiques sub-lexicales, et la définition d’un modèle de langage. Différentes méthodes de reconnaissance peuvent être employées, les plus performantes étant les méthodes statistiques.
METHODES DE RECONNAISSANCE
On distingue usuellement en reconnaissance de la parole l’approche analytique et l’approche globale. La première approche cherche à traiter la parole continue en décomposant le problème, le plus souvent en procédant à un décodage acoustico-phonétique exploité par des modules de niveau linguistique. La seconde consiste à identifier globalement un mot ou une phrase en les comparant avec des références enregistrées. La distinction entre global et analytique a perdu de sa pertinence avec l’introduction des méthodes statistiques à base de modèles de Markov pour la reconnaissance de la parole continue et le traitement de grands vocabulaires; il s’agit de méthodes globales qui peuvent exploiter des unités acoustiques sub-lexicales.
Approche analytique
L’approche analytique cherche à résoudre le problème de la parole continue en isolant des unités acoustiques courtes comme les phonèmes, les diphonèmes ou les syllabes. Un exemple classique de cette approche est l’analyse par traits: des indices acoustiques sont calculés à partir du signal de parole; ils permettent de faire des hypothèses locales sur certains traits phonétiques, comme le voisement, la nasalisation, le lieu d’articulation ou le degré d’ouverture du conduit vocal. En fonction de ces traits, le signal acoustique est segmenté et une identification phonétique des segments est réalisée. Le décodage acoustico-phonétique ainsi obtenu est exploité par des modules d’ordre linguistique. Les niveaux lexical, syntaxique ou sémantique utilisent des sources de connaissances spécialisées et sont organisés avec le module acoustique dans des architectures montantes ou descendantes [HAT91]. Les systèmes analytiques, conçus avec des objectifs ambitieux, sont restés au stade expérimental. Leur faiblesse provient d’un processus de décision trop précoce, à savoir une segmentation préalable à l’identification ou une identification phonétique sans prise en compte des niveaux linguistiques. Les méthodes globales, développées pour la reconnaissance de mots isolés, ne font pas d’hypothèse sur la structure phonétique des mots, ce qui évite une erreur pénalisante au début du traitement.
Approche globale
Les méthodes globales identifient un mot ou une phrase en les considérant comme des entités élémentaires et en les comparant avec des références enregistrées. Leur essor en reconnaissance de parole est dû à l’exploitation de critères de comparaison performants, comme l’alignement temporel dynamique des formes acoustiques, et à leur application à des représentations adaptées du signal, qu’il s’agisse de l’analyse spectrale ou de la prédiction linéaire.
Disposant d’une représentation du signal de parole, la reconnaissance de mots isolés est un problème classique de reconnaissance des formes. L’ensemble des nm mots du vocabulaire est noté Em = {mk}1≤k≤nm et chaque mots mk est représenté par une ou plusieurs formes acoustiques de référence Rmk , par exemple les paramètres spectraux calculés de manière périodique sur le signal. Une forme de test observée O, qui est la suite des spectres d’un mot inconnu, est comparée à chacune des références. Le mot inconnu est identifié au mot de référence m~ dont il est le plus proche au sens d’une certaine distance D: m = arg minD(O,Rm) m∈Em~ (3.1)
Le calcul de la distance nécessite la mise en correspondance d’une forme de référence et de la forme inconnue. Or, la durée d’un même mot est variable d’une prononciation à l’autre, et de plus les déformations ne sont pas linéaires en fonction du temps. La distance D est donc calculée sur l’alignement temporel qui rapproche le mieux les deux formes. Mais une recherche exhaustive de toutes les déformations possibles est exclue en raison de l’explosion combinatoire.
L’alignement temporel dynamique (Dynamic Time Warping ou DTW en anglais) résout efficacement ce problème, en exploitant le principe d’optimalité de Bellman [BEL57]. La construction de l’alignement optimal entre les formes de référence et de test est réalisée par récursivité sur l’indice du temps, en exploitant le fait que le chemin optimal est l’extension d’un sous-chemin lui-même optimal. La complexité de l’alignement est de ce fait considérablement réduite puisqu’elle passe d’un ordre exponentiel à un ordre polynomial. Les premières applications de la programmation dynamique en parole sont développées en URSS en 1968 [VIN68] ; [VEL70], puis au Japon à partir de 1970 [SAK78]. La méthode est efficace pour la reconnaissance mono-locuteur à petit vocabulaire et en mots isolés. Des extensions de l’alignement temporel dynamique ont été proposées pour la reconnaissance indépendante du locuteur [RAB79] ou la reconnaissance de mots enchaînés [BRI82] ; [MYE81] ; [SAK79]. Cependant, l’approche statistique propose un formalisme plus général et permet la reconnaissance de grands vocabulaires en parole continue de manière plus efficace que par DTW en intégrant la modélisation des niveaux linguistiques.
Approche statistique
F. Jelinek a proposé une formalisation statistique simple issue de la théorie de l’information et qui est aujourd’hui classique pour décomposer le problème de la reconnaissance de la parole continue [JEL76] . Soit O une suite d’observations acoustiques, et M une suite de mots prononcés. Connaissant les observations O, on cherche la suite de mots M~ la plus probable parmi toutes les suites possibles EM = Em* .
L’approche statistique permet ainsi d’intégrer les niveaux acoustiques et linguistiques dans un seul processus de décision. Ces niveaux sont classiquement représentés par des modèles de Markov cachés (Hidden Markov Models ou HMM). Les unités acoustiques modélisées peuvent être des mots comme dans l’approche globale ou des unités plus courtes telles que le phonème comme dans l’approche analytique. La modélisation markovienne est plus générale que l’alignement temporel dynamique et tient compte non seulement de la non linéarité temporelle du processus mais aussi de la variabilité acoustique de la production de la parole. Son application à la reconnaissance de la parole continue a été rendue possible par l’augmentation continue de la puissance des ordinateurs et de la taille des bases de données disponibles.
Les chercheurs de CMU (Carnegie Mellon University) et d’IBM sont les premiers à avoir introduit le formalisme des modèles de Markov cachés en reconnaissance de la parole [BAK74] ; [KLA77]. Au cours des dix dernières années, les systèmes des plus grands laboratoires internationaux travaillant en RAP, comme les systèmes SPHINX de CMU [LEE88], BYBLOS de BBN (Bolt Beranek and Newman Inc.) [CHO87], TANGORA d’IBM [AVE87], ou ceux développés à AT&T [WIL93], ont été conçus avec une approche statistique markovienne. Cette approche a aussi été appliquée avec succès en France au CNET ou au LIMSI qui obtient des performances équivalentes à celles des meilleurs systèmes actuels [GAU94].
|
Table des matières
Table des matières
1 Introduction générale
1 Introduction
2 Mode de fonctionnement
3 Elocution
4 Vocabulaire
5 Taux de performance
6 Objet de la thèse
7 Structure de la thèse
Partie I – Etat de l’art
2 Généralités sur le traitement de la parole
1 Introduction
2 Niveaux descriptifs de la parole
2.1 Niveau acoustique
2.1.1 Audiogramme
2.1.2 Transformée de Fourier à court terme
2.1.3 Spectrogramme
2.1.4 Fréquence fondamentale
2.2 Niveau phonétique
2.2.1 Phonation
2.2.2 Alphabet phonétique international
2.2.3 Phonétique articulatoire
2.2.3.1 Caractéristiques phonétiques du Français
2.2.3.2 Caractéristiques phonétiques de l’Arabe
2.2.4 Audition et perception
3 Modélisation de la parole
3.1 Modèle électrique de la phonation
3.2 Considérations pratiques
3.3 Exemple complet
4 Conclusion
3 Reconnaissance de la parole 8B
1 Introduction
2 Complexité du signal de parole
2.1 Redondance
2.2 Variabilité
2.3 Effets de coarticulation
3 Tâche de reconnaissance
4 Méthodes de reconnaissance
4.1 Approche analytique
4.2 Approche globale
4.3 Approche statistique
5 Extraction de paramètres
5.1 Coefficients cepstraux
5.1.1 Analyse spectrale
5.1.2 Analyse paramétrique
5.2 Soustraction cepstrale
5.3 Coefficients PLP
5.4 Coefficients LDA
5.5 Etude comparative des représentations
6 Quantification vectorielle
6.1 Algorithme de K-Means
6.2 Algorithme de K-Plus Proches Voisins
7 Modèles de Markov cachés
7.1 Définition
7.2 Problèmes à résoudre
7.2.1 Problème1 : Estimation des probabilités
7.2.2 Problème2 : Estimation des paramètres & entraînement des modèles
7.2.3 Problème3 : Décodage
8 Reconnaissance en mots isolés
8.1 Description de systèmes de reconnaissance en mots isolés & grand vocabulaire
8.2.1 Système de CSELT
8.2.2 TANGORA
8.2.3 Système de l’INRS ..
8.2.4 PARSYFAL
8.2.5 Dragon Dictate
9 Conclusion
Partie II – Conception & Réalisation
4 Nouveaux algorithmes de partitionnement
1 Introduction
2 Quelques propositions
2.1 Mesure de similarité pour la classification symbolique
2.2 Version étendue de l’algorithme des k-means
2.3 Extensions de l’algorithme des k-means
2.4 Mesure de dissimilarité pour les données hétérogènes floues
2.5 Mesure de dissimilarité et classification floue pour les données symboliques
3 Principes des algorithmes de partitionnement
4 Algorithmes de classification proposée
4.1 Distributions discrètes floues
4.1.1 Degré d’appartenance
4.1.2 Démarche
4.1.3 Avantages
4.1.5 Considération pratique
4.2 Algorithmes génétiques en classification supervisée par partition
4.2.1 Principes des AG
4.2.2 Algorithmes génétiques pour la segmentation de la parole
4.2.2.1 Codage des individus
4.2.2.2 Taille de la population
4.2.2.3 Fonction de mérite
4.2.2.4 Reproduction
4.2.2.5 Remplacement de la nouvelle population
4.2.2.6 Critère d’arrêt
5 Conclusion
5 Modèle Hybride HMM-MLP
1 Introduction
2 Réseaux de neurones et modèles hybrides
2.1 Généralités
2.2 Présentation
2.3 Initialisation
2.4 Apprentissage et reconnaissance
2.5 Lissage des probabilités a posteriori
3 Apport de l’hybridation HMM/MLP
4 Comparaison des différents modèles
4.1 Corpus utilisés
4.2 Paramètres Acoustiques
4.3 Reconnaissance par le modèle 1 – HMM discret
4.4 Reconnaissance par le modèle 2 – Modèle hybride HMM/MLP avec des entrées fournies par k-means
4.5 Reconnaissance par le modèle 3 – Modèle hybride HMM/MLP. avec des entrées fournies par FCM
4.6 Reconnaissance par le modèle 4 – Modèle hybride HMM/MLP avec des entrées fournies par AG
4.7 Résultats et discussion
4.8 Conclusion
6 Méthode de fusion de données
1 Introduction
2 Description de la procédure de fusion
2.1 Les différentes méthodes de combinaison
2.1.1 Combinaison linéaire
2.1.2 Combinaison linéaire dans le domaine logarithmique
2.1.3 Combinaison par la technique de vote
2.1.5 Combinaison par l’intermédiaire d’un MLP
3 Expérience et résultats
3.1 Corpus utilisés
3.2 Résultats et discussion
4 Conclusion et perspective
7 Conclusion générale
1 Extraction des paramètres acoustiques
2 Modèle d’entraînement et de reconnaissance
3 Méthodes de segmentation
4 Méthode de fusion de données
5 Conclusion Finale
6 Perspectives
Références
Télécharger le rapport complet