La production et la réception de la parole

INTRODUCTION

Le traitement numérique de la parole est une des disciplines qui a profité pleinement du progrès technologique des dernières décennies. Des algorithmes autrefois utopiques à cause du volume de calcul sont maintenant utilisés dans des applications complexes telles que le codage, le rehaussement ou la reconnaissance de la parole. Plusieurs de ces applications utilisent un module de détection d’activité vocale pour augmenter les performances et réduire le coût du traitement numérique. Un algorithme de détection d’activité vocale VAD a comme but de discriminer entre les régions où la parole est présente et les régions où la parole est absente dans le signal vocal analysé. Un algorithme de V AD fonctionne d’après une logique binaire. Il produit les valeurs logiques 1 ou 0 pour chaque segment ou trame de signal analysé, indiquant respectivement la présence ou l’absence de la parole.

Le VAD est un module important dans une large gamme d’applications concernant le traitement de la parole soit la reconnaissance, la transmission ou le rehaussement de la parole. Dans le domaine de reconnaissance de la parole, le V AD est utilisé pour localiser le début et la fin des régions à reconnaître. La précision du VAD utilisé se matérialise dans une amélioration du taux de reconnaissance. Pour les systèmes de transmission de la parole tels que la téléphonie cellulaire, le V AD est utilisé pour contrôler la transmission discontinue qui active la transmission uniquement pendant les périodes d’activité vocale. La transmission discontinue permet d’augmenter la capacité du système pour l’opérateur tandis que pour l’abonné prolonge l’autonomie du mobile [12]. Dans le cas du rehaussement de la parole les périodes de silence détectées par le V AD peuvent servir à actualiser le paramètre du bruit.

LA PRODUCTION ET LA RÉCEPTION DE LA PAROLE

Si l’on tente une définition, la parole est la capacité de l’être humain de communiquer la pensée par l’intermédiaire de sons articulés [1]. Dû à son importance, la parole a préoccupé depuis toujours les scientistes. Ainsi quelques-unes des sciences qui se préoccupent de l’étude de la parole ont déjà des centaines d’années. D’autres sont plus récentes, comme le traitement numérique de la parole, qui ne compte pas plus de quarante ans. La production de la parole commence avec la formulation de la pensée à être communiquée. La personne qui parle, suite à des processus neurologiques et musculaires, produit les fluctuations de la pression de l’air qui constituent le signal vocal. Celui-ci se propage dans le milieu, qui d’habitude est l’air, jusqu’aux oreilles de l’écouteur où il est reçu et, après une certaine analyse, il est envoyé vers le cerveau qui l’interprète.

Donc le signal vocal a une nature duale. Il peut être analysé de point de vue objectif comme étant une réalité physique ou de point de vue subjectif si on regarde la sensation psycho-acoustique produite au niveau du cerveau [2-6]. Comme on vient de voir, la production de la parole est un processus complexe, qui implique des phénomènes neurologiques, physiologiques et physiques. Dans un tel contexte l’étude de la parole est une science multidisciplinaire. Pour une meilleure compréhension, l’ingénieur qui travaille dans ce domaine devrait connaître les notions de base caractéristiques à chacune de ces disciplines qu’il rencontre dans son travail. Certaines des ces notions seront présentées dans les chapitres qui suivent.

L’appareil phonatoire humain

Techniquement parlant, la parole est une onde sonore produite par l’action volontaire et coordonnée des structures anatomiques qui forment l’appareil phonatoire humain. Ce processus est coordonné par le système nerveux central. Les sons produits sont analysés par rétroaction auditive pour assurer la qualité acoustique de la parole. Les muscles abdominaux actionnent sur le diaphragme, en poussant l’air des poumons vers la trachée artère. Au bout supérieur de celle-ci se trouve le larynx qui module le courant d’air sous la forme d’impulsions périodiques appliquées au conduit vocal. Celuici est formé d’un ensemble de cavités : la cavité pharyngienne suivie de la cavité buccale et en dérivation la cavité nasale. La luette, qui prolonge le bord postérieur du voile du palais, contribue à la fermeture des fosses nasales. Comme résultat, pendant la production de la parole, la cavité nasale peut être couplée soit totalement, soit partiellement, où même découplée de la cavité buccale. Autres organes anatomiques importants qui participent à la production des sons sont : la langue et les dents dans la cavité buccale, les narines dans la cavité nasale et les lèvres.

Traitement analogue versus traitement numérique Pour le traitement du signal, il existe deux techniques, l’approche analogique et la méthode numérique. Chacune a ses avantages et ses désavantages.

Numérisation du signal Les processeurs numériques du signal DSP sont des processeurs spécialisés qui essaient de surpasser les limitations présentées. Tout d’abord, les DSP sont travaillés avec des numéros. Pour pouvoir utiliser le DSP dans le traitement de signal il faut numériser le signal. Les deux opérations nécessaires sont l ‘échantillonnage et la quantification du signal. L’échantillonnage se réalise en respectant le théorème d’échantillonnage. En général, les échantillons sont prélevés périodiquement avec une période Te appelée période d’échantillonnage.

Quelle que soit la valeur choisie pour Te, le signal obtenu après échantillonnage sera toujours un signal à temps discret (ou échantillonné) et donc une approximation du signal analogique Xa(t). La quantification consiste dans une discrétisation dans l’amplitude. Si pour l’ échantillonnage les choses sont assez claires, la quantification du signal supporte plusieurs approches et on choisit la loi de quantification optimale en fonction de l’ application.

Entrée sortie dans un système de traitement numérique du signal

Les applications typiques qui utilisent le DSP demandent la présence d’un convertisseur AID qui a le rôle de transformer le signal analogique d’entrée dans un signal numérique qui serait traité par le DSP. Pour cette raison le signal d’entrée passe par un filtre passe bas qui élimine les fréquences supérieures à la fréquence de Nyquist Le convertisseur A/D réalise une approximation numérique du signal analogique réel. Par exemple on considère un ADC sur 8 bits et un domaine pour le signal d’entrée de± l.SV. La plus petite variation saisissable de 1′ ADC est le domaine divisé par 28 , donc 3/256 = 11.72 mV. Cette quantification produit des erreurs de jusqu’à± 5.86mV. Pour les valeurs d’entrée qui ne sont pas multiples entiers de 11.72 mV, on a une approximation à la sortie de l’ ADC. La quantification d’un signal analogue implique une perte d’information résultant de l’ambiguïté introduite par quantification.

On peut facilement déduire que plus le nombre de bits de l’ ADC est grand, plus l’erreur de quantification est petite. La qualité de sortie d’un ADC est mesurée par le RSBQ. Cette notion est présentée plus en détails dans le chapitre § 3.2 2. Le convertisseur Dl A a le rôle de transformer le signal numérique de sortie dans un signal analogique correspondant. Cette opération consiste dans une interpolation d’ordre 1 ou plus élevée. En pratique cela se fait en général à l’aide d’un filtre analogique nommé filtre de lissage. Le DSK utilisé contient le convertisseur AD533 [35] qui utilise une technologie sigmadelta et réalise une conversion sur 16 bits à une fréquence d’échantillonnage fixe de 8 kHz. La gamme dynamique du signal d’entrée est 3V p-p. Les connecteurs qui fournissent l’entrée et la sortie sont notés IN(J7) et OUT(J6), l’accès se fait avec un câble audio de 3.5 mm. La communication avec le processeur se réalise via le port MCBSPO. Le DSK dispose de 16 MB de mémoire SDRAM et 128 kB de mémoire ROM.

L’architecture des DSP

En adoptant l’architecture Harvard, les DSP présentent au moins deux espaces mémoire, données et programme, qui peuvent être appelées dans un seul cycle d’horloge. De plus, différents DSP ont des techniques ad-hoc pour réduire la bande passante : répéter une instruction Qusqu’à 256 fois), désactiver les interruptions. Les DSP les plus récents ont de la mémoire cache. Le système interne de buses et formé d’un bus d’adresse programme de 32 bits et un bus de données programme de 256 bits qui permet d’acheminer 8 instructions de 32 bits à la fois, deux buses d’adresse de données de 32 bits et quatre buses de données de 64 bits deux pour amener les données au processeur et deux pour stoker les données dans la mémoire.

Les unités fonctionnelles et les registres

Le CPU possède 8 unités fonctionnelles indépendantes groupées en deux blocs 1 et 2. Chaque bloc consiste en 4 unités spécialisées pour effectuer certaines opérations :
-l’unité M. pour les opérations de multiplication point fixe/flottant
-l’unité L. pour les opérations logiques et arithmétiques point fixe/flottant
-l’unité S. pour les opérations de branchement, de manipulation au niveau de bit et arithmétiques point fixe/flottant
-l’unité D. pour les opérations d’échange de données et arithmétiques point fixe seulement .

Chaque bloc contient un set de 16 registres de 32 bits d’usage général avec certaines restrictions. Les registres de AO à A16 appartiennent à l’unité 1 et les registres de BO à B 16 appartiennent à 1 ‘unité 2. Les registres AO, A 1, BO, B 1 et B2 sont utilisés pour réaliser les instructions conditionnalités. Les registres de A4 à A 7 et de B4 à B7 sont utilisés pour réaliser l’adressage circulaire. Les registres de AO à A9 et de BO à B9 excepté B3 sont des registres temporaires lorsque chacun des registres de A 1 0 à A 15 utilisé est sauvé et reconstitué pendant l’appel d’une procédure. Une valeur de 40 bits peut être représentée en utilisant une paire de registres, les 32 moins significatifs bits sont contenus dans le registre pair et les 8 bits qui restent dans les 8 bits moins significatifs du registre impair. Une technique similaire est utilisée pour représenter une valeur double précision sur 64 bits. Chaque bloc fonctionnel peut accéder les registres propres mais aussi les registres qui appartiennent au bloc opposé.

L’adressage

Le processeur TMS320C6711 supporte l’adressage linéaire et l’adressage circulaire. Le mode d’adressage le plus couramment utilisé est l’adressage indirect. On utilise l’un des registres d’usage général comme un pointer vers l’adresse mémoire pour déposer ou trouver la donné d’intérêt. On peut effectuer l’adressage indirect avec ou sans déplacement. L’adressage circulaire est implémenté matériel. Il est utilisé en conjonction avec deux buffers circulaires, disponibles via BKO et BKl. Les dimensions et les registres contenant les adresses des deux buffers BKO et BKl sont indiqués dans le registre de mode d’adressage AMR. On utilise l’adressage circulaire pour implémenter d’une façon plus efficace certains algorithmes très répandus dans le traitement numérique du signal tels que le filtrage numérique ou le calcul de la fonction d’ autocorrélation.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

ABSTRACT
REMERCIEMENTS
LISTE DE TABLEAUX
LISTE DE FIGURES
LISTE DES ABRÉVIATIONS
INTRODUCTION
CHAPITRE 1 LA PRODUCTION ET LA RÉCEPTION DE LA PAROLE
1.1 Préambule
1.2 L’appareil phonatoire humain
1.3 Eléments d’analyse acoustique du signal vocal
1.4 Mécanisme de la phonation
1.4.1 Phonation de sons voisés
1.4 .2 Phonation de sons non voisés
1.5 Caractéristique phonétique
1.6 Classification des phonèmes
1.6.1 Les voyelles
1.6.2 Les diphtongues
1.6.3 Les semi-consonnes
1.6.4 Les consonnes
1.6.4.1 Les consonnes fricatives
1.6.4.2 Les consonnes occlusives
1.6.4.3 Les consonnes nasales
1.6.4.4 Les consonnes liquides
1. 7 Modélisation mathématique de la production de la parole
1. 7.1 La propagation du son
1.7.2 Le modèle numérique de la production de la parole
1.8 Notions d’acoustique
1. 9 Propriétés acoustiques de l’ appareil auditif
CHAPITRE 2 CARACTÉRISTIQUES DU SIGNAL VOCAL NUMÉRIQUE
2.1 Introduction
2.2 Traitement court-terme du signal vocal
2.3 Énergie court-terme
2.4 Taux de passage par zéro
2.5 La fonction d’autocorrélation
2.6 La fonction de différence moyenne d’amplitude
2.7 Lisage médian et filtrage linéaire
2.8 Transformée de Fourier court-terme
2.8.1 Transformée de Fourier discrete
2.9 Analyse spectrale du signal vocal
2.9.1 Analyse spectrale non paramétrique
2.10 Le modèle autorégressif pour la production de la parole
2.10.1 La méthode d’autocorrélation
2.1 0.1.1 Algorithme de résolution pour la méthode d’ autocorrélation
2.10.2 La méthode de covariance
2.10.3 Le gain du modèle
2.10.4 Discussion des méthodes d’analyse
2.1 0.5 Analyse spectrale basée sur le modèle autorégressif
2.11 Propriétés statistiques du signal vocal
CHAPITRE 3 LA DÉTECTION D’ACTIVITÉ VOCALE
3.1 Préambule
3.2 L’effet du bruit dans un VAD
3.2.1 Bruits électriques
3.2.2 Le bruit de quantification
3.2.3 Le bruit ambiant.
3.3 Revue des algorithmes utilisés dans la détection d’activité vocale
3.3 .1 V AD basé sur l’ énergie court terme et le taux de passage par zéro
3.3.2 VAD basé sur un filtrage optimale de l’énergie court-terme
3.3 .2.1 Conception du filtre optimal
3.3.2.2 Algorithme de décision
3.3.2.3 Observations
3.3.3 VAD basé sur l’analyse de l’énergie court-terme en sous bandes de fréquence
3.3.3.1 Problématique
3.3.3.2 Définition des paramètres
3.3.3.3 Algorithme de décision
3.3.3.4 Observations
3.3.4 L’algorithme de VAD de l’annexe G.729 B de l’ITU
3.3.4.1 Extraction des paramètres
3.3.4.2 Initiation
3.3.4.3 Génération des paramètres
3.3.4.4 Décision initiale multicritères
3.3.4.5 Lissage de la décision initiale
3.3.4.6 Actualisation des paramètres du bruit de fond
3.3.5 VAD basé sur un modèle statistique
3.3.5.1 Le calcul du ratio de vraisemblance
3.3.5.2 L’estimation de la statistique du bruit de fond
3.3.5.3 L’algorithme de décision
3.3.5.4 Discussion
CHAPITRE 4 ALGORITHME DE DÉTECTION D’ACTIVITÉ VOCALE BASÉ SUR L’ANALYSE SPECTRALE
4.1 Justification du concept utilisé
4.1.1 Le coefficient de corrélation spectrale
4.1.2 La moyenne des RSB des sous-bandes
4.1.3 Le choix de la méthode de calcul du spectre du signal
4.1.4 Comportement du CS dans le cas du bruit
4.1.5 Comportement du CS dans le cas du signal vocal
4.2 Algorithme de décision
4.2.1 Filtrage médian
4.2.2 Décision statistique
4.2.3 L’utilisation du modèle de Markov binaire pour la décision
4.2.4 Initiation et actualisation des paramètres
4.3 Évaluation des performances
CHAPITRE 5 IMPLÉMENTATION DE l’ALGORITHME SUR LE PROCESSEUR NUMÉRIQUE DE SIGNAL TMS320C6711
5.1 Problématique
5.2 Considérations générales sur un processeur dédié au traitement numérique du signal
5.2.1 Traitement analogue versus traitement numérique
5 .2.2 Numérisation du signal
5.3 Entrée sortie dans un système de traitement numérique du signal
5.4 Architecture du système
5.4.1 L’architecture des DSP
5.4.2 Les unités fonctionnelles et les registres
5.4.3 L’adressage
5.5 Format de représentation des nombres
5.5.1 Erreurs dues à la représentation
5.5.2 Processeur point fixe versus point flottant
5.6 Les interruptions
5.7 Vitesse du processeur
5.7.1 Le parallélisme dans le processeur TMS320C6711
5. 8 Les instructions
5.9 Le Code Compose Studio
5.1 0 Réalisation pratique
5.10.1 Test de fonctions
5.10.2 L’implémentation sur DSP
5.1 0.3 Explication du programme
5.10.4 Méthodologie du test de l’implémentation sur DSP
5.11 Recommandations
CONCLUSION
ANNEXES 1 :Transformée de Fourier rapide
2 : Description du test statistique
3 : Théorie bayésienne de la décision
4 : Modèles de Markov
BIBLIOGRAPHIE