Généralités sur les sons de la parole
Modélisation du système vocal
Introduction :
La parole est un signal réel, continu, d’énergie finie, non stationnaire.sa structure est complexe et variable dans le temps : tantôt pse udo-periodique pour les sons voisés, tantôt aléatoire pour les sons non voisés.
Le traitement du signal vocal a pour but de fournir une représentation moins redondante de la parole que celle obtenue par l’onde temporelle tout en permettant une extraction précise des paramètres significatifs.les principauxproblèmes posés en traitement du signal proviennent de la dualité source /bruit de l’appareille phonatoire, de la grande dynamique et de la variété des voix ainsi que des variationsrapides de la parole.
La Modélisation
L’analyse de la parole est une étape indispensable à toute application de synthèse, de codage, ou de reconnaissance. Elle repose en général sur un modèle. Celui-ci possède un ensemble de paramètres numériques, dont les plagesde variation définissent l’ensemble des signaux couverts par le modèle.Pour un signal et un modèle donné, l’analyse onsistec en l’estimation des paramètres du modèle dans le but de lui faire correspondre le signal analysé.Pour ce faire, on met en œuvre un algorithme d’ analyse, qui cherche généralement à minimiser la différence, appelée erreur de modélisation, entre le signal original et celui qui serait produit par le modèle s’il était utiliséen tant que synthétiseur.Il existe de nombreux modèles de parole. On distingue les modèles articulatoires, les modèles de production, et les modèles phénoménologiques :
• modèles articulatoires :
Les premiers réalisent une simulation numérique du mécanisme de phonation.
Leurs paramètres sont essentiellement de nature articulatoire (position de la langue, ouverture des lèvres,…). La parole est décrite comme le résultat du passage d’un flux d’air à travers un ensemble de tubes de section variable.
L’analyse par modèle articulatoire, également appelée inversion acoustique articulatoire, est un problème complexe. Les algorithmes font intervenir les équations de la mécanique des fluides.
• modèles de production :
A la différence des précédents, les modèlese dproduction ne cherchent à reproduire que le schéma de principe du mécanisme phonatoire,par le biais de son équivalent électrique. On y décrit la parole comme le signal roduitp par un assemblage de générateurs et de filtres numériques. Les paramètres de ces modèles sont ceux des générateurs et filtres qui les constituent.
• modèles phénoménologiques :
Enfin, les modèles phénoménologiques cherchentà modéliser le signal de parole sans se soucier de la façon dont il a été produit. Les algorithmes d’analyse qui y sont associés se rapportent par conséquent plus au traitement dusignal en général qu’au traitement de la parole. Les modèles basés sur L’analyse de Fourieren est un exemple.
Le modèle physique de la production de la parole
Le processus de production de la parole est un mécanisme très complexe qui repose sur une interaction entre les systèmes neurologique et physiologique. La parole commence par une activité neurologique. Après que soient survenues l’idée et la volonté de parler, le cerveau dirige les opérations relatives à la mise en action des organes phonatoires. Le fonctionnement de ces organes est bien, quant à lui , de nature physiologique.Une grande quantité d’organes et de muscles entrenten jeu dans la production des sons des langues naturelles. Le fonctionnement de l’appareil phonatoire humain repose sur l’interaction entre trois entités : les poumons, lelarynx, et le conduit vocal.Le larynx est une structure cartilagineuse qui a notamment comme fonction de réguler le débit d’air via le mouvement des cordes vocales. Leconduit vocal s’étend des cordes vocales jusqu’aux lèvres dans sa partie buccale etjusqu’aux narines dans sa partie nasale.La parole apparait physiquement comme une variation de la pression de l’air causée et émise par le système articulatoire. L’air des poumons est comprimé par l’action du diaphragme. Cet air sous pression arrive ensuite au niveau des cordes vocales. Si les cordes sont écartées, l’air passe librement et permet la production de bruit. Si elles sont fermées, la pression peut les mettre en vibration et l’on obtient un son quasi périodique. L’air mis ou non en vibration poursuit son chemin à travers le conduit vocal et se propage ensuite dans l’atmosphère. La forme de ce conduit est déterminée par la position des articulateurs tels que la langue, la mâchoire, les lèvres ou le voile du palais, détermine le timbre des différents sons de la parole. Le conduit vocal est ainsi considéré comme un filtre pour les différentes sources de production de parole telles que les vibrations des cordes vocales ou les turbulences engendrées par le passage de l’air à travers les constrictions du conduit vocal. Le son résultant peut être classé comme voisé ou non voisé selon que l’air émis a fait vibrer les cordes vocales ou non.
Figure 10 : Le modèle physique de la production de parole
Nonstationarité
Il est essentiel de rappeler que le signal vocal n’est pas un signal stationnaire : le conduit vocal se déforme d’une façon continue et les paramètres du modèle sont donc variables dans le temps.
Représentation numérique du signal vocal
La représentation numérique du signal de la parole implique :
un échantillonnage effectué à une fréquence Fe compatible avec les exigences du théorème de Shannon :la perte d’information entre un le signal discret correspondant est nulle si et seulement si la fréquence d’échantillonage est supérieure ou égale au double de la fréquence la plus haute contenue dans ce signal.une quantification de chaque échantillon avec un pas de quantification en rapport avec la précision souhaitée. Un codage approprié selon la nature du problème technique particulier.
Analyse temporelle a court terme
Des mesures simples (énergie, taux de passage par zéro et fonction d’autocorrélation) à court terme sur le signal de parole donnent déjà beaucoup d’information. L’évolution de l’énergie à court terme indique la succession des voyelles (très énergétiques) et des consonnes (d’énergie moindre).le comptage et le tracé d’histogrammes des passages par zéro du signal traduisent, bien que grossièrement,le contenu spectral. L’estimation de période fondamentale peut être réalisée a l’aide la fonction d’autocorélation.
Analyse spectrale à court terme
La méthode spectrale est fondée sur une décomposition fréquentielle du signal sans connaissance a priori de sa structure fine.Dans certaines mesures, ce choix peut être considéré comme dépendant de la structure de la parole.Pratiquement, on utilise des versions numériques de ces méthodes, la TFD (Transformée de Fourier Discrète) avec un algorithme de calcule rapide(FFT).en principe, le concept de la TFD ne s’applique qu’a un signal s tationnaire à durée limitée par une fenêtre temporelle.
Transformer de Fourier a court terme
Les caractéristiques spectrales du signal de laparole a analyser évoluent avec le temps. On cherche une représentation temps fréquence adaptée : c’est pourquoi on introduit la notion de la transformer de Fourier a court terme :
, ∑ . . ⁄ (II.6)
Il s’agit d’une opération de modulation du signal x(n) par l’exponentielle complexe à la fréquence (-k/N) suivie d’une opération de convolution.la transformes de Fourier discrète a court terme s’interprète comme une translation du spectre du signal x(n) suivie par un filtrage caractérisé par la réponse en fréquence H(ω) (H(ω) est la fonction de transfert d’une fenêtre temporelle).
Lorsqu’on utilise une fenêtre rectangulaire,il s’agit d’un filtre passe-bas. Il en est de même pour tout autre type de fenêtre (Hamming, Kaiser,..).
Ce filtre est d’autant plus sélectif que la fenêtre d’analyse est longue.la résolution fréquentielle est donc directement fonction de la ongueurl de la fenêtre. Le choix de N est le résultat d’un compromis car on désire généralement avoir aussi des fenêtres courtes pour pouvoir analysé des phonèmes courts.
Si l’on met en parallèle N filtres de même réponse H(ω) translatés en fréquences, on obtient un banc de filtre d’analyse ou de N est la longueur de la fenêtre.
Spectrogramme
Dans la plus part des cas, des analyses successives sur une durée limitée de signal s’obtient en prélevant N échantillons de parole à ’aidel d’une fenêtre temporelle glissante.
Les propriétés de la transformée de Fourier acourt terme dépendent beaucoup du choix de la fonction fenêtre. La longueur de la fenêtre doit d’une part être suffisante pour assurer une bonne résolution fréquentielle ; d’autre part elle doit être limitée si l’on veut suivre fidèlement l’évolution dans le temps du spectre vocal.
Ces deux exigences sont contradictoires.
Pour suivre mieux les transitoires de la parole, il est nécessaire de prendre des fenêtres temporelles avec recouvrement. Mais il demeure malgré tout un effet de lissage temporel du a la longueur de cette fenêtre ainsi qu’une distorsion du spectre dépendant de fenêtre utilisé.
En générale, on prend N=256 ou 512, et le ecouvrement est de moitié soit N/2=128 ou 256.
En pratique, cette méthode est très souvent utilisée pour confectionner un spectrogramme numérique.
Conclusion :
Dans ce qui précède nous avons étudié les caractéristiques temporelle et spectrale à court terme de la voix et le modèle physique de la production de la parole, ce contexte est indispensable pour la compréhension de mécanisme dela production de parole.
|
Table des matières
Introduction Générale
Chapitre I Généralités sur les sons de la parole
1. Introduction
2. Production de la parole
2.1. Aperçu anatomique [1] [2]
2.1.1. Partie sous glottique [3]
2.1.2. Partie glottique [3]
2.1.3. La partie supraglottique[3]
2.2. Caractéristiques de la production de la parole [2’]
2.3. Mécanisme de la phonation [1]
2.4. Caractéristiques phonétiques [4’]
2.4.1. Définition du phonème [1] [2] [4]
2.4.2. Classification des phonèmes de la langue française [4’]
2.4.3. Les résonnances [7’] [3] [5’]
2.4.3.1. Les résonateurs
2.4.3.2. Organes dont dépend la taille des résonateurs
2.4.3.3. Les muscles du pharynx
2.4.3.4. Le larynx
2.4.3.5. Le voile du palais
2.4.3.6. Les lèvres
2.5. Description acoustique des sons de la parole
2.5.1. Introduction
2.5.1.1. Les voyelles [3’]
A). Définition
B). Le mode d’articulation
C). Lieu d’articulation
2.5.1.2. Les consonnes [3’]
A). Définition
B). Le mode d’articulation
C). Lieu d’articulation
2.5.1.3. Les semi voyelles [3’]
3. Conclusion
Chapitre II Modélisation du système vocal
1. Introduction
2. La Modélisation [5]
2.1. Le modèle physique de la production de la parole [21].
3. Nonstationarité [5]
4. Représentation numérique du signal vocal [5]
5. Analyse temporelle a court terme [3] [6]
5.1. Energie et puissance à court terme [4]
5.2. Amplitude moyenne à court terme [3]
5.3. Taux de passage par zéro [4]
5.4. Fonction d’auto-corrélation à court terme [4]
6. Analyse spectrale à court terme [3] [6]
6.1. Transformer de Fourier a court terme [3] [11]
6.2. Spectrogramme [4]
7. Conclusion
Chapitre III Les dispositifs d’acquisition du signal vocal
1. Introduction
2. Définition de la Carte son [8′]
3. Les connecteurs de la carte son [9’] [[8′]
4. Le format WAVE [9’] [8′]
4.1. Format [9’] [8′]
4.2. Descriptif du son [9’]
4.2.1. Datas [9’]
5. Audacity [9]
5.1. Interface d’AUDACITY [9]
6. La base de donné [11’]
6.1. Définition
6.2. Utilité d’une base de données [10]
7. Conclusion
Chapitre IV Caractéristiques Spectro-Temporelle du signal vocal multiparamétrique
1. Introduction
2. L’analyse acoustique [7]
2.1. La hauteur son harmonique [8]
2.2. L’intensité sonore [8]
2.3. La durée [8]
2.4. Le timbre [8]
2.5. La fréquence fondamentale F0 [7]
2.6. Les Formants [6’]
3. Les mesures de stabilité fréquentielle [7]
3.1. La perturbation à court terme le jitter
3.2. Les perturbations à moyen terme [7]
3.2.1. La mesure de stabilité de l’intensité le shimmer[7]
3.2.2. Le rapport signal-bruit [7]
4. L’évaluation de la fonction phonatoire [7]
4.1. Le temps maximum de phonation [7]
4.2. La pression sous-glottique phonatoire [7]
5. Les altérations observées en cas de pathologie cordale bénigne [7]
6. Conclusion
Chapitre V Protocole expérimentale
1. Introduction
2. Conception de la base de données Télémédecine
2.1. Conception de la base de données
3. Sélection des Clés primaires
4. L’implémentation de la base de données avec le SGBD
4.1. Système de Gestion de Bases de Données[13]
4.1.1. Définitions
4.1.2. Fonctions des SGBD
4.2. Qu’est ce que MySQL?
4.3. Administration avec l’outil web phpMyAdmin
4.3.1. Création de la base de données
4.3.2. La création des tables
5. La réalisation d’un serveur de Télémédecine [10]
5.1. Le serveur web
5.2. L’implémentation du serveur Télémédecine
5.2.1. Interpréteur PHP
5.2.2. L’outil WAMP
6. Aperçu du site web
A. La page d’accueil
B. La page de la connexion
C. La page d’accueil administrative
D. La page du formulaire du patient
E. La page de visualisation
F. La page coordonné d’un patient
G. La page des administrateurs
H. La page des patient rechercher avec (ID 1)
I. La page de tous les patients enregistrés dans la base de données
7. Les algorithmes de l’interface
7.1. L’algorithme de la TFD CT
7.1.1. Explication
7.1.2. Relation de définition de TFD CT
7.2. l’algorithme de l’interface
8. Conclusion
Chapitre VI Evaluation clinique des résultats
1. Introduction
2. Présentation de l’interface graphique
3. Validation clinique des résultats
3.1. sujets sains
3.1.1. le premier sujet (masculin)
3.1.2. le deuxième sujet (femme)
3.1.3. Le 3eme sujet (femme)
3.2. Sujets atteint d’une pathologie des cordes vocales
3.2.1. le premier sujet (masculin)atteint d’un cancer du larynx
3.2.2. le 2eme sujet (masculin) atteint d’un polype inflammatoire
3.2.3. Le 3eme sujet (masculin) atteint d’un cancer du larynx
3.2.3.1. Premier enregistrement
3.2.3.2. 2eme enregistrement (2 mois après)
4. Récapitulation des résultats
5. Interprétation des résultats
5.1. Sujets sains
5.2. sujets malades
6. Discussion diagnostique
6.1. Les sujets sains
6.2. Les sujets malades
7. conclusion
Conclusion générale et perspectives
Bibliographie
Neto-graphie
Liste des Figures
Liste des Tableaux
Annexe
Résumé
Télécharger le rapport complet