Définition d’un son
Un son est un phénomène physique qui fait réagir notre cerveau, c’est une sensation auditive provoquée par une onde acoustique. D’un point de vue physique, il s’agit d’une vibration qui se propage dans un milieu matériel solide, liquide ou gazeux. La perturbation associée à une onde sonore concerne la pression interne d’un milieu matériel. Ainsi plus la pression acoustique est importante, plus le volume sonore est grand. Depuis sa source, l’onde mécanique modifie la valeur de cette pression en chaque point de son trajet. Grâce à l’excitation mécanique, les molécules ayant reçu une impulsion se mettent en mouvement et entrent en collision avec les molécules voisines auxquelles elles communiquent le même mouvement. Une zone de compression est alors créée. À cause du choc, les premières reculent et dépassent leur position de repos, c’est pourquoi une détente succède toujours à une compression, tandis qu’une autre zone de compression se forme plus loin.
Il s’établit ainsi des oscillations. Le mouvement des molécules voisines étant limité pour les mêmes raisons, elles oscillent à leur tour. Petit à petit, ce mouvement se propage, créant ainsi une onde sonore à l’origine du son. L’onde sonore créée par le mouvement oscillatoire des particules se disperse autour de la source émettrice selon une sphère. Plus l’onde sonore s’éloigne de la source, plus la surface de la sphère augmente et plus l’intensité diminue. La transmission s’accompagne d’une dissipation d’énergie sous forme de chaleur, ce qui provoque l’amortissement de l’onde avec la distance. La propagation du son se fait à une vitesse dépendant des caractéristiques et des conditions de température et de pression du milieu (Matras [ 1 ]). On peut diviser les sons en deux catégories : les sons purs : ils correspondent à des mouvements d’oscillations des particules pures, c’est à dire une sinusoïdale parfaite. Un son pur est en fait constitué d’une fréquence unique. Il est très peu répandu dans la nature. les sons complexes : ils peuvent contenir des éléments périodiques, transitoires ou aléatoires.
Les éléments sonores périodiques (cas de la partie soutenue d’une note d’un instrument de musique) sont caractérisés par leur fréquence de base, dite fondamentale, et leurs harmoniques, multiples de la fréquence fondamentale. Les harmoniques déterminent le timbre d’un son et selon leur nombre et leur fréquence, on peut ainsi distinguer le violon de la flûte. Les éléments transitoires (cas de l’attaque d’une note d’un instrument de musique) sont plus difficilement caractérisables. Les éléments aléatoires (cas du bruit de la turbulence générée par un écoulement) sont souvent appelés bruit en traitement des signaux et sont caractérisés par leur contenu fréquentiel et leur densité spectrale de puissance. Un cas extrême est le bruit « blanc » dont le spectre contient toutes les fréquences avec la même densité spectrale de puissance (Matras [1]).
Différents types de parole
D’après Tetschner [5], les sons parlés peuvent être regroupés en deux catégories :
les sons voisés : on dit qu’un son est voisé lorsque les cordes vocales vibrent de façon quasi-périodique, c’est-à-dire lorsqu’il y a phonation. Le signal de parole est alors caractérisé par son pitch.
les sons non-voisés : on dit qu’un son est non-voisé s1 le phénomène de phonation est absent. Il ne possède donc pas de pitch. Une autre manière de classer les sons parlés est d’utiliser leurs caractéristiques articulatoires. Il existe deux unités phonétiques (Parsons [6]) :
les voyelles : elles sont produites en laissant passer l’air librement dans le conduit vocal et ceci sans obstruction d’aucune sorte. Elles provoquent la vibration des cordes vocales et font donc partie des sons voisés.
les consonnes : elles sont produites par une obstruction partielle ou totale du conduit, par exemple à l’aide du palais, de la langue, des lèvres … Elles peuvent être voisées ou non. Il existe une troisième façon de diviser les sons parlés : le modèle phonologique mais nous ne l’aborderons pas ici car cette classification est rarement utilisée dans le domaine de la détection d’activité vocale (Parsons [6]).
Avantages des ondelettes
Lorsqu’un signal est analysé dans le domaine des fréquences, il est nécessaire d’utiliser un outil mathématique pour effectuer cette opération. L’un des plus connus est la transformée de Fourier, définie pour un signal f(t) par: F(m) = r: f(t)e-jmtdt .Le problème de cette transformée est que le spectre obtenu n’est pas localisé temporellement. Cette technique ne s’applique donc qu’aux signaux stationnaires car ils évoluent peu au cours du temps. Malheureusement, la plupart des signaux réels sont non-stationnaires. La perte de l’information temporelle est alors dramatique car il n’est plus possible d’analyser les variations temporelles. La transformée de Fourier (TF) n’est donc pas adéquate pour l’analyse des signaux non-stationnaires, tels que la parole. L’utilisation de la transformée de Fourier à fenêtre glissante, ou Short Time Fourier Transform (STFT) est une solution possible à ce problème (Oppenheim et Schafer [7]). Cette transformée consiste à découper le signal en sections à l’aide d’une fenêtre temporelle, puis à appliquer la TF à chacune d’entre elles (Vetterli et Kovacevic [42]): F(m,r)= r: f(t)!f/(t-r)e-jmtdt Avec: ljl(t- r) :la fenêtre appliquée à l’instant r. Si ljl(t) est une gaussienne, on parle alors de transformée de Gabor. Il est à noter qu’on peut appliquer la TF à chacun des segments car la fenêtre de découpage étant en général relativement étroite, le signal sur cet intervalle temporel est considéré quasi-stationnaire.
Décomposition en paquets d’ondelettes selon l’échelle de Mel
La plage de fréquences audibles par l’homme est de l’ordre de 20 à 20000 Hz. Toutefois, il ne possède pas la même capacité à discriminer les sons sur toute cette plage. En effet, pour que l’oreille humaine entende deux sons distincts, leur différence de fréquences doit être plus ou moins grande selon qu’ils se trouvent dans les basses ou dans les hautes fréquences. Plusieurs études psychoacoustiques ont montré ce phénomène et ont abouti à des modèles perceptifs de l’ouïe. Un autre modèle très utilisé en reconnaissance de la parole est l’échelle de Mel (Umesh et AL [61]). Elle a été proposée en 1937 par Stevens, Volkman et Newman. L’homme a la faculté de discerner très facilement différents types de sons et par conséquent de distinguer la parole du bruit. L’utilisation d’un modèle perceptif de l’audition humaine dans l’algorithme de détection d’activité vocale semble donc très intéressante. C’est pourquoi le DAV INNES proposé ici repose sur l’échelle de Mel. Avant d’expliquer comment utiliser conjointement cette échelle et les ondelettes, il est important de présenter ses caractéristiques.
Entraînement du DAVINNES
Notre détecteur d’activité vocale basé sur les ondelettes, comme décrit précédemment, a été développé avec le logiciel MATLAB. Lors de nos recherches, les coefficients des règles de décision ont été déterminés manuellement à l’aide de la base d’expérimentation , et ceci afin que notre DAV soit efficace sur la plage de RSB visée, à savoir [5dB – 15dB]. Toutefois, pour s’assurer que le DAV INNES proposé dans ce rapport soit performant dans la majorité des milieux industriels, nous avons mis au point une procédure d’ajustement des seuils que nous avons par la suite entièrement automatisée. Ainsi, si un ajustement des coefficients des règles de décision s’avère nécessaire, il suffit de lancer cet algorithme pour les déterminer. Ceci rend notre système très facile à utiliser.
Cette phase est appelée l’entraînement et c’est ce une nous allons présenter dans cette partie. Il est à noter qu’une fois entraîné, le DA V INNES, basé sur les ondelettes, peut alors fonctionner dans l’environnement désiré sans aucune modification supplémentaire. Pour réaliser l’entraînement, il faut tout d’abord enregistrer un échantillon représentatif du bruit rencontré. De même, il est nécessaire de définir la plage de rapport signal à bruit dans laquelle le DAV va fonctionner: [RSBmin – RSBmax].
CONCLUSION
Au cours de ce mémoire, nous avons étudié la détection d’activité vocale dans les milieux industriels bruités. Le but de notre travail était de mettre au point un DA V efficace dans ce type d’environnements et pour des rapports signal à bruit compris entre 5dB et lSdB, afin que, par la suite, il puisse être utilisé au sein des bouchons d’oreille « intelligents », système développé par la compagnie SONOMAX. Pour cela, deux approches ont été abordées : l’adaptation d’une méthode existante et la conception d’un DAV à partir de la théorie des ondelettes. Nos recherches nous ont permis de tirer certaines conclusions et finalement d’aboutir à deux algorithmes intéressants.
Première approche Pour cette première approche, nous avons tout d’abord étudié quelques-unes des méthodes de détection d’activité vocale proposées dans la littérature. Nous avons pris connaissance des méthodes de base et avons vu leur mise en application à travers quatre DA V utilisés dans des codeurs de parole : le Pan-European, le G729.B et l’AMR option 1 et 2. De cette étude, nous avons pu constater que la majorité des procédures existantes ont été développées pour les télécommunications. D’autre part, la comparaison de ces quatre DA V a montré que pour un tel usage le DA V de l’AMR option 1 offre le meilleur compromis entre complexité et robustesse. Nous n’avons pas pu utiliser cette conclusion pour déterminer notre premier sujet d’étude car il n’est pas possible de prévoir le comportement de ces DAV dans les environnements industriels dont le type de bruits et les rapports signal à bruit sont différents de ceux que l’ on rencontre dans les télécommunications.
Nous avons donc choisi de nous baser sur le G729.B pour réaliser la première étape de ce projet car c’est la méthode la mieux documentée et aussi la plus évidente à mettre en œuvre. Compte tenu de son comportement dans notre milieu d’étude, nous avons dû apporter des modifications. À l’aide de nos recherches, nous avons mis au point un ensemble de règles et de coefficients pour trois RSB : 5dB, 10dB et 15dB. Nous avons obtenu des résultats satisfaisants pour la quasi-totalité des environnements testés. Nous avons pu constater que plus le RSB utilisé pour l’ajustement du DAV est grand, meilleures sont les performances mais plus la plage de RSB de fonctionnement est étroite. Dépendant de l’application, il est donc possible de choisir entre les trois ensembles de règles et de coefficients.Pour éviter ce choix, une amélioration possible serait d’insérer un estimateur du RSB dans l’algorithme afin de basculer d’un ensemble à l’autre quand cela est nécessaire et ainsi d’utiliser systématiquement le plus adapté à la situation.
Deuxième approche La deuxième approche a consisté à concevoir un DA V à partir de la théorie des ondelettes. L’algorithme de détection d’activité vocale que nous avons mis au point et qui repose sur ce puissant outil de traitement des signaux a été nommé le DA V INNES. Il intègre un modèle perceptif de l’ oreille humaine grâce à l’utilisation de la décomposition en paquets d’ondelettes selon l’échelle de Mel. La prise de décision s’effectue en fonction de l’énergie, caractéristique classique utilisée par les DAV, et du paramètre du seuil de Jonhstone et Silverman. Ce seuil est normalement utilisé dans le dé bruitage de la parole pour indiquer quand et comment dé bruiter. Il s’agit, à notre connaissance, de la première fois qu’il est utilisé comme critère de décision. Les premiers résultats pratiques ont montré que ce paramètre est intéressant pour la détection d’activité vocale puisqu’il permet de distinguer la parole bruitée du bruit seul lorsque le RSB est faible.
L’utilisation conjointe de ces deux caractéristiques permet à notre DAV d’être robuste sur [5dB- 15dB] car l’énergie est, elle, plus propice à la discrimination parole/bruit lorsque le RSB est plus grand. Il est à noter que, comme pour le G729.B de la première approche, le DAV INNES a l’avantage de laisser passer tout le signal lorsque le RSB est trop faible pour obtenir un fonctionnement correct. Ceci évite des pertes conséquentes dans le signal de parole. Afin d’obtenir des performances élevées pour chaque environnement industriel, nous avons mis au point une procédure automatique d’ajustement du DAV. À l’aide d’une recherche des nœuds et des étages à fort pouvoir discriminatoire parole/bruit, elle détermine les règles de décision les plus adaptées à la situation. L’automatisation de cette procédure rend notre système très facile à utiliser. Les résultats expérimentaux ont montré que lorsque l’ajustement s’effectue sur [5dB- 15dB], les performances du DAV INNES, basé sur les ondelettes, sont très satisfaisantes pour tous les milieux industriels testés et pour toute la plage de RSB visée.
Nos objectifs ont donc été atteints. Nous avons aussi constaté que la plage de RSB de fonctionnement de ce DAV est proche de celle utilisée pour l’entraînement et que plus cette dernière est étroite, meilleures sont les performances. Du point de vue de la mise en œuvre pratique, nous recommandons donc d’entraîner le DA V INNES dans le même environnement que celui dans lequel il fonctionnera et pour un intervalle de RSB étroit centré sur le rapport signal à bruit moyen rencontré, ceci dans le but d’atteindre des performances accrues .
|
Table des matières
SOMMAIRE
ABSTRACT
REMERCIEMENTS
LISTE DES TABLEAUX
LISTE DES FIGURES
LISTE DES ABRÉVATIONS ET SIGLES
INTRODUCTION
CHAPITRE 1 -Notions de base
1.1 Laparole
1.1.1 Définition d’un son
1.1.2 Définition de la parole
1.1.3 Différents types de parole
1.2 Le traitement numérique des signaux
1.3 La détection d’activité vocale
CHAPITRE 2- Les méthodes de base de la détection d’activité vocale et leur mise en application
2.1 Les méthodes de base
2.1.1 La mesure de la distance LPC
2.1.2 Le seuillage de l’énergie
2.1.3 Le seuillage adaptatif de l’énergie
2.1.4 Le taux de passages par zéro
2.1.5 L’estimateur de la périodicité par les moindres carrés
2.2 La mise en application des méthodes de base
2.2.1 Le DA V du Pan-European
2.2.2 Le DA V du G729
2.2.3 Les DAV de l’AMR
2.3 Comparaison des méthodes de base et de leur mise en application
CHAPITRE 3- Le détecteur d’activité vocale G729.B
3.1 Algorithme détaillé du G729.B
3.2 Ajustements du G729.B pour des milieux industriels bruités
3.2.1 Base d’expérimentation
3.2.2 Ajustements de l’algorithme
3.3 Résultats pratiques obtenus avec le G729.B ajusté
3.3.1 Base de validation
3.3.2 Résultats pratiques
3.4 Conclusion et améliorations possibles
CHAPITRE 4 – Les ondelettes
4.1 La théorie des ondelettes
4.1.1 Avantages des ondelettes
4.1.2 La transformée en ondelettes continue
4.1.3 La transformée en ondelettes discrète
4.1.4 L’analyse multirésolution
4.1.4.1 Les bases théoriques de l’analyse multirésolution
4.1.4.2 De la théorie à la pratique : Algorithme récursif de Mallat
4.1.4.3 La réalisation pratique de l’analyse multirésolution
4.1.4.4 Exemples de fonctions d’ondelettes et d’échelles
4.1.5 Les paquets d’ondelettes
4.2 Les DA V ondelettes proposés dans la littérature
4.2.1 L’algorithme de Stegmann et Schroder
4.2.2 L’algorithme de Chen et Wang
CHAPITRE 5- Le détecteur d’activité vocale basé sur les ondelettes
5.1 Notions théoriques
5 .1.1 Décomposition en paquets d’ondelettes selon 1′ échelle de Mel
5 .1.2 Paramètre du Seuil de J ohnstone et Silverman
5.1.3 Énergie
5 .1.4 Moyenne et variance
5.2 Description détaillée de l’algorithme du détecteur d’activité vocale basé sur les ondelettes
5.3 Raisons d’un tel algorithme
5.3.1 Base d’expérimentation
5.3.2 Pourquoi utiliser le PSJS et l’énergie comme caractéristiques?
5.3.3 Pourquoi utiliser une ondelette Daubechies d’ordre 8?
5.4 Entraînement du DA V INNES
CHAPITRE 6- Résultats pratiques du détecteur d’activité vocale basé sur les ondelettes
6.1 Bases d’entraînement et de validation
6.2 Résultats pratiques
6.2.1 Performances
6.2.2 Explication du phénomène
6.2.3 Influences sur le phénomène
6.3 Généralisation du système
CONCLUSION
BIBLIOGRAPHIE
Télécharger le rapport complet