Télécharger le fichier pdf d’un mémoire de fin d’études
LÕŽlectroglottographie (EGG)
LÕŽlectroglottographie consiste en un appareil de mesure de lÕadmittance Žlectrique au niveau du larynx [Fabre, 1957]. Deux Žlectrodes sont placŽes sur le cou du locuteur au niveau de la glotte (comme prŽsentŽ sur la Þgure 1.5c) et mesurent lÕadmittance qui varie en fonction de lÕŽloignement des plis vocaux, entre autres. Ce signal est plus difficilement exploitable que des signaux vidŽos mais a lÕavantage de nŽcessiter une instrumentation beaucoup plus lŽg•re. Les signaux obtenus sont prŽsentŽs sur la Þgure 1.4. LÕEGG est le signal supŽrieur, sa dŽrivŽe (DEGG) est le signal infŽrieur.
Si lÕavantage va ˆ la facilitŽ de mise en Ïuvre, le fait dÕavoir une mesure sur une seule dimension ne permet pas dÕavoir une conÞance aveugle dans les rŽsultats. La prŽsence de mucus ˆ lÕintŽrieur du larynx, par exemple, peut modiÞer les courbes obtenues sur EGG et donc les mesures qui en dŽcoulent. La mesure est, en outre, sensible au positionnement des capteurs : des mŽthodes EGG ˆ 3 dimensions ont ŽtŽ dŽveloppŽes [Rothenberg, 1992] mais restent peu courantes.
La dimension dÕeffort vocal
LÕintensitŽ per•ue du signal vocal ne dŽpend pas uniquement de la pression sonore brute Žmise par le locuteur. En effet, le contenu spectral du signal joue aussi un r™le important ˆ cet effet, et diffŽrents mŽcanismes entrent en jeu lorsque le locuteur cherche ˆ augmenter lÕintensitŽ per•ue de sa voix :
Le premier est lÕadaptation du conduit vocal pour augmenter le rendement de la production. Ce phŽnom•ne est tr•s prŽsent chez les chanteurs lyriques, qui apprennent ˆ ajuster la frŽquence des rŽsonateurs, causant le formant du chanteur [Winckel, 1954]. Cet effet augmente lÕŽnergie du signal sans avoir besoin de modiÞer le dŽbit glottique (en dehors de la possibilitŽ dÕinteractions). Le deuxi•me joue sur la conÞguration des plis vocaux. LÕintensitŽ per•ue est aussi fonction de la teneur en hautes frŽquences du signal. Plus le spectre dÕun signal est riche en hautes frŽquences et plus il est per•u comme Žtant « fort » [Fletcher et Munson, 1933]. Ce principe se retrouve lorsquÕun locuteur produit un effort vocal important, en « poussant » sur la voix pour augmenter lÕintensitŽ per•ue, notamment aÞn de la faire porter plus loin [TraunmŸller et Eriksson, 2000]. Une stratŽgie permettant cet effort est lÕaugmentation de la ten-sion de plis vocaux qui a pour effet de rendre plus « pointue » la forme de la dŽrivŽe de lÕODG, aug-mentant par lˆ m•me son asymŽtrie. On retrouve de tels rŽsultats dans [C.Sapienza et al., 1998] et [Guruprasad et Yegnanarayana, 2009].
La dimension de raucitŽ
Une voix rauque, ou rugueuse, comme une surface, a un aspect non lisse, irrŽgulier. Elle est souvent associŽe ˆ un « chat dans la gorge » ou au fait de « gratter », toujours dans cette idŽe dÕirrŽgularitŽs du signal. Ces irrŽgularitŽs sont causŽes par des micro-variations du signal en temps et en amplitude [Kreiman et Gerratt, 2010] : les apŽriodicitŽs structurelles. La premi•re est le jitter : la variation de frŽquence pŽriode ˆ pŽriode. La deuxi•me est le shimmer : la variation dÕamplitude pŽriode ˆ pŽriode.
LÕapparition de mucus, lÕirrŽgularitŽ du ßux dÕair issu des poumons ou encore des non-linŽaritŽs au niveau de la structure du mouvement des plis vocaux sont ˆ lÕorigine de tels phŽno-m•nes. Une voix considŽrŽe saine prŽsente toujours du « jitter » et du « shimmer » mais en faible quantitŽ [Meike et al., 2010]. Dans les cas extr•mes, ces apŽriodicitŽs peuvent aussi avoir pour origine des dysfonctionnements de lÕappareil vocal (comme cÕest le cas pour la dyplophonie – doublement de la frŽquence fondamentale).
La dimension de voisement
Une derni•re dimension tr•s importante joue sur la qualitŽ vocale : il sÕagit du voisement du signal. On dŽcrit le voisement comme la mise en vibration des plis vocaux. Ce mouvement nÕest pas nŽcessaire pour produire de la voix intelligible, nous cherchons ˆ lÕŽviter dans le cas du chuchotement. Longtemps considŽrŽ comme un trait binaire « voisŽ / non voisŽ », des Žtudes [de Krom, 1993, Jackson et Shadle, 2001, dÕAlessandro et al., 1998] ont montrŽ que cette dimen-sion Žtait plus Þne que cela.
Lors de la phonation, une fermeture incompl•te de la glotte laisse passer un dŽbit dÕair qui va causer des turbulences dans le conduit vocal. Ces turbulences se traduisent par un bruit alŽatoire qui sÕajoute au signal harmonique du mouvement des plis vocaux. Le rapport entre lÕŽnergie de chacune de ces contributions devient alors la quantitŽ de voisement du signal. Une voix forte et claire sera gŽnŽralement tr•s voisŽe, alors quÕune voix douce, parfois faible, (sans pour autant •tre chuchotŽe, comme cÕest le cas du murmure) aura un voisement bas.
La dŽtection des instants de fermeture glottique
Les instants de fermeture glottique (GCI) sont les ŽvŽnements caractŽristiques permettant la dŽtermination de la frŽquence fondamentale, leur estimation permet dÕobtenir facilement et prŽcisŽment la frŽquence fondamentale du signal mais aussi de rŽaliser des analyses dites pitch synchrones (en synchronie avec la frŽquence fondamentale du signal). Ainsi, avant m•me de chercher ˆ estimer la source du signal, en extraire les instants de fermeture glottique semble une prioritŽ. La connaissance de ces instants permet notamment dÕinformer certaines techniques dÕestimation du dŽbit glottique comme il sera vu ˆ la section suivante.
Au cours dÕun cycle glottique, le point de rapprochement maximal entre les plis vocaux est un instant tr•s caractŽristique. La rupture (plus ou moins brutale) du ßux dÕair provoque un afflux ŽnergŽtique ˆ la fois important et bref, dont la dŽrivŽ seconde est sensiblement comparable ˆ une impulsion de Dirac ayant les propriŽtŽs ŽnoncŽes dans lÕŽquation 2.1. δ(t) = 0 pour t ∈ R∗ et ∞ δ(t)dt = 1 (2.1) −∞.
Ainsi, la majeure partie des mŽthodes cherchant ˆ estimer des GCI se penchent sur lÕestimation dÕun point caractŽrisŽ par des changements dans les propriŽtŽs du si-gnal [Ananthapadmanabha S. et Yegnanarayana, 1979, Cheng et OÕShaughnessy, 1989, Moulines et R., 1990, Smits et Yegnanarayana, 1995] : quantitŽ de passage par zŽros, dif-fŽrences entre les phases, propriŽtŽs statistiques. On sÕintŽresse aussi ˆ la prŽsence dÕune Žnergie concentrŽe en un point notamment par lÕalignement des phases. Dans tous les cas, on cherche donc un point dans le temps provoquant un changement important dans le signal. Apr•s avoir montrŽ la difficultŽ de retrouver ces points par application directe du mod•le source/Þltre linŽaire, trois mŽthodes seront prŽsentŽes
1. une approche basŽe sur lÕanalyse de la pente de la phase.
2. une approche basŽe sur lÕanalyse temps frŽquence des signaux de parole.
3. une approche basŽe sur un Þltrage en frŽquence zŽro [Murty et al., 2009].
Dans un souci de concision, seules ces trois mŽthodes seront abordŽes, car elles rŽsument bien les approches utilisŽes pour contourner la difficultŽ de lÕestimation directe des GCI sur le signal de parole. Certaines mŽthodes utilisant ces approches pratiquent une estimation contrainte, notam-ment des instants de fermeture glottique [Degottex et al., 2010], ces mŽthodes seront abordŽes en m•me temps que lÕestimation des param•tres du dŽbit glottique. En effet, on peut considŽrer que le GCI fait partie de ces param•tres, mais dans bien des cas (tout comme la frŽquence fon-damentale) il fait aussi partie du jeu dÕinformations nŽcessaires ˆ une bonne analyse des signaux de parole.
MŽthode na•ve : rŽsidu de la prŽdiction linŽaire
Par dŽÞnition du mod•le linŽaire de production vocale, dŽconvoluer le signal de parole par une estimŽe des fonctions de transfert de la glotte et du conduit vocal devrait permettre de trouver les instants dÕexcitation glottique. LÕŽquation 2.2 montre comment arriver ˆ retrouver le train dÕimpulsions de TF δF0 par dŽconvolution (division spectrale) du signal par les Þltres de fonction de transfert G et F respectivement pour la glotte et le conduit vocal. Un telle dŽconvolution peut •tre opŽrŽe par prŽdiction linŽaire, prŽsentŽe en section 2.2.1. S = GFδ F0 δF0 = S (2.2).
La Þgure 2.1 illustre un tel principe, o• le rŽsidu de la prŽdiction linŽaire du signal vert est donnŽ en bleu. On constate sur cette Þgure que seuls les instants o• lÕexcitation est bien marquŽe peuvent servir ˆ la dŽtection de GCI. De plus, des excitations secondaires peuvent apparaitre sur le rŽsidu rendant dÕautant plus difficile la localisation des instants dÕexcitation. Les travaux publiŽs dans [Ananthapadmanabha S. et Yegnanarayana, 1979] ont notamment traitŽ cette question et ont montrŽ que de nombreuses ambigu•tŽs apparaissaient lors de lÕanalyse directe du rŽsidu. Parmi les mŽthodes proposŽes pour contourner ces ambigu•tŽs : une analyse des propriŽtŽs de la phase du rŽsidu.
La prŽdiction linŽaire (LPC) pour lÕestimation du dŽbit glottique
Lors des premiers travaux sur les signaux vocaux, il est vite apparut que lÕutilisation de Þltres rŽsonants du second ordre placŽs ˆ des frŽquences bien prŽcises donnait lÕillusion de prononcer des voyelles. Ces Þltres, alors appelŽs formants [Fant, 1960] on ŽtŽ mis en relation avec les Žtudes sur lÕappareil de production vocale pour dŽboucher sur une modŽlisation source/Þltre. LÕidŽe dŽcisive a ŽtŽ de modŽliser le canal empruntŽ par lÕair issu de la glotte comme une sŽrie de cylindres de longueurs et de sections diffŽrentes.
TransposŽe en mod•le signal, cette modŽlisation acoustique donne une rŽponse impulsionnelle inÞnie, modŽlisŽe par un Þltre autorŽgressif. Ce sont prŽcisŽment les coefficients de ce Þltre que la prŽdiction linŽaire cherche ˆ estimer.
En premi•re approximation on peut considŽrer le Þltre du conduit vocal comme un Þltre linŽaire et causal. En consŽquence, la rŽponse s du Þltre de coefficients a(n) ˆ une entrŽe e peut •tre Žcrite comme suit : N−1 s(n) = e(n) + s(n − i)a(i) i=0.
O• a est le vecteur des coefficients du Þltre dit autorŽgressif, de dimension N reprŽsentant lÕordre du Þltre. LÕadjectif autorŽgressif vient du fait que pour calculer s(n), il faut procŽder ˆ des opŽrations sur les Žchantillons prŽcŽdemment calculŽs de s. Ces Þltres peuvent donc •tre instables, car une mauvaise sŽrie de coefficients peut mener ˆ une sŽrie s divergente.
ç lÕaide de la reprŽsentation de Laplace adaptŽe au domaine discret (TransformŽe en Z), on montre que pour que la sŽrie a reprŽsente les coefficients dÕun Þltre linŽaire, causal et stable il est nŽcessaire que toutes les racines Xn du polyn™me Pa(x) = N−1 aix−i soient ˆ lÕintŽrieur du i=0 cercle unitŽ (|Xn| < 1).
Comme il sera montrŽ par la suite, le fait de considŽrer le conduit vocal comme un Þltre auto-rŽgressif est une hypoth•se tr•s importante en mati•re dÕanalyse/synth•se des signaux vocaux. Cette hypoth•se montre tout de m•me certaines limites car elle contraint lÕexpression du Þltre. Dans la mesure o• les estimations du Þltre et de la source sont liŽes, lÕutilisation dÕune modŽli-sation de la source comme CALM (pour Causal/Anti-causal Linear Model [Doval et al., 2003]), pourrait •tre une alternative intŽressante ˆ la modŽlisation autorŽgressive. En effet, les Þltres autoregressifs ne sont quÕune petite partie des Þltres ˆ phase minimale. Cette modŽlisation sera vue par la suite.
La thŽorie ZZT
On pourrait naturellement penser quÕune prŽdiction linŽaire convenablement mise en oeuvre pourrait fournir des p™les de part et dÕautre du cercle unitŽ, et donc permettre lÕapplication directe du mod•le CALM. Mais comme il a ŽtŽ prŽsentŽ prŽcŽdemment, les mŽthodes de prŽ-diction linŽaire reposent sur des estimateurs indŽpendants du sens de progression du temps, et contraignent donc les p™les ˆ •tre ˆ lÕintŽrieur du cercle unitŽ – hors instabilitŽ de calcul.
LÕidŽe est donc apparue de sŽparer les composantes dÕun signal ˆ partir des zŽros calculŽs sur ce signal. La ZZT se base donc sur le calcul des zŽros de la transformŽe en Z dÕun segment de signal. Le travail de th•se de Baris Bozkurt [Bozkurt, 2005] prŽsente ce paradigme pour la dŽcomposition source-Þltre et lÕestimation des formants glottiques et vocaliques. Sur la Þgure 2.11 est prŽsentŽe une illustration du principe de dŽconvolution par ZZT. Les signaux temporels (premi•re ligne) de la source (premi•re colonne) et de la rŽponse du Þltre (deuxi•me colonne) sont convoluŽs (troisi•me colonne) selon le mod•le de production linŽaire de la parole. En deuxi•me rang de la Þgure 2.11 on peut visualiser leur spectre dÕŽnergie et enÞn le troisi•me rang reprŽsente comment les zŽros sont combinŽs par convolution. La ZZT cherche donc ˆ rŽaliser le processus inverse : obtenir les formes dÕonde ˆ partir de la sŽparation des zŽros. LÕalgorithme de dŽcom-position tel que prŽsentŽ dans la th•se de B. Bozkurt ne propose cependant pas de validation approfondie sur des signaux rŽels.
Des travaux rŽcents [Drugman et al., 2009b] sur le sujet ont montrŽ que le paradigme de la ZZT pouvait •tre transcrit (avec des rŽsultats identiques) dans le domaine du cepstre complexe. Ces travaux critiquent et commentent abondamment la forme de la fen•tre dÕanalyse nŽcessaire ˆ une dŽcomposition ZZT cohŽrente – prochaine section -, et montrent le parall•le entre ZZT et cepstre complexe. La prŽsente Žtude se limitera cependant sur la ZZT prŽsentŽe par B. Boz-kurt dans la mesure o• la principale diffŽrence entre ZZT et cepstre complexe (CCD : Complex Cepstrum Decomposition) rŽside dans la charge de calcul ˆ lÕavantage de CCD.
Choix de la forme de la fen•tre dÕanalyse
AÞn de pouvoir exploiter les zŽros de la transformŽe en Z du signal, il est nŽcessaire de convenablement choisir la forme de la fen•tre dÕanalyse [Bozkurt et al., 2004a]. Une fe-n•tre de forme exponentielle e−a|t| va permettre de favoriser le placement des zŽros dÕun c™tŽ ou de lÕautre du cercle unitŽ en fonction du placement par rapport ˆ lÕinstant de fer-meture glottique, mais va introduire une distorsion dans le spectre rŽsultant. Pour la dŽ-composition source Þltre, les expŽriences ont montrŽ que la fen•tre de Blackman permet de rester au plus pr•s de la forme originale tout en permettant une sŽparation efficace des zŽ-ros. Dans les publications rŽcentes traitant de la ZZT, cette fen•tre fait office de rŽfŽrence [Drugman et al., 2008, Drugman et al., 2009a, Sturmel et al., 2007].
Cependant, les travaux rŽcents de Drugman et al. [Drugman et al., 2009b] ont mis en lumi•re lÕimpact du choix de la forme de la fen•tre sur la qualitŽ de la dŽcomposition par ZZT de mani•re plus prŽcise. Ainsi pour les fen•tres de taille N de la famille donnŽe par lÕŽquation 2.6, on retrouve les fen•tres de Hann et Blackman pour le coefficient α de valeur 1 et 0.84 respectivement mais ne sont pas optimales. La valeur optimale de α pour une dŽcomposition ZZT ˆ partir dÕune fen•tre de taille 2T0 est α = 0.75 selon [Drugman et al., 2009b], mais ces rŽsultats nÕont pas ŽtŽ systŽmatiquement conÞrmŽs par les expŽriences, notamment celles prŽsentŽes au chapitre 5. w(t) = α − 1 cos( 2πn ) − 1 − α cos( 4πn ) (2.6).
Choix de la taille de la fen•tre dÕanalyse
Forme et largeur de la fen•tre dÕanalyse sont liŽes pour donner une dŽcomposition ZZT de qualitŽ. Selon le travail de Bozkurt, pour une fen•tre de Blackman, lÕanalyse se fait sur une largeur de deux pŽriodes, mais toujours centrŽe sur lÕinstant de fermeture glottique. Dans le cas o• les deux pŽriodes ont des durŽes diffŽrentes, la taille de la fen•tre retenue est le double de la plus petite des deux pŽriodes. LÕutilisation de fen•tres asymŽtriques se rŽvŽlerait problŽmatique dans la mesure o• on perdrait la linŽaritŽ en phase du processus de fen•trage.
Position de la fentre dÕanalyse
EnÞn, lÕemplacement de la fen•tre dÕanalyse est dÕune importance prŽpondŽrante. A lÕinstant de fermeture glottique, une impulsion acoustique va exciter le conduit vocal ; cet instant est aussi la transition entre la phase ouverte et la phase fermŽe du dŽbit glottique. Baris Bozkurt [Bozkurt et al., 2005] a montrŽ que lÕordonnancement des zŽros Žtait beaucoup plus stable lorsque lÕanalyse Žtait placŽe autour dÕun instant de fermeture glottique.
Les travaux rŽcents de Drugman et al. [Drugman et al., 2009a] ont proposŽ une opŽration a postŽriori sur les zŽros pour dŽtecter et corriger une erreur de position de la fen•tre dÕanalyse. Si les rŽsultats obtenus sont encourageants, il ne sera pas tenu compte de ce travail dans le prŽsent chapitre, la dŽtection des instants de fermeture glottique nÕŽtant pas un probl•me gr‰ce ˆ la prŽsence de donnŽes Žlectroglottographiques pour les signaux analysŽs dans ce chapitre.
Le probl•me de la position des zŽros et de leur dŽplacement vis-ˆ-vis de lÕinstant de fermeture glottique a aussi ŽtŽ observŽ par Daalsgard et al. [Dalsgaard et al., 2008].
|
Table des matières
I Modélisatione État de l’art
1 Modèle de la production vocale
1.1 Le signal vocal : production et modélisation
1.2 Les différentes échelles du signal vocal
1.3 Le cycle glottique et sa caractérisation
1.4 Le modèle du point de vue signal
1.5 Qualités vocales
1.6 Conclusion
2 Étatde l’artde l’estimation des paramètres de la source
2.1 La détection des instants de fermeture glottique
2.2 Filtrage inverse et caractérisation de la source
2.3 Périodicités, Apériodicités
2.4 Conclusion
II Outils pour l’analyse de la qualité vocale
3 Ondelettes pour l’analyse des signaux vocaux
3.1 Méthode multi-échelles et application aux signaux vocaux
3.2 Etude prospective : ondelettes appliquées aux signaux de parole
3.3 Méthode LoMA pour la détection de GCI
3.4 LOMA pour la mesure de l’énergie relative
3.5 Shimmer et jitter par les ondelettes
3.6 Quotient ouvert et ondelettes
3.7 Parallèle avec Mean Square Phase
3.8 Conclusion
4 Décomposition Périodique/Apériodique
4.1 Amélioration de l’algorithme PAP
4.2 Application à des signaux de tests
4.3 Application à des signaux réels
4.4 Impact de la décomposition sur l’estimation des LoMA
4.5 Conclusion
5 Estimation des paramètres de la source glottique
5.1 Validation des Zéros de la Transformée en Z comme technique de séparation source/filtre
5.2 Précision nécessaire pour l’estimation de Oq et αm
5.3 Formalisation du modèle pour l’extraction des paramètres
5.4 Mesures préliminaires
5.5 Protocole d’analyse sur signaux naturels
5.6 Méthode hybride combinant ZZT et LoMA pour l’estimation du quotient ouvert
5.7 Conclusion
III Application à de la parole expressive
6 Analysed’ungrandcorpus
6.1 Constitution de la base
6.2 Analyse et Protocole
6.3 Résultats
6.4 Confirmation des tendances par analyse statistique
6.5 Interactions source-filtre
6.6 Corrélation entre les estimations
6.7 Caractérisation des styles
6.8 Conclusion
7 Conclusion
Références
Télécharger le rapport complet