Analyse de la qualité vocale appliquée à la parole expressive

Dans le contexte actuel où les moyens classiques de communication homme-machine (clavier, pointeur) sont de plus en plus remplacés par des communications multi-modales, la parole joue un rôle très particulier par sa simplicité d’utilisation. En effet, tout un chacun sait communiquer avec la parole en transmettant bien plus que des informations linguistiques : la manière dont nous nous exprimons traduit aussi notre état affectif, notre âge, notre sexe ou notre origine. Tant en synthèse qu’en reconnaissance de la parole, cette dimension expressive est une composante essentielle pour la qualité de la communication homme-machine, qui permet de rendre l’interaction plus « naturelle ». L’analyse des signaux vocaux est un processus essentiel pour comprendre et modéliser les relations entre perception et production du signal vocal. La production de parole peut être analysée tant au niveau des mécanismes articulatoires qu’au niveau de sa forme acoustique. Pour ce faire, l’analyse des signaux de parole se fait classiquement sur des échelles de temps différentes. Dans une échelle macroscopique le signal vocal est analysé pour en extraire le contenu phonétique et prosodique. Ce niveau d’analyse s’étend de quelques centièmes de secondes à plusieurs secondes : du trait phonétique à la phrase. A partir de cette échelle on cherche à segmenter le signal pour l’analyser à une échelle plus petite. Cette deuxième échelle, de l’ordre de quelques millisecondes à quelques dixièmes de secondes, permet d’analyser les formes du signal vocal afin d’en extraire des informations sur la configuration de l’appareil de production du locuteur. Cette analyse peut se faire avec ou sans connaissances ou informations a priori. A cette échelle, on définit le modèle source-filtre qui sous entend la parole comme le résultat de la modification d’un signal source par un filtre. En première approximation et dans la langue française notamment, on associe la qualité vocale à la source, et l’articulation au filtre. Pour comprendre les mécanismes articulatoires à l’origine des différentes formes de signaux vocaux, l’analyse des signaux acoustiques doit être complétée par des mesures plus précises et plus proches de l’appareil de production vocale. Des modélisations de production vocale ont été réalisées à l’aide de vidéos ultra rapides du larynx obtenues par endoscopie[Kendall, 2009], de radiographies de la partie supérieure du thorax et de la tête ou encore de mesures électroglottographiques [Fabre, 1957]. Certains paramètres de ce modèle de production vocale ont ainsi été reliés aux propriétés acoustiques du signal. Des études ont montré la relation directe entre les caractéristiques spectrales du signal vocal et la configuration du larynx [Hanson, 1994]. Il en ressort notamment que la configuration du larynx et des plis vocaux est prédominante dans la production et la perception de la parole expressive [Rosenberg, 1971].

Il s’agit ensuite de lier toutes les informations acoustico-articulatoires à leur perception par l’interlocuteur. Ces relations permettent une meilleure modélisation de la communication hommemachine par la prise en compte d’un modèle de parole plus réaliste. Une des solutions préconisées pour concevoir un tel système est un algorithme d’apprentissage sur de grandes bases de données étiquetées. Le système construit alors lui même des relations entre les caractéristiques du signal et leur valeur perceptive. Une autre approche consiste à construire un modèle analytique de l’appareil de production pour la synthèse et l’analyse de la parole, et à établir un lien direct entre la valeur des paramètres de ce modèle et la valeur perceptive du son généré par ces paramètres : on cherche alors à expliquer les relations trouvées entre perception et forme du signal.

Modèle de la production vocale

Le signal vocal : production et modélisation

Du larynx à la bouche

Produire de la parole, c’est tout d’abord expulser de l’air des poumons ; ce flux d’air va être mis en forme par la multitude de cavités, constrictions et orifices qui jalonneront son chemin depuis les poumons jusqu’aux lèvres et au nez. C’est au niveau du larynx que s’opère la première mise en forme de ce flux d’air. L’espace présent entre les deux masses de chair présentées sur la figure 1.1, les plis vocaux (anciennement appelés cordes vocales), est appelé glotte et on appelle alors le flux d’air passant par la glotte le flux glottique. Cette glotte oppose une résistance au flux d’air parcourant la trachée. Les plis vocaux vont donc vibrer en accord avec la configuration imposée par les muscles avoisinants. Plus ils seront tendus et plus la fréquence générée sera élevée à la manière d’un ballon de baudruche qu’on ferait vibrer en en pinçant le bout entre ses doigts. Une fois ce débit glottique mis en forme par la glotte, il est filtré par différentes cavités au niveau de la gorge, de la bouche, du nez et des sinus. L’ensemble du trajet de la glotte jusqu’aux lèvres et au nez est appelé le conduit vocal. La configuration de ce conduit vocal va conditionner le filtrage appliqué à l’onde de débit glottique. C’est ainsi que notre voix change lorsque nous avons le nez bouché, car la configuration des cavités nasales est modifié. Il est important de noter que ce modèle de production considère que la configuration du conduit vocal n’a pas d’impact sur le signal de source – d’interaction entre la source et le filtre. Ce modèle est considéré linéaire. En pratique, cette interaction existe, mais la présence d’interactions source/filtre n’empêche pas l’analyse par un modèle linéaire s’il n’est pas trop contraint. En effet, si l’interaction dépend de la configuration du conduit vocal, les résultats obtenus par analyse linéaire devront être analysés en connaissance de la voyelle prononcée dans la mesure où l’interaction (si elle existe) est dépendante du conduit vocal.

Modélisation de la production vocale

On peut séparer l’appareil de production vocale en trois parties :

– La première partie est responsable de la production du flux d’air qui va servir de support à la voix. Composée des poumons et du larynx, cette partie s’arrête au niveau des plis vocaux d’où est issue l’onde de débit glottique (ODG).
– La deuxième partie, appelée le « conduit vocal », fonctionne comme une succession de guides d’ondes qui vont agir sur l’onde de débit glottique. Les cavités nasales jouent aussi un rôle à ce niveau, mais dépendant du phonème. Ainsi, on retrouve certaines voyelles dites « nasales » en français (le /˜O/ de ’son’ ou le /˜E/ de ’pain’). L’effet des cavités nasales est plus marginal et n’est pas pris en compte par toutes les modélisations.
– La troisième partie, comportant uniquement l’ouverture au niveau des lèvres et du nez va transformer l’onde de débit en onde de pression acoustique. Cette transformation est assimilée, par simplification, à une dérivation dans le domaine signal.

La dernière partie a un effet important sur la manière dont nous mesurons le signal acoustique vocal. En effet, alors que c’est un débit qui est produit par les plis vocaux, nous ne mesurons généralement que l’onde de pression qui résulte de la diffusion par les lèvres. Il est donc habituel de voir une représentation faite uniquement à base d’ondes de pression, qui se traduit par la visualisation de l’onde de dérivée du flux glottique plutôt que par le flux lui-même. Cet artifice est permis par la linéarité du modèle utilisé.

Si des travaux récents permettent une représentation poussée de la configuration du conduit vocal d’après l’analyse des signaux de paroles [Laprie et Mathieu, 1998], le débit glottique reste encore très difficile à estimer. Il est donc nécessaire de comprendre comment les plis vocaux agissent sur le flux issu des poumons pour le mettre en forme. Avant cela, intéressons-nous au signal acoustique capté par un micro.

Les différentes échelles du signal vocal

Structure temporelle

La première direction d’analyse du signal vocal est la direction temporelle. En effet, beaucoup d’informations se développent au cours du temps.

Macro échelle temporelle : l’énoncé
Un premier découpage de la progression temporelle de la voix peut se faire au niveau de la phrase, comme montré sur la figure 1.3. Cette entité d’analyse permet d’extraire des informations lexicales mais aussi prosodiques, c’est à dire : sur les variations rythmiques, intonatives et d’intensité réalisées par le locuteur qui prononce la phrase. A ce niveau, il n’y a pas de description de la configuration de l’appareil vocal.

Briques linguistiques temporelles : les phonèmes
On décompose l’articulation d’une phrase en une succession de phonèmes. Le phonème est une entité abstraite qui correspond à la plus petite unité distinctive dans la parole. Leur analyse permet d’extraire les informations linguistiques de la phrase. La reconnaissance des phonèmes réalisée en traitement automatique du langage naturel nécessite une analyse poussée du signal qui se concentre sur l’évolution de la conformation du conduit vocal et laisse de coté beaucoup d’informations sur la source glottique.

Le cycle glottique et sa caractérisation

Afin de chercher à modéliser plus finement la source de la production vocale, il faut préalablement comprendre le fonctionnement des plis vocaux. En reprenant la précédente métaphore du ballon de baudruche, on remarque que si le son change en fonction de la configuration, le mouvement et la dynamique des plis vocaux changent en conséquence. Ce sont donc les muscles et articulations (dont les cartilages aryténoïdes) du larynx qui vont conditionner la qualité de la production vocale : grave, aiguë, stridente, ample, etc… Le mouvement des plis vocaux est quasi périodique. Le cycle de leur mouvement est décomposable en deux phases. Des études sur le débit d’air expulsé lors de la phonation [Rothenberg, 1977, Rothenberg, 1973, Gauffin et Sundberg, 1989] ont montré que ces deux phases présentaient principalement une différence dans le niveau de débit d’air expulsé. Durant la phase dite « fermée », les plis vocaux sont rapprochés au maximum et donc le débit est minimum, tandis que pendant la phase dite « ouverte » le débit d’air atteint son maximum, correspondant à l’espace maximal au niveau de la glotte. Dans certains cas, la fermeture n’est pas complète et un débit d’air résiduel peut être présent lors de la phase fermée. Le fait que l’attention soit portée plus souvent sur le gradient du débit du flux glottique que sur le flux lui même rend ce détail insignifiant ; le débit résiduel étant bien souvent constant, il sera juste annulé par la dérivation. Il sera vu plus tard que lorsque ce débit résiduel cause des turbulences (par exemple, dans le cas du bruit d’aspiration), sa contribution est incluse dans la partie non périodique du signal vocal. Plusieurs types d’instruments de mesure permettent de visualiser, représenter ou analyser ce cycle glottique : le masque de Rothenberg, l’imagerie ultra-rapide et l’éléctroglottographe.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Modélisation et État de l’art
1 Modèle de la production vocale
1.1 Le signal vocal : production et modélisation
1.2 Les différentes échelles du signal vocal
1.3 Le cycle glottique et sa caractérisation
1.4 Le modèle du point de vue signal
1.5 Qualités vocales
1.6 Conclusion
2 État de l’art de l’estimation des paramètres de la source
2.1 La détection des instants de fermeture glottique
2.2 Filtrage inverse et caractérisation de la source
2.3 Périodicités, Apériodicités
2.4 Conclusion
II Outils pour l’analyse de la qualité vocale
3 Ondelettes pour l’analyse des signaux vocaux
3.1 Méthode multi-échelles et application aux signaux vocaux
3.2 Etude prospective : ondelettes appliquées aux signaux de parole
3.3 Méthode LoMA pour la détection de GCI
3.4 LOMA pour la mesure de l’énergie relative
3.5 Shimmer et jitter par les ondelettes
3.6 Quotient ouvert et ondelettes
3.7 Parallèle avec Mean Square Phase
3.8 Conclusion
4 Décomposition Périodique/Apériodique
4.1 Amélioration de l’algorithme PAP
4.2 Application à des signaux de tests
4.3 Application à des signaux réels
4.4 Impact de la décomposition sur l’estimation des LoMA
4.5 Conclusion
5 Estimation des paramètres de la source glottique
5.1 Validation des Zéros de la Transformée en Z comme technique de séparation source/filtre
5.2 Précision nécessaire pour l’estimation de Oq et αm
5.3 Formalisation du modèle pour l’extraction des paramètres
5.4 Mesures préliminaires
5.5 Protocole d’analyse sur signaux naturels
5.6 Méthode hybride combinant ZZT et LoMA pour l’estimation du quotient ouvert
5.7 Conclusion
III Application à de la parole expressive
6 Analyse d’un grand corpus
6.1 Constitution de la base
6.2 Analyse et Protocole
6.3 Résultats
6.4 Confirmation des tendances par analyse statistique
6.5 Interactions source-filtre
6.6 Corrélation entre les estimations
6.7 Caractérisation des styles
6.8 Conclusion
7 Conclusion