Description de l’appareil phonatoire

La production vocale

Description de l’appareil phonatoire

Pour modéliser les mécanismes du chant, il faut comprendre comment la voix humaine est engendrée par le corps. Nous allons par conséquent définir l’anatomie de l’appareil phonatoire. Celui-ci comporte deux étages : le premier est constitué des organes dits de soufflerie ; le second, appelé conduit vocal, est constitué du larynx et des résonateurs (voir Figure 1). Les organes de soufflerie émettent l’air impliqué dans la phonation. Le conduit vocal définit le trajet de l’air impliqué dans la phonation en sortant des poumons, du larynx jusqu’au nez en passant par le pharynx et les lèvres .

Le larynx occupe une place centrale dans la production vocale. C’est au niveau du larynx que sont situés les plis vocaux (plus communément appelés cordes vocales, bien que cette image ne soit pas en accord avec la réalité anatomique, comme le montrent la Figure 2 et la Figure 3). Le larynx est constitué de cartilages recouverts de tissus mous. Parmi ces cartilages, le cartilage cricoïde, en forme d’anneau, se trouve dans le prolongement de la trachée. Les cartilages aryténoïdes et le cartilage thyroïde sont reliés au cartilage cricoïde. La fermeture du larynx est contrôlée par l’abaissement du cartilage épiglottique (aussi appelé épiglotte), luimême relié au cartilage thyroïde. Les plis vocaux sont attachés à la fois à la base de l’épiglotte et aux pointes intérieures des cartilages aryténoïdes. L’air expulsé par les poumons provoque la vibration des plis vocaux, ce qui permet de produire les sons de la voix. Ces sons résonnent ensuite au niveau des cavités buccale et nasale. Les mouvements de ces résonateurs permettent de produire des modes d’articulation différents donnant accès à une grande variété de sons. Nous utiliserons le terme conduit vocal pour nous référer au larynx, ainsi qu’aux différents résonateurs et articulateurs. L’espace situé entre les plis vocaux se nomme glotte.

Les mouvements de translation et de rotation des cartilages aryténoïdes (voir Figure 4) permettent la mise en contact des plis vocaux. La pression de l’air provenant des poumons sur la glotte (pression sous-glottique) entraîne l’ouverture de la glotte. Ainsi, la pression sousglottique diminue suite au passage de l’air, ce qui entraîne, grâce à l’élasticité des plis vocaux, une nouvelle fermeture de la glotte. Les ouvertures et fermetures glottiques se reproduisent ainsi de façon cyclique afin de produire des vibrations à l’origine de la phonation. La position de respiration correspond à un mouvement d’abduction des plis vocaux, au cours de laquelle l’air peut circuler librement.

Contrôle de la production de parole

L’être humain possède la capacité de modifier la géométrie de son larynx, ses cavités buccale et nasale et ses sinus para-nasaux (cavités emplies d’air situées autour du nez) afin de moduler les sons produits au niveau de la glotte. La modification de la géométrie des résonateurs s’accompagne d’une modification des fréquences de résonance. La valeur de ces fréquences de résonance, appelées formants, dépend de la voyelle prononcée. Ainsi, la production de voyelles nasales est contrôlée par l’ouverture et la fermeture du voile du palais, ou velum. Par ailleurs, le spectre du conduit vocal comprend une antirésonance due à l’ouverture des fosses nasales et des sinus para-nasaux [12]. La langue, quant à elle, est très mobile et permet de faire varier la forme de la cavité buccale et influe donc elle aussi sur la nature de la voyelle prononcée. La position des lèvres ainsi que le degré d’ouverture de la mâchoire ont également une influence acoustique sur le son produit.

Production des voyelles

Parmi les phonèmes, les voyelles sont caractérisées par la vibration des plis vocaux ainsi que la stabilité de la géométrie des articulateurs au cours de la production du phonème. L’ouverture de la mâchoire, la position de la langue sur l’axe antéro-postérieur, l’utilisation de nasalité et la forme des lèvres permettent de décrire les voyelles du français. Ainsi, l’ouverture de la mâchoire distingue les voyelles ouvertes (comme la voyelle /a/ ) des voyelles mi-ouvertes (comme la voyelle /O/) ou des voyelles fermées (comme la voyelle /i/). La position de la langue sur l’axe antéro postérieur permet de distinguer les voyelles antérieures, comme la voyelle /e/ des voyelles centrales comme la voyelle /@/ et des voyelles postérieures, par exemple la voyelle /o/. On nomme voyelles nasales les voyelles dont la production utilise le conduit nasal et voyelles orales en l’absence de nasalité. La forme des lèvres distingue les voyelles arrondies des voyelles non arrondies. Les voyelles orales dépendent de l’ouverture de la mâchoire et de la position de la langue, qui influent respectivement sur le premier et le second formant. C’est ce qui explique la représentation des voyelles couramment utilisée qui est le triangle vocalique, présenté Figure 5. Dans cette représentation, les voyelles sont disposées spatialement en fonction de la valeur des deux premiers formants.

Production des consonnes

L’articulation influence également la production des consonnes. Un son est dit voisé si les plis vocaux entrent en vibration. Lorsqu’il y a obstruction totale ou partielle du flux d’air par les articulateurs, il y a production d’une consonne. Il existe des consonnes voisées, comme les consonnes /b/ ou /m/, et des consonnes non voisées comme les consonnes /t/ et /k/. Selon si les plis vocaux sont en adduction (plis vocaux rapprochés permettant la vibration de la muqueuse) ou en abduction (plis vocaux écartés), il y aura production respectivement d’une consonne voisée ou non voisée. En phonétique, les consonnes sont regroupées selon la localisation de la constriction principale, le mode d’articulation et la présence ou non de voisement. Les obstructions peuvent avoir lieu entre deux articulateurs ou bien entre une partie du palais et une partie de la langue. L’IPA (International Phonetic Association, voir [14]) distingue ainsi les consonnes labiales (/b/), dentales (/t/), alvéolaires (/n/), palatales (/J/), vélaires (/g/), uvulaires (/R/), pharyngales (comme l’aspiration /X\/ de l’arabe) et glottales (comme le /h/ de l’anglais anglais), selon le lieu d’articulation (constriction ou occlusion). Le type d’obstruction permet de définir les modes d’articulation. L’IPA distingue les consonnes occlusives (/p/), fricatives (/f/), spirantes (/j/), nasales (/n/). Ainsi, une obstruction totale donne une consonne occlusive, une obstruction partielle mais donnant lieu à une composante apériodique forte produit une consonne fricative alors qu’une obstruction faible donne lieu à une consonne sonnante. On distingue également le mode d’articulation oral (la bouche sert de cavité de résonance) du mode nasal (le nez sert de cavité de résonance) et le mode sourd (les plis vocaux n’entrent pas en vibration) du mode voisé, au cours duquel les plis vocaux entrent en vibration.

Articulation et coarticulation

L’articulation et la coarticulation jouent un rôle central dans la production d’une consonne. L’articulation d’une consonne peut être décomposée en trois phases [15] : la phase de déclenchement, la phase médiane et la phase de fin. Au cours de la phase de déclenchement, les articulateurs se déplacent vers la position de constriction dominante. Ce maximum de constriction est atteint au cours de la phase médiane. La phase de fin correspond à la phase au cours de laquelle les articulateurs s’éloignent les uns des autres. Suivant le type de consonne, la phase médiane correspondra à un arrêt du flux d’air (occlusive), un écoulement turbulent d’air (fricative) ou un écoulement du flux d’air plus libre (approximante). Selon la contrainte articulatoire, c’est-à-dire la durée minimale requise pour passer d’une configuration à une autre, et les contraintes expressives, la durée de chacune de ces phases est variable. Par ailleurs, il peut arriver qu’un segment de parole influence les segments suivants ou précédents. C’est ce que l’on appelle la coarticulation. Dans ce cas, une configuration articulatoire peut entraîner la modification des articulations pour les phonèmes adjacents.

Contrôle de la qualité vocale

Notion de qualité vocale

Le contrôle du geste vocal implique le contrôle de l’articulation d’une part, et le contrôle de la qualité vocale d’autre part. Différents types de qualités vocales ont été définis dans [16] en tenant compte de la configuration du larynx et de la glotte dans les différents types de phonation. La voix chuchotée par exemple est produite par une fermeture incomplète des plis vocaux, ce qui permet un phénomène de turbulences au niveau du larynx sans vibration des plis vocaux. Ces turbulences peuvent être modélisées par des sources acoustiques à spectre large, qui sont, de même que la source produite par vibration des plis vocaux, modifiées par le filtre vocal. La fréquence de vibration des plis vocaux définit la fréquence fondamentale du son. Mais il existe d’autres paramètres laryngés qui peuvent être contrôlés lors de la phonation. L’étude de la qualité vocale fait le lien entre les caractéristiques physiologiques de la phonation et la qualité du son perçu. Les différentes qualités vocales communément admises sont la voix soufflée (breathy voice), la voix tendue (tense voice), la voix rauque (creaky voice) et la voix correspondant à une phonation normale (modal voice). La voix soufflée correspond à une fermeture incomplète de la glotte. Une voix rauque se traduit également par des fermetures glottiques incomplètes, tandis qu’une voix tendue correspondra à une fermeture abrupte des plis vocaux. À cela vient s’ajouter la notion d’effort vocal, impliquée par exemple dans la voix criée. Des paramètres du signal de source, définis section 3.3, permettent de décrire de façon quantitative la qualité vocale et d’expliquer son lien avec les cycles d’ouverture et de fermeture glottique. Ces critères de qualité vocale s’appliquent aussi bien dans le domaine de la voix parlée que dans le domaine de la voix chantée. A la différence de la voix parlée, la voix chantée évolue dans une plage de fréquences plutôt large, ce qui nécessite une adaptation de la configuration du larynx.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 Contexte
1.1 La production vocale
1.1.1 Description de l’appareil phonatoire
1.1.2 Contrôle de la production de parole
1.1.3 Contrôle de la qualité vocale
1.2 Les techniques de chant rares
1.2.1 Le Cantu in paghjella (chant traditionnel de Corse)
1.2.2 Le Canto a Tenore (chant traditionnel sarde)
1.2.3 La musique byzantine
1.2.4 Human Beat Box
1.3 Modèles pour l’analyse et la synthèse de la voix
1.3.1 Introduction à l’analyse et la synthèse vocale
1.3.2 La synthèse vocale
1.3.3 Naturalité et intelligibilité
1.4 Méthodes d’apprentissage statistique
1.4.1 Introduction à l’apprentissage statistique
1.4.2 Notions de Shallow learning et Deep Learning
1.4.3 Les machines de Boltzmann restreintes (RBM)
1.4.4 Empilement de RBM
1.5 Enregistrement de données articulatoires
1.5.1 Les méthodes d’enregistrement de données articulatoires
1.5.2 L’échographie
1.5.3 L’électroglottographie
1.5.4 Choix du matériel
1.5.5 Informations contenues dans les données
1.5.6 Acquisition de données
2 Extraction du contour de langue à partir d’images échographiques
2.1 Introduction
2.2 Méthodes d’extraction du contour de langue à partir d’images échographiques
2.2.1 Méthodes d’extraction du contour
2.2.2 Méthodes de suivi de contour
2.3 Prétraitement des images échographiques
2.3.1 Traitement des images échographiques
2.3.2 Utilisation d’un contour initial pour l’apprentissage
2.3.3 Outil d’extraction du contour initial
2.4 Utilisation d’un autoencodeur profond pour l’extraction automatique du contour de la langue
2.4.1 Description de la phase d’apprentissage
2.4.2 Reconstruction du contour à partir de l’image ultrasonore seule
2.4.3 Conversion des images de sortie en contours
2.5 Méthodes pour l’évaluation des résultats de reconstruction du contour
2.5.1 Critères d’évaluation
2.5.2 Base de données et applications
2.6 Choix de l’architecture de l’autoencodeur
2.6.1 Profondeur du réseau
2.6.2 Complexité du réseau
2.6.3 Taille des mini-batches
2.6.4 Nombre d’itérations
2.7 Qualité du contour reconstruit
2.8 Discussion
3 Synthèse vocale à partir des mouvements des articulateurs
3.1 Introduction
3.2 Calcul des variables à prédire : prétraitements du signal acoustique
3.2.1 Ordre de prédiction LPC
3.2.2 Calcul des LSF de référence à partir du signal acoustique
3.2.3 Détection du voisement
3.2.4 Filtrage des LSF
3.3 Construction de modèles multimodaux de l’articulation
3.3.1 Une approche linéaire : projection dans l’espace des EigenLips et EigenTongues
3.3.2 Une approche non linéaire : Autoencodeurs profonds
3.3.3 Gestion de la multimodalité
3.3.4 Sélection de descripteurs
3.3.5 Prédiction des valeurs des LSF
3.3.6 Comparaison entre les méthodes
3.4 Méthodes de synthèse vocale
3.4.1 Utilisation de signaux d’excitation
3.4.2 Construction de signaux d’excitation
3.5 Application à une base de voyelles chantées isolées
3.6 Application à une base de chants traditionnels
3.6.1 Choix de l’architecture profonde
3.6.2 Construction du signal d’onde de débit glottique
3.6.3 Choix des descripteurs
3.6.4 Résultats de prédiction des LSF
3.7 Evaluation perceptive
3.8 Discussion
4 Références