Architecture et fonctionnement de l’appareil vocal
Cette section, qui rappelle l’architecture et les principes généraux de fonctionnement de notre appareil vocal s’appuie sur les ouvrages suivants : (Le Huche 2001) et (Boite et al. 2000).
L’appareil vibrateur
L’air est la matière première de la voix. Si le fonctionnement de notre appareil vocal est souvent comparé à celui d’un instrument de musique, il doit être décrit comme celui d’un instrument à vent. En effet, en expulsant l’air pulmonaire à travers la trachée, le système respiratoire joue le rôle d’une soufflerie. Il s’agit du « souffle phonatoire » produit, soit par l’abaissement de la cage thoracique, soit dans le cadre de la projection vocale par l’action des muscles abdominaux .
L’extrémité supérieure de la trachée est entourée par un ensemble de muscles et de cartilages mobiles qui constituent le larynx. Le plus important est le cartilage thyroïde qui forme le relief de la pomme d’Adam. Le larynx se trouve au carrefour des voies aériennes et digestives, entre le pharynx et la trachée, et en avant de l’œsophage. Les plis vocaux, communément nommés « cordes vocales » sont deux lèvres symétriques (structures fibreuses) placées en travers du larynx. Ces lèvres se rejoignent en avant et sont plus au moins écartées l’une de l’autre sur leur partie arrière (structure en forme de V); l’ouverture triangulaire résultante est nommée glotte . Le larynx et les plis vocaux forment notre « appareil vibrateur ». Lors de la production d’un son qualifié de « non-voisé » (ou sourd), comme c’est le cas, par exemple, pour les phonèmes [s] ou [f], les plis vocaux sont écartés et l’air pulmonaire circule librement en direction des structures en aval.
En revanche, lors de la production d’un son voisé (ou sonore), comme c’est le cas, par exemple, pour les phonèmes [z], [v] et pour les voyelles, les plis vocaux s’ouvrent et se ferment périodiquement, obstruant puis libérant par intermittence le passage de l’air dans le larynx. Le flux continu d’air pulmonaire prend ainsi la forme d’un train d’impulsions de pression ; nos « cordes vocales vibrent ». Le dernier élément principal de notre appareil vibrateur est l’épiglotte. Lors de la déglutition, cette dernière agit comme un clapet qui se rabat sur le larynx, conduisant les aliments vers l’œsophage en empêchant leur passage dans la trachée et les poumons (« fausse route »).
Le résonateur
L’air pulmonaire, ainsi modulé par l’appareil vibrateur, est ensuite appliqué à l’entrée du conduit vocal. Ce dernier est principalement constitué des cavités pharyngiennes (laryngophaynx et oropharynx situés en arrière-gorge) et de la cavité buccale (espace qui s’étend du larynx jusqu’aux lèvres). Pour la réalisation de certains phonèmes, le voile du palais (le velum) et la luette qui s’y rattache, s’abaissent, permettant ainsi le passage de l’air dans les cavités nasales (fosses nasales et rhinopharynx ou nasopharynx). Ces différentes cavités forment un ensemble que nous qualifierons ici de « résonateur ». Si l’appareil vibrateur peut être décrit comme le lieu de production de « la voix », le résonateur apparaît alors comme le lieu de naissance de « la parole ». Il abrite en effet des organes mobiles, nommés articulateurs, qui en modifiant sa géométrie et donc ses propriétés acoustiques, mettent en forme le son laryngé (ou son glottique) en une séquence de sons élémentaires. Ces derniers peuvent être interprétés comme la réalisation acoustique d’une série de phonèmes, unités linguistiques élémentaires propres à une langue. Les articulateurs principaux sont la langue, les lèvres, le voile du palais et la mâchoire (maxillaire inférieur). L’articulateur principal de la cavité buccale est la langue. Intervenant dans la mastication et la déglutition, la langue est également l’organe du goût. S’étendant sur une longueur d’une dizaine de centimètres environ, cet organe complexe et hautement vascularisé est composé d’un squelette, de muscles et d’une muqueuse. Son squelette est qualifié d’ostéofibreux ; il est constitué de l’os hyoïde, situé au dessus du larynx, sur lequel se fixe la membrane hyoglossienne, d’une hauteur d’un centimètre environ, et le septum lingual, lame fibreuse à l’origine de la dépression visible sur toute la longueur de la langue. Son mouvement est contrôlé par dix sept muscles, dont huit paires de muscles agonistes/antagonistes. Quatre paires de muscles extrinsèques (muscles qui prennent naissance à l’extérieur de la langue) servent notamment à sa protrusion, sa rétraction, sa dépression ou son élévation.
La langue est usuellement décrite comme un ensemble de deux structures au comportement distinct, la racine (ou base), fixée à l’os hyoïde, et le corps, plus mobile. Ce dernier se décompose également en deux parties, le dos et la pointe de la langue, nommée apex . Le rôle de la langue dans la phonation est déterminant, notamment pour la production des voyelles, caractérisée par le libre passage de l’air dans le résonateur. La phonétique articulatoire décrit le système vocalique d’une langue (classification des voyelles) précisément à l’aide de deux critères qui décrivent la configuration de la langue dans la cavité buccale. Le premier est le « lieu d’articulation » ; « avant » ou « arrière », il localise la masse de la langue et qualifie ainsi les voyelles produites d’ « antérieures », de « centrales » ou de « postérieures». Le second critère est « l’aperture » ; il décrit l’espace de résonnance ménagé entre la langue et le palais (fermé ou ouvert), qualifiant ainsi les voyelles produites de « hautes » ou « basses ». La langue joue également un rôle important pour l’articulation des consonnes, dont le mode de production est, à l’inverse des voyelles, caractérisé par l’obstruction du passage de l’air dans le résonateur. Dans ce cas, le « lieu d’articulation » localise cette obstruction. Pour produire une consonne dite « dentale » ([t], [d], [n]), la pointe de la langue crée cette obstruction en se rapprochant des dents.
Dans le cas des consonnes « inter-dentales » ([th] comme thin, [dh] comme then), la langue dépasse les dents et vient s’appuyer directement sur les incisives. Pour les consonnes dites « alvéolaires ([s], [z] ou la consonne liquide [l] mais également [t], [d], [n]), et « postalvéolaires» ([ch] comme church, [jh] comme judge, [sh] comme she, [zh] comme azure), elle se déplace respectivement vers les alvéoles (creux de l’os alvéolaire dans lequel est enchâssée une dent) et vers la partie antérieure du palais (à la juxtaposition avec le palais dur). Pour une consonne dite « palatale » ([j] comme ye, catégorisée également comme une semivoyelle), l’organe articulateur est le dos de la langue, l’obstruction ayant lieu au niveau du palais dur. Pour une consonne vélaire ([k], [g], [ng] comme parking), la partie postérieure du dos de la langue se bombe et se rapproche du palais mou. Enfin, pour une consonne uvulaire ([r] comme Paris en français), le lieu d’articulation se situe au niveau de la luette.
Les lèvres constituent l’autre articulateur majeur de la cavité buccale. Elles permettent la production des consonnes « bilabiales » (rapprochement des lèvres inférieures et supérieures, [p], [b], [m]) et des consonnes « labio-dentales » ([f], [v], rapprochement de la lèvre inférieure avec les dents). Elles interviennent également dans le cadre de la production vocalique en apportant la notion d’arrondissement des voyelles. Enfin, la réalisation acoustique de certains phonèmes nécessite parfois deux lieux d’articulation, impliquant à la fois la langue et les lèvres ; c’est le cas notamment de la consonne « labio-velaire » [w] (comme who).
Le dernier articulateur du résonateur est le voile du palais qui permet, lorsqu’il s’abaisse, de mettre en parallèle les cavités buccale et nasale. Il intervient notamment dans la production des consonnes nasales [m], [n] et [ng] en les différenciant respectivement des groupes de consonnes ([p], [b]), ([t], [d]), et ([k], [g]), qui présentent la même configuration linguale et labiale. Enfin, l’abaissement du voile du palais permet, en langue française notamment, la formation des voyelles nasales [ɔ] (on), [ɛ] (hein), [oe] (un), [ɑ] (an). Au regard de ces principaux résultats issus de la phonétique articulatoire, la réalisation acoustique d’un phonème dépend principalement des configurations de la langue, des lèvres et du voile du palais mais également de l’activité des cordes vocales. Lorsque ces dernières doivent être retirées, dans le cadre notamment du traitement chirurgical du cancer du larynx, les mécanismes de la phonation sont profondément modifiés.
L’anatomie des lèvres
Les tissus
D’après les données anatomiques présentées dans (Abry 1980), les lèvres forment deux replis musculaires, recouverts d’une membrane, qui circonscrivent l’orifice de la cavité buccale. Ces replis supérieur et inférieur sont indépendants et se réunissent à leurs extrémités pour former les commissures labiales. La face externe des lèvres est recouverte par de la peau et la face interne par de la muqueuse composée de cellules disposées comme des pavés (l’épithélium). Les muscles se trouvent directement sous la peau. La ligne entre la peau et la muqueuse dessine dans sa partie supérieure et, au centre, une courbe concave dénommée « arc de Cupidon ». Elle délimite une zone de transition, dite vermillon. Celle-ci se caractérise par sa haute teneur en un liquide semi-fluide qui augmente la transparence du tissu, à tel point qu’on aperçoit la teinte rouge de la couche vasculaire sousjacente. C’est cette caractéristique qui fait ressortir la couleur des lèvres par rapport au reste de la peau. La zone de vermillon de la lèvre supérieure montre, en son milieu, une protubérance: le tubercule .
|
Table des matières
Introduction
1. Contexte et cadre de recherche
2. Plan de la thèse
Les lèvres et la production de la parole
1.1 Architecture et fonctionnement de l’appareil vocal
1.1.1 L’appareil vibrateur
1.1.2 Le résonateur
1.2 L’anatomie des lèvres
1.2.1 Les tissus
1.2.2 Les muscles des lèvres
1.2.3 Classification fonctionnelle des muscles labiaux
1.3 Repères phonétiques
1.3.1 Acoustique et articulation
1.3.2 Des sons et des lèvres
1.3.3 La coarticulation : cibles en contexte
1.4 La parole audiovisuelle et ses applications en communication
1.4.1 La bimodalité intrinsèque de la parole
1.4.2 L’intelligibilité de la parole audiovisuelle
1.4.3 Perspectives pour la communication homme-machine
1.4.3.1 Reconnaissance automatique de la parole audiovisuelle
1.4.3.2 Codage spécifique de la parole : la norme MPEG4
1.4.3.3 Le rôle de la biométrie
1.5 Conclusion
La reconnaissance visuelle de la parole
2.1 Influence de l’angle de vue
2.2 Visage complet ou indices visuels ?
2.3 Localisation et suivi de visages
2.3.1 Localisation de visages
2.3.1.1 Approches couleur
2.3.1.2 Approches statistiques
2.3.2 Localisation de la bouche
2.3.2.1 Approches couleur
2.3.2.2 Approches statistiques
2.3.2.3 Approche par corrélation avec des patrons
2.3.2.4 Approches mouvement
2.3.2.5 Autres approches
2.4 Conditions « naturelles » (écologiques)
2.5 Comparaison image-modèle
2.6 Corpus existants
2.7 Conclusion
De la reconnaissance acoustique à la reconnaissance bimodale de parole
3.1 Définition de la parole
3.2 Le signal de la parole
3.2.1 Redondance du signal
3.2.2 Variabilité du signal
3.2.3 Les effets de coarticulation
3.3 Extraction des paramètres
3.3.1 Énergie du signal
3.3.2 Coefficients MFCC
3.3.3 Taux de passage par zéro
3.3.4 Autres paramétrisations du signal
3.3.5 Dérivées première et seconde
3.4 Réduction de l’espace de représentation
3.5 Les modes de fonctionnement d’un système de reconnaissance
3.6 La reconnaissance bimodale de la parole
3.6.1 Les modèles d’intégration audio-visuelle de la parole
3.6.1.1 Modèle ID
3.6.1.2 Modèle IS
3.6.1.3 Modèle RD
3.6.1.4 Modèle RM
3.6.2 Eléments du choix d’une architecture : théoriques et expérimentaux
3.6.3 Etudes comparatives
3.6.3.1 ID vs. IS
3.6.3.2 RD vs. RM
3.7 Conclusion
Conclusion