Télécharger le fichier pdf d’un mémoire de fin d’études
Production des voyelles
Parmi les phonèmes, les voyelles sont caractérisées par la vibration des plis vocaux ainsi que la stabilité de la géométrie des articulateurs au cours de la production du phonème. L’ouverture de la mâchoire, la position de la langue sur l’axe antéro-postérieur, l’utilisation de nasalité et la forme des lèvres permettent de décrire les voyelles du français. Ainsi, l’ouverture de la mâchoire distingue les voyelles ouvertes (comme la voyelle /a/1) des voyelles mi-ouvertes (comme la voyelle /O/) ou des voyelles fermées (comme la voyelle /i/). La position de la langue sur l’axe antéro-postérieur permet de distinguer les voyelles antérieures, comme la voyelle /e/ des voyelles centrales comme la voyelle /@/ et des voyelles postérieures, par exemple la voyelle /o/. On nomme voyelles nasales les voyelles dont la production utilise le conduit nasal et voyelles orales en l’absence de nasalité. La forme des lèvres distingue les voyelles arrondies des voyelles non arrondies. Les voyelles orales dépendent de l’ouverture de la mâchoire et de la position de la langue, qui influent respectivement sur le premier et le second formant. C’est ce qui explique la représentation des voyelles couramment utilisée qui est le triangle vocalique, présenté Figure 5. Dans cette représentation, les voyelles sont disposées spatialement en fonction de la valeur des deux premiers formants.
Production des consonnes
L’articulation influence également la production des consonnes. Un son est dit voisé si les plis vocaux entrent en vibration. Lorsqu’il y a obstruction totale ou partielle du flux d’air par les articulateurs, il y a production d’une consonne. Il existe des consonnes voisées, comme les consonnes /b/ ou /m/, et des consonnes non voisées comme les consonnes /t/ et /k/. Selon si les plis vocaux sont en adduction (plis vocaux rapprochés permettant la vibration de la muqueuse) ou en abduction (plis vocaux écartés), il y aura production respectivement d’une consonne voisée ou non-voisée. En phonétique, les consonnes sont regroupées selon la localisation de la constriction principale, le mode d’articulation et la présence ou non de voisement. Les obstructions peuvent avoir lieu entre deux articulateurs ou bien entre une partie du palais et une partie de la langue. L’IPA (International Phonetic Association, voir [14]) distingue ainsi les consonnes labiales (/b/), dentales (/t/), alvéolaires (/n/), palatales (/J/), vélaires (/g/), uvulaires (/R/), pharyngales (comme l’aspiration /X\/ de l’arabe) et glottales (comme le /h/ de l’anglais anglais), selon le lieu d’articulation (constriction ou occlusion). Le type d’obstruction permet de définir les modes d’articulation. L’IPA distingue les consonnes occlusives (/p/), fricatives (/f/), spirantes (/j/), nasales (/n/). Ainsi, une obstruction totale donne une consonne occlusive, une obstruction partielle mais donnant lieu à une composante apériodique forte produit une consonne fricative alors qu’une obstruction faible donne lieu à une consonne sonnante. On distingue également le mode d’articulation oral (la bouche sert de cavité de résonance) du mode nasal (le nez sert de cavité de résonance) et le mode sourd (les plis vocaux n’entrent pas en vibration) du mode voisé, au cours duquel les plis vocaux entrent en vibration.
Articulation et coarticulation
L’articulation et la coarticulation jouent un rôle central dans la production d’une consonne. L’articulation d’une consonne peut être décomposée en trois phases [15] : la phase de déclenchement, la phase médiane et la phase de fin. Au cours de la phase de déclenchement, les articulateurs se déplacent vers la position de constriction dominante. Ce maximum de constriction est atteint au cours de la phase médiane. La phase de fin correspond à la phase au cours de laquelle les articulateurs s’éloignent les uns des autres. Suivant le type de consonne, la phase médiane correspondra à un arrêt du flux d’air (occlusive), un écoulement turbulent d’air (fricative) ou un écoulement du flux d’air plus libre (approximante). Selon la contrainte articulatoire, c’est-à-dire la durée minimale requise pour passer d’une configuration à une autre, et les contraintes expressives, la durée de chacune de ces phases est variable. Par ailleurs, il peut arriver qu’un segment de parole influence les segments suivants ou précédents. C’est ce que l’on appelle la coarticulation. Dans ce cas, une configuration articulatoire peut entraîner la modification des articulations pour les phonèmes adjacents.
Contrôle de la qualité vocale
Notion de qualité vocale
. Le contrôle du geste vocal implique le contrôle de l’articulation d’une part, et le contrôle de la qualité vocale d’autre part. Différents types de qualités vocales ont été définis dans [16] en tenant compte de la configuration du larynx et de la glotte dans les différents types de phonation. La voix chuchotée par exemple est produite par une fermeture incomplète des plis vocaux, ce qui permet un phénomène de turbulences au niveau du larynx sans vibration des plis vocaux. Ces turbulences peuvent être modélisées par des sources acoustiques à spectre large, qui sont, de même que la source produite par vibration des plis vocaux, modifiées par le filtre vocal. La fréquence de vibration des plis vocaux définit la fréquence fondamentale du son. Mais il existe d’autres paramètres laryngés qui peuvent être contrôlés lors de la phonation. L’étude de la qualité vocale fait le lien entre les caractéristiques physiologiques de la phonation et la qualité du son perçu. Les différentes qualités vocales communément admises sont la voix soufflée (breathy voice), la voix tendue (tense voice), la voix rauque (creaky voice) et la voix correspondant à une phonation normale (modal voice). La voix soufflée correspond à une fermeture incomplète de la glotte. Une voix rauque se traduit également par des fermetures glottiques incomplètes, tandis qu’une voix tendue correspondra à une fermeture abrupte des plis vocaux. À cela vient s’ajouter la notion d’effort vocal, impliquée par exemple dans la voix criée. Des paramètres du signal de source, définis section 3.3, permettent de décrire de façon quantitative la qualité vocale et d’expliquer son lien avec les cycles d’ouverture et de fermeture glottique. Ces critères de qualité vocale s’appliquent aussi bien dans le domaine de la voix parlée que dans le domaine de la voix chantée. A la différence de la voix parlée, la voix chantée évolue dans une plage de fréquences plutôt large, ce qui nécessite une adaptation de la configuration du larynx.
Voix chantée et mécanismes laryngés
Un autre facteur de production vocale, très important dans le domaine de la voix chantée, est la notion de mécanisme laryngé (ou registre de voix). Dans [17], l’auteur rapporte une distinction entre les mécanismes laryngés suivants :
Le mécanisme 0 (fry voice) est employé dans la production de sons plutôt graves, il correspond à des plis vocaux courts, épais et peu tendus. La durée d’ouverture est faible en comparaison avec la durée d’une période de vibration.
Le mécanisme 1 correspond à des plis vocaux épais, qui vibrent sur toute leur longueur, avec une vibration très importante. Le rapport entre la durée d’ouverture glottique et la période est supérieur à celui du mécanisme 0 mais reste toujours inférieur à 0,5. Ce mécanisme est le mécanisme le plus utilisé en voix parlée pour les hommes, ainsi qu’en voix chantée pour les chanteurs basses, barytons, ténors et alti ainsi que des chanteurs de variété.
Le mécanisme 2 est caractérisé par une vibration des plis vocaux sur les deux tiers de leur longueur uniquement, car les cartilages aryténoïdes sont davantage comprimés. Le rapport entre ouverture glottique et période est plus élevé que dans le mécanisme 1, en général supérieur à 0,5. Ce mécanisme est utilisé par les femmes en voix parlée, les hommes lorsqu’ils souhaitent émettre un son aigu. Les chanteurs mezzo-soprano, soprano, altos et haute-contre utilisent presque exclusivement ce mécanisme. Le mécanisme 2 est plus utilisé en voix parlée par les hommes dans d’autres cultures (Asie, Afrique).
Le mécanisme 3 correspond à une voix dite de sifflet. Les plis vocaux sont très fins, allongés et tendus. L’amplitude de leur vibration est très faible. La durée de fermeture complète est presque nulle.
Le chant et la parole se distinguent par plusieurs aspects du contrôle des mécanismes laryngés. En effet, la fréquence fondamentale du son produit en voix chantée est contrôlé (hauteur de la mélodie, voir la comparaison entre les hauteurs de la voix parlée et de la voix chantée présentée Figure 6) et reste plus stable qu’en voie parlée où la fréquence fondamentale varie généralement plus rapidement. Par ailleurs, l’amplitude des variations de fréquence fondamentale (ambitus) est nettement plus importante en chant qu’en parole. Les variations d’intensité sont également plus marquées. Une autre distinction entre parole et chant est le rapport entre la durée totale des parties voisées, c’est-à-dire qui impliquent une vibration des plis vocaux, et la durée des parties non voisées. Ce rapport est nettement plus important en chant : les respirations sont modifiées par le chant, qui abrège l’inspiration et rallonge l’expiration.
Le Cantu in paghjella (chant traditionnel de Corse)
Le Cantu in paghjella est une technique de chant polyphonique (voir Figure 8) comprenant trois voix d’hommes a capella. La voix principale, qui chante la mélodie, est appelée a seconda, la voix grave est nommée bassu et la voix aigüe est nommée a terza. Ce type de chant utilise des ornementations. Traditionnellement, la transmission des techniques de chant se fait de façon orale. Le répertoire du Cantu in paghjella comprend aussi bien de la musique profane que de la musique sacrée, mais le chant corse s’inspire traditionnellement de messes et psalmodies. Les textes de leurs chants sont soit en latin, soit en corse. Comme ces chanteurs n’utilisent ni partitions ni références de hauteur comme on peut le trouver en musique classique, les chanteurs utilisent principalement leurs yeux, leurs oreilles et leurs bouches pour communiquer entre eux. Le respect de la musicalité requiert ainsi une grande complicité et une forte interaction entre les chanteurs dont les interprétations s’influencent les unes les autres [20].
Le Canto a Tenore (chant traditionnel sarde)
Le Canto a tenore de Sardaigne est, de même que le chant corse, un style de chant polyphonique composé de voix d’hommes uniquement (voir Figure 9), mais dont la tessiture est plus basse que dans le chant corse. La qualité vocale est également différente. Le Canto a tenore regroupe quatre voix d’hommes. Deux d’entre elles utilisent une phonation normale tandis que les deux autres utilisent davantage le larynx. La voix soliste est appelée oche ou boche et utilise une phonation normale. L’autre voix utilisant ce mécanisme est appelée mesu oche ou mesu boche, ce qui signifie « demi-voix ». La voix grave est appelée bassu et l’autre voix utilisant le même mécanisme, chantant une quinte au-dessus du bassu, est appelée contra.
La technique de Bassu et de Contra nécessite une interaction entre les cordes vocales et les bandes ventriculaires [21], dont l’anatomie est détaillée Figure 10. Les bandes ventriculaires ne sont pas couramment utilisées dans le cadre d’une phonation normale. Cependant, leur utilisation a été observée dans certains chants gutturaux comme dans certaines cultures asiatiques. Cette technique de chant est associée avec un phénomène de doublement de période qui est à l’origine de la voix grave perçue [22]. De plus, un quatuor de chanteurs masculins produit perceptivement une cinquième voix. La hauteur résultante ressemble à une voix de femme [23].
Représentations fréquentielles du signal de parole
La quasi-périodicité du signal acoustique justifie l’intérêt d’une analyse fréquentielle du signal de parole. L’analyse spectrale d’un signal de parole permet en effet d’identifier les différentes fréquences qui composent ce signal. Le suivi de la fréquence fondamentale au cours du temps (voir Figure 12) est une autre représentation d’une partie du contenu fréquentiel du signal de parole et permet d’étudier la prosodie. Il existe de nombreuses méthodes permettant le suivi de cette fréquence fondamentale, la plus intuitive étant la méthode dite de zero-crossing [28]. Il s’agit de repérer les passages par la valeur 0 du signal afin de repérer les périodicités du signal. Cependant, cette méthode n’est pas très efficace en présence de bruit ou de sources multiples [29] et nécessite des ajustements [30]. D’autres méthodes plus classiques utilisent l’autocorrélation du signal de parole [31] ou bien l’AMFD (Average magnitude difference function pitch extractor), décrit dans [32]. Il est également possible d’utiliser le signal électroglottographique afin de déterminer la fréquence fondamentale grâce à l’identification des instants d’ouverture et de fermeture glottique [33]. En dehors de la fréquence fondamentale du signal, un spectre (voir Figure 13) permet de déterminer harmoniques et formants [34].
Filtrage inverse
Afin d’obtenir l’onde de débit glottique à partir du signal acoustique rayonné, une méthode couramment utilisée est le filtrage inverse [40]. Pour ce faire, il faut d’abord estimer le filtre du conduit vocal, par exemple en utilisant les coefficients de prédiction LPC (Linear Predictive Coding). Une fois le filtre du conduit vocal estimé, son inverse est appliqué au signal rayonné pour obtenir l’ODG dérivée. Cependant, ce modèle d’analyse, bien que simple d’un point de vue conceptuel, ne semble pas adapté à la voix chantée. En effet, la fréquence fondamentale dans le cas du chant est assez élevée, en particulier pour les voix de femmes, ce qui nécessite d’adapter les fréquences d’analyse pour la prédiction LPC. Par ailleurs, ce modèle ne tient pas compte des interactions source-filtre, qui semblent avoir un impact dans le cadre du chant. En effet, la fréquence fondamentale n’est pas forcément décorrélée des fréquences formantiques ; des études [41] ont montré l’existence du phénomène de formant tuning, selon lequel le chanteur, par l’ouverture de la bouche, a tendance à rapprocher les formants des premiers harmoniques. Cet ajustement permet un gain d’énergie acoustique, notamment pour les voix aigues.
Modèles de l’onde de débit glottique
Des modèles de source glottique, temporels ou fréquentiels, peuvent être envisagés dans le cadre de l’analyse de la voix chantée. Ce paragraphe est inspiré de [42]. Le modèle LF, du nom de ses développeurs Liljencrants et Fant, est le modèle le plus utilisé pour l’estimation ou la modélisation du signal de source glottique. Il est contrôlé par 5 paramètres, à savoir l’amplitude de l’ODG au maximum d’excitation , la période fondamentale 0, la durée de la phase ouverte , la durée d’écartement des plis vocaux et la constante de temps de la phase retour notée . Le modèle LF, illustré Figure 22, définit la dérivée de l’onde de débit glottique (ODGD) en ajustant deux signaux : à gauche de l’instant de fermeture glottique, l’ODGD est modélisée par une sinusoïde modulée par une exponentielle croissante et à droite de l’instant de fermeture glottique, la phase de retour est modélisée par une exponentielle décroissante.
La synthèse par formants repose sur un modèle linéaire source-filtre de production de la parole qui utilise des paramètres acoustiques comme entrée du synthétiseur. Le signal de source est convolué par des filtres, en parallèle ou en cascade, dont la fréquence centrale, l’amplitude et la bande passante correspondent à chacun des formants. Les valeurs des fréquences de ces formants sont déterminées à partir de l’analyse de signaux réels de voix. Ce type de synthèse permet des applications temps-réel. Les premiers synthétiseurs à formants sont apparus dans les années 50 avec les synthétiseurs PAT (Parametric Artificial Talker), synthétiseur avec des résonateurs en parallèle et le synthétiseur OVE I (Orator Verbis Electris), utilisant des filtres en cascade [48]. A cette époque, Fant [36] introduit les bases du modèle source-filtre. La synthèse par formants peut également être effectuée d’un point de vue temporel, en utilisant des formes d’onde formantiques (FOF). Il s’agit d’impulsions espacées d’une période fondamentale. Ainsi, chaque FOF représente une période d’un signal correspondant à un formant. La voix de synthèse est obtenue par sommation de chacune de ces contributions. Le synthétiseur de voyelles chantées CHANT [49] est fondé sur cette technique. Cependant, c’est un synthétiseur destiné à la composition qui ne permet pas un contrôle du synthétiseur en temps réel.
La synthèse par concaténation
La synthèse par concaténation utilise de courts segments de parole préenregistrée, généralement des diphones4. En pratique, la taille des unités sélectionnées n’est pas uniforme (diphones, triphones…) afin d’obtenir plus de réalisme. A moins de disposer de bases de données conséquentes, cela implique d’utiliser un jeu de paramètres spécifique par locuteur. La prosodie peut être contrôlée par des méthodes de modification de hauteur comme PSOLA [50]. Les systèmes commerciaux utilisent généralement la synthèse par concaténation parce qu’elle fournit, au prix de bases de données suffisantes, un degré de réalisme important. Traditionnellement, la synthèse par concaténation engendre de nouveaux segments de parole en réarrangeant des segments de parole préenregistrée en tenant compte des contraintes acoustiques et linguistiques. Si cette méthode est bien paramétrée, cela permet de produire de la parole synthétique de bonne qualité en termes de naturalité et intelligibilité. Cependant, ce type de synthèse nécessite des bases de données équilibrées et étiquetées avec précision.
La méthode HTS
La méthode HTS [51] utilise une méthode de reconstruction de séquence de phonèmes fondée sur les HMMs (Hidden Markov Models). Sur une base de données de parole, les segments de parole sont étiquetés et des descripteurs spectraux sont extraits sur chacun de ces segments. Le modèle de Markov caché est ensuite entraîné sur cette base. La forme d’onde est générée en utilisant les valeurs de la fréquence fondamentale 0 et des descripteurs spectraux des séquences les plus proches de la cible, à l’aide de calculs probabilistes basés sur les HMMs. Ainsi, aucune forme d’onde n’est stockée. En revanche, la base de données de parole est utilisée pour entraîner un ensemble de modèles de phonèmes dépendant du contexte. Ces paires de mots de sens différents et dont un seul son diffère de l’un à l’autre. Les phones sont donc les différentes réalisations d’un phonème. phonèmes sont ensuite utilisés pour piloter un vocodeur au moment de la synthèse. Il existe également des méthode hybrides de synthèse par concaténation dans lesquelles un modèle statistiue paramétrique guide la sélection des segments [52].
La synthèse par modèle physique
La synthèse par modèles physiques repose sur des données articulatoires et l’analyse de l’évolution dynamique des articulateurs impliqués dans la phonation. Il s’agit de modéliser de façon explicite le mécanisme de production de la parole. Il est possible soit de s’intéresser au comportement d’un articulateur en particulier, soit de considérer l’appareil vocal dans sa globalité. Dans un premier temps, on simule les mouvements des articulateurs, ce qui nécessite un modèle de contrôle des articulateurs. Ensuite, on convertit ces informations de mouvement en succession continue de géométries du conduit vocal, qui s’appuie sur un modèle de celui-ci. Ensuite, à partir de ces informations géométriques et d’un modèle acoustique, on produit le signal acoustique. Les plis vocaux sont modélisés comme un système mécanique oscillant composé de deux masses reliées entre elles par un ressort de raideur linéaire et chacune maintenue à un support fixe par un ressort amorti linéairement et de tension non linéaire [53]. Le larynx est modélisé par un système multi-masses ou un modèle à poutres. Ces modèles mettent en évidence la physique du conduit vocal mais sont plus complexes que les simples modèles à deux masses. Un autre modèle physique [54] propose 7 paramètres de contrôle de la géométrie du conduit vocal : la position du corps de la langue, l’arrondissement et la protrusion des lèvres, les lieux et degré de constriction de la pointe de la langue, le degré de couplage avec la cavité nasale. Le calcul de l’onde acoustique résultante utilise souvent des bases de données élaborées à partir de mesures radiographiques qui décrivent l’aire des coupes sagittales à travers le conduit vocal [55]. Un modèle articulatoire fondé sur le geste phonétique et les contraintes de coordination entre les articulateurs a été développé en 1986 [56]. Il utilise l’activation temporelle de chaque geste ainsi que la coordination entre les articulateurs dont les mouvements évoluent selon les gestes. Les modèles plus récents incluent des modèles de glotte et de source de bruit et produisent des voix de bonne qualité, en particulier pour les voyelles statiques et les consonnes comme les fricatives, latérales et nasales y compris en voix chantée [43]. Dans ces travaux, un ensemble de règles permet de transformer les données de partition musicale en partition gestuelle puis en signal acoustique associé. Toutes les méthodes de synthèse présentées dans la section 1.3.2 ne produisent pas des signaux acoustiques d’égale qualité. Cette qualité peut en effet concerner le réalisme des sons (la naturalité) ou leur intelligibilité.
Naturalité et intelligibilité
Dans [52], qui a inspiré la discussion présentée dans ce paragraphe, l’auteur décrit que les systèmes paramétriques statistiques sont les systèmes qui produisent la parole synthétique la plus intelligible, mais elle n’apparaît pas très naturelle à entendre. A l’inverse, la synthèse par concaténation, qui est décrite comme la solution permettant la voix la plus naturelle, produit des paroles bien moins intelligibles que les modèles paramétriques. Ainsi les systèmes paramétriques permettent d’atteindre une naturalité et une intelligibilité presque satisfaisante.
Les vocodeurs
La synthèse paramétrique repose sur l’utilisation d’un vocodeur afin de convertir les formes d’onde de façon paramétrique, puis de convertir les paramètres générés par le modèle en signaux acoustiques au cours de la synthèse. Il existe de nombreux types de vocodeurs. Le plus utilisé d’entre eux est le vocodeur STRAIGHT [57]. Ce synthétiseur a pour but de réaliser la séparation source-filtre, bien qu’il ne soit pas à proprement parler un modèle source-filtre. Il permet de modéliser l’enveloppe spectrale sans modélisation explicite du conduit vocal. Durant la phase d’analyse, les signaux de parole sont convertis en paramètres du modèle. Au lieu d’adopter un modèle particulier du conduit vocal, le modèle STRAIGHT part de l’hypothèse que l’enveloppe spectrale est lissée à la fois en temps et en fréquence. Ce modèle utilise une fenêtre adaptée en fonction de la fréquence du son afin de réduire les interférences harmoniques lors de l’estimation de cette enveloppe spectrale. Afin de faire la synthèse du signal de parole, un filtre doit être conçu à partir de l’enveloppe spectrale. Ce filtre est excité par un signal de source qui mélange un train d’impulsion à phase modifiée avec du bruit mis en forme.
Il existe d’autres types de vocodeurs comme les vocodeurs sinusoïdaux ou les vocodeurs harmoniques plus un bruit (harmonic-plus-noise vocoders) [58]. Ces vocodeurs se différencient des vocodeurs de type STRAIGHT par le fait qu’ils n’utilisent pas de modèle source-filtre. Ces vocodeurs tentent de modéliser le signal acoustique directement, sans référence explicite à aucun modèle de production de parole. Le signal de parole est modélisé comme la somme d’une partie déterministe (la structure harmonique, modélisée comme un ensemble de sinusoïdes) et une partie stochastique (du bruit). Cette idée a donné naissance à des vocodeurs produisant moins d’artefacts que STRAIGHT. Cependant, comme indiqué dans [52], le nombre de paramètres nécessaires pour représenter le signal acoustique en utilisant un modèle harmonic-plus-noise est important et variable, ce qui le rend peu adapté pour une utilisation avec un text-to-speech (TTS) paramétrique. La qualité de la synthèse possible avec un vocodeur harmonique plus bruit en fait une solution malgré tout intéressante pour des implémentations hors ligne.
Modification des paramètres
Adaptation de modèle
La capacité à modifier les paramètres d’un système statistique paramétrique explique pourquoi ils sont si largement utilisés. Ainsi, transformer la fréquence fondamentale ou la vitesse de parole sont des modifications aisées lorsque l’on utilise des modèles paramétriques statistiques car il suffit de modifier la valeur de ces paramètres (valeur moyenne, écart-type). Mais il est également possible de faire des modifications plus sophistiquées, par exemple en appliquant des transformations différentes sur certains paramètres du modèle. Le modèle STRAIGHT possède l’avantage d’interpoler entre deux échantillons naturels et donc d’interpoler entre deux modèles statistiques. Il est ainsi possible de faire varier l’émotion, le style ou l’identité du locuteur. Ceci permet de créer des styles de voix en dehors des limites humaines.
L’édition automatique de signaux
Les méthodes paramétriques permettent un bon contrôle du signal de parole au cours du temps. Cependant, la forme d’onde est limitée par le vocodeur, qui impacte plus ou moins la naturalité du son produit. Seule la concaténation de signaux permet d’éviter cet écueil. Cependant, comme nous l’avons déjà indiqué, la concaténation est difficile à paramétrer et est très sensible à la finesse de l’étiquetage de la base de données. Ainsi, lors de la synthèse, on ne parvient pas toujours à choisir les sons qui semblent les plus naturels à cause de ces limites. Dans les systèmes commerciaux à temps différé, les segments sélectionnés pour la synthèse ne sont pas toujours les segments qui obtiennent le meilleur score en termes de coût mais un ajustement manuel d’après des critères perceptifs sélectionne parfois le deuxième ou troisième meilleur segment.
Synthèse de voix chantée
La synthèse de voix chantée a la particularité de nécessiter une grande expressivité, ce qui constitue un défi supplémentaire par rapport à la synthèse de voix parlée. La qualité de la source glottique, la précision de l’articulation et l’expressivité sont donc des critères déterminants pour l’évaluation de la qualité d’un extrait de voix chantée synthétique. Parmi les méthodes développées en synthèse vocale, des approches de synthèse par concaténation d’unités, l’utilisation de vocodeurs ainsi que des approches de synthèse articulatoire ont été proposées pour l’application en voix chantée. Une des méthodes consiste à utiliser un vocodeur pour produire de la voix chantée à partir d’un extrait de voix parlée et un codage de la musique, comme avec le vocodeur STRAIGHT [59] ou un vocodeur de phase [60]. La synthèse de voix chantée par concaténation d’unités a connu un grand succès avec le développement du système commercial VOCALOID [61]. La méthode de synthèse par formant [62] a l’avantage d’être très modulaire et de permettre de tester les différences perceptives entre différentes sources glottiques ou différentes configurations du conduit vocal. Un contrôle gestuel de la synthèse de voix chantée a été proposé dans [63] puis [64]. Dans le projet CantorDigitalis comme dans le projet Calliphony, une tablette graphique sert d’interface de contrôle. Une méthode de synthèse articulatoire a été présentée dans [65]. Une méthode de synthèse de voix chantée permettant une synthèse expressive de bonne qualité a été proposée dans [66]. De façon générale, la synthèse par concaténation d’unités semble permettre une meilleure naturalité du son [67].
Afin de modéliser au mieux la voix chantée, nous souhaitons compléter les informations obtenues à partir du signal acoustique par des informations multimodales sur le geste vocal. Les types de chant étudiés mettent en œuvre des techniques variées et complexes, c’est pourquoi souhaitons utiliser des modèles d’apprentissage statistique afin d’extraire des informations permettant le développement d’outils pédagogiques adaptés à l’apprentissage de ces techniques de chant.
Notions de Shallow learning et Deep Learning
Dans un algorithme classique d’apprentissage statistique, la première difficulté, une fois les données collectées, est de trouver des descripteurs pertinents permettant de représenter les données et de contenir de l’information utile pour la tâche souhaitée. Ainsi, pour chaque modèle considéré, plusieurs types de descripteurs peuvent être étudiés avant de trouver une description satisfaisante des données. L’utilisation de descripteurs géométriques ou de moments statistiques sont des méthodes couramment utilisées pour obtenir des descripteurs. Les risques sont que l’ensemble des descripteurs soit incomplet ou bien au contraire redondant. Un autre problème concerne la collecte de données, qui peuvent être de qualités variables. En outre, les échantillons de la base d’apprentissage doivent être représentatifs des données à partir desquelles le modèle est construit.
Un réseau de neurones artificiels correspond à une association en un graphe d’objets élémentaires appelés neurones formels. L’architecture de ce graphe (par exemple en couches), son niveau de complexité (par exemple la présence ou non de boucles de rétroaction), les fonctions d’activation des neurones (par exemple sigmoïde) sont des exemples de critères permettant de distinguer les réseaux de neurones. L’analogie avec un réseau de neurones biologique peut se faire en considérant les entrées d’un neurone comme des dendrites, les connexions avec les autres neurones comme des synapses, la fonction d’activation comme un noyau qui active la sortie en fonction des stimulations en entrée et la sortie du neurone comme un axone. L’apprentissage profond ou Deep Learning (par opposition au shallow learning, apprentissage peu profond) est un apprentissage réalisé sur un réseau de neurones avec plusieurs couches cachées. Le principe du Deep Learning repose sur un apprentissage hiérarchique couche par couche. Entre chaque couche interviennent des transformations non linéaires et chaque couche reçoit en entrée la sortie de la couche précédente. Dans le Deep Learning, l’extraction de descripteurs est pilotée directement à partir les données. Autrement dit, le Deep Learning repose donc sur un paradigme d’apprentissage que l’on pourrait qualifier de « supervisé par les entrées » – où les sorties attendues du modèle sont les entrées elles-mêmes. Dans ce paradigme, l’apprentissage dépend d’une fonction de coût (comme dans les apprentissages supervisés), sans avoir pour autant à fournir de données de sortie au modèle (comme dans les apprentissages non-supervisés).
L’information contenue dans des données peut être représentée de différentes manières. Par exemple, une image peut être codée comme un vecteur de valeurs d’intensité par pixel, ou bien un ensemble de contours, de régions avec une forme particulière. Certaines représentations permettent un meilleur apprentissage de certaines tâches à partir d’exemples [71]. Un des atouts du Deep Learning est de remplacer la détermination manuelle de descripteurs par des algorithmes d’extraction de descripteurs hiérarchiques. Il existe plusieurs manières de construire un réseau de neurones profond, notamment le DBN (Deep Belief Network). La méthode la plus répandue afin d’entraîner efficacement un réseau de neurones profond est d’utiliser un algorithme glouton (algorithme qui recherche, étape par étape, un minimum local) d’apprentissage couche par couche par le biais de machines de Boltzmann Restreintes. Plus précisément, il s’agit d’entraîner de façon non supervisée chaque couche afin d’extraire les descripteurs principaux à partir de la distribution des données d’entrée. La première couche cachée correspond donc à une représentation de ces entrées. Cette représentation est ensuite utilisée comme entrée pour la couche suivante. La méthode de Deep Learning peut être utilisée comme initialisation des poids et biais avant l’utilisation d’un algorithme supervisé comme la rétro-propagation du gradient (cette méthode permet de calculer le gradient de l’erreur pour chaque neurone d’un réseau de neurones, de la dernière couche vers la première. Dans l’apprentissage d’un réseau profond, la rétro-propagation joue alors de rôle de fine-tuning). L’utilisation d’une telle stratégie d’apprentissage de réseaux profonds est plutôt efficace. Il a été montré [72] qu’initialiser les poids d’un perceptron multicouche avec un réseau profond (type Deep Belief Network, ou DBN) donnait de meilleurs résultats qu’une initialisation aléatoire.
Utiliser un DBN a donc plusieurs avantages, notamment le fait que les unités cachées les plus profondes peuvent être calculées efficacement ; l’apprentissage glouton par empilement de RBM permet une réduction de la complexité de l’apprentissage liée à la profondeur du réseau [73]. Ceci explique pourquoi les DBN ont été utilisés dans de nombreuses applications de traitement du signal, comme détaillé dans [74]. Les applications du Deep Learning dans le domaine de l’acoustique et du traitement de la parole sont largement discutées dans [70]. Une stratégie d’apprentissage dite gloutonne (voir [75]) de représentations sur un réseau profond utilise les machines de Boltzmann restreintes.
Les machines de Boltzmann restreintes (RBM)
Machines de Boltzmann et restrictions
Les machines de Boltzmann, décrites dans [76] et [77], sont des réseaux utilisés pour apprendre des représentations internes dans des problèmes à la combinatoire élevée (voir Figure 24). Leur nom provient de la distribution de Boltzmann, modèle physique utile pour prédire la distribution des particules d’un gaz entre différents niveaux d’énergie.
Dans une machine de Boltzmann, de même que dans un réseau de Hopfield, des unités binaires sont connectées de façon à former un réseau dont l’énergie globale est définie comme une combinaison des états de ces unités plus un biais. Une machine de Boltzmann restreinte est un réseau de neurones stochastique capable d’apprendre une distribution de probabilités à partir d’unités d’entrée. Les unités des différentes couches peuvent être activées (on) ou 64 désactivées (off). Ces unités sont connectées les unes aux autres par des liens bidirectionnels. Les poids affectés à ces connexions sont symétriques, c’est-à-dire que le poids du neurone au neurone est égal au poids du neurone au neurone . Les poids peuvent prendre des valeurs positives ou négatives. La probabilité qu’une une unité se trouve dans un état on dépend de la distribution des unités voisines ainsi que des connexions entre ces unités. Dans une machine de Boltzmann, les seules restrictions sont qu’aucune unité n’a de connexion avec elle-même et que toutes les connexions sont symétriques. Cependant, en raison de leur grande complexité, ces réseaux sont bien moins utilisés que les Machines de Boltzmann Restreintes (RBM), qui sont des Machines de Boltzmann dans lesquelles les connexions entre les unités sont limitées, formant ainsi un graphe biparti [78]. Les Machines de Boltzmann Restreintes se sont largement répandues depuis 2006 grâce aux progrès des capacités de calcul [72] et au développement d’algorithmes rapides. Les applications les plus courantes des RBM sont la réduction de dimension, la classification et la modélisation et peuvent être utilisées de façon supervisée ou non.
Les RBM vérifient les propriétés suivantes :
• Elles ont une seule couche d’unités binaires stochastiques cachées .
• Il n’y a pas de connexion entre les unités visibles, de même entre les unités cachées, les seules interactions possibles sont les connexions entre une unité cachée et une unité visible (voir Figure 25) .
• Les unités cachées sont conditionnellement indépendantes connaissant les unités visibles.
Principes physiques de l’imagerie ultrasonore
Dans la technique de l’échographie (détaillée dans [84], qui a inspiré cette description) des ondes ultrasonores sont émises dans la direction du milieu que l’on souhaite imager. Ces ondes sont des ondes dites de pression et leur propagation est à l’origine d’un phénomène de compression puis de dilatation du milieu traversé, phénomène qui se propage dans le milieu. Chaque milieu est caractérisé par une vitesse de propagation de l’onde, qui dépend de sa densité et de son élasticité. La vitesse de propagation d’une onde ultrasonore est de 1480 m/s dans l’eau, contre 1540 m/s dans les tissus mous. En revanche, dans les tissus osseux, la vitesse de propagation d’une onde ultrasonore atteint 3000 m/s. Dans l’air, cette vitesse est de 340 m/s. On définit l’impédance acoustique d’un milieu comme le produit entre la densité du milieu et la vitesse de propagation d’une onde dans ce milieu. = , (33).
Deux phénomènes se produisent à l’interface de deux milieux : réflexion et réfraction (voir Figure 29). Dans le cas d’une réflexion, le faisceau est réfléchi d’un angle identique à l’angle d’incidence. Pour une réfraction, le faisceau incident est dévié d’un angle dont la valeur dépend du rapport entre les vitesses de propagation de l’onde dans les milieux traversés.
Fonctionnement d’un transducteur ultrasonore
Un transducteur ultrasonore, comme présenté dans [84], est un dispositif permettant la conversion d’un signal électrique en une onde ultrasonore et réciproquement, en utilisant l’effet piézoélectrique. Les matériaux piézoélectriques ont en effet la propriété de se polariser électriquement sous l’effet d’une contrainte mécanique et de se déformer lorsqu’un champ électrique leur est appliqué. Si un matériau piézoélectrique est soumis à un champ électrique alternatif, il subit une alternance périodique de compression et dilatations, ce qui produit une onde de pression. Un transducteur échographique utilise l’effet piézoélectrique à la fois en émission et en réception : des signaux sinusoïdaux modulés par des impulsions électriques de 74 commande sont transformés en onde ultrasonore et les échos ultrasonores (issus des réflexions) sont convertis en courants électriques. L’onde ultrasonore est modulée par des impulsions brèves, c’est ce que l’on nomme une émission pulsée. Ainsi, l’onde ultrasonore n’est pas émise en continu, il y a un temps d’attente entre chaque émission. L’onde émise par le transducteur est transmise dans les différents milieux étudiés et se propage dans les tissus. Lors du passage entre deux milieux d’impédances acoustiques différentes, les phénomènes de réflexions et de diffusions sont à l’origine d’échos qui se propagent en direction du transducteur. Durant le temps d’attente, le transducteur est en mode récepteur et peut donc convertir ces échos en signal électrique. La distance entre l’émetteur et l’interface d’où provient l’écho est déduite du temps de vol , durée qui sépare l’émission de l’onde de la réception de l’écho. = (36).
La vitesse de propagation de l’onde dans les tissus mous est de 1540 m/s. Comme une nouvelle émission ne peut avoir lieu tant que les échos n’ont pas été détectés, la durée entre deux émissions est fonction de la profondeur d’exploration. Ainsi, il y a un choix à faire entre une fréquence d’émission élevée et une grande profondeur d’exploration. Un transducteur échographique possède une centaine d’éléments piézoélectriques disposés de façon linéaire ou bien convexe. La sonde que nous avons utilisée est une sonde microconvexe pourvue de 128 éléments piézoélectriques. Dans le mode d’affichage de l’échographe le plus couramment utilisé, le temps de vol de l’écho et la position de l’élément piézoélectrique sur le transducteur permet de déterminer la position d’un point dans l’image. Des niveaux de gris permettent de représenter l’amplitude du signal électrique fourni par l’élément piézoélectrique. Pour un système échographique, il y a deux types de résolution spatiale : la résolution axiale et la résolution latérale. La résolution axiale concerne la résolution dans l’axe du faisceau ultrasonore, tandis que la résolution latérale est la résolution dans un plan perpendiculaire au faisceau. La résolution temporelle est la fréquence de répétition des images et dépend de la profondeur d’exploration maximale souhaitée.
L’électroglottographie
L’électroglottographie permet de mesurer un corrélat du signal de source du conduit vocal, ce qui est très utile dans notre cas, car il n’existe pas de mesure directe de l’activité de la source glottique. L’utilisation d’un électroglottographe (EGG) nous permet ainsi d’estimer les 75 paramètres de source indépendamment du filtrage opéré par le conduit vocal. L’électroglottographie repose sur la mesure de la différence de potentiel électrique entre deux électrodes placées au niveau du cou d’un sujet [17]. La mesure de cette tension permet, pour un courant constant, d’avoir accès à l’impédance électrique du cou. Cette impédance est fonction de l’ouverture glottique : elle augmente lorsque l’air peut circuler au niveau de la glotte car l’air est moins bon conducteur que les tissus humains. En effet, une ouverture glottique, étant par définition une diminution du contact entre les plis vocaux, sera caractérisée d’un point de vue électrique par une augmentation de l’impédance et donc de la tension entre les deux électrodes. A l’inverse, une fermeture glottique résulte d’un contact plus grand entre les plis vocaux et se traduit donc par une diminution de la tension entre les deux électrodes. Un électroglottographe est constitué d’un générateur qui fournit un courant alternatif dont la fréquence est de l’ordre du MHz, de deux électrodes et d’un circuit de démodulation de fréquence. L’ensemble est complété par un filtre passe-haut de fréquence de coupure comprise entre 5 et 40 Hz, qui permet d’éliminer les basses fréquences parasites. En effet, les mouvements du sujet, les contractions des muscles dans la zone du cou, ou le débit sanguin dans les artères et les veines ajoutent des artefacts basse fréquence sur le signal et n’indiquent en rien l’activité glottique. L’impédance mesurée varie à la fréquence de vibration des cordes vocales. La tension recueillie subit une modulation à cette fréquence. On retrouve dans la période de ce signal la période fondamentale du son émis. Le signal EGG est par ailleurs très riche en harmoniques et de l’énergie est visible dans ce spectre jusqu’à environ 20 kHz. Le signal EGG donne une information sur le contact entre les plis vocaux.
Choix du matériel
Nous souhaitons visualiser de façon non-invasive les mouvements des articulateurs ainsi que de façon plus générale les gestes vocaux du chanteur pendant la pratique du chant. Diverses études ont montré que la combinaison de plusieurs capteurs permet d’acquérir des données articulatoires (voir [86], [87] et [88]) et même de permettre le développement d’interfaces de parole silencieuses (voir [89], [90], [91]). Un microphone permet d’enregistrer le son produit par le chanteur. Afin d’étudier les mouvements de la langue, nous avons choisi l’imagerie échographique. Les mouvements des lèvres peuvent être enregistrés à l’aide d’une caméra. Un électroglottographe nous donne accès à des informations sur la source glottique. Nous avons choisi de rajouter deux capteurs, un accéléromètre positionné au niveau du nez afin de mesurer la nasalité du son et une ceinture de respiration placée au niveau du torse.
Afin de compenser les mouvements des chanteurs lors de leurs performances, une partie des capteurs ont été fixés sur un casque [92] (voir Figure 31), tandis que les autres sont directement placés en contact avec une partie du corps du chanteur. La sonde échographique, la caméra ainsi que le microphone sont fixés sur le casque. L’accéléromètre est placé directement sur le nez du chanteur, un « collier » permet de maintenir les électrodes de l’électroglottographe en place et une ceinture de respiration permet de mesurer l’amplitude des mouvements de respiration au niveau de la poitrine [93].
Cas de l’échographie
Pour l’imagerie de la langue, le choix d’une sonde convexe dont la fréquence d’émission est comprise entre 4 et 8 MHz est approprié. Afin de suivre de manière précise l’activité de la 77 langue, nous avons choisi un système d’acquisition à 60 Hz. Afin d’obtenir une coupe sagittale de la langue, la sonde doit être placée sous le menton et rester en contact avec la mâchoire tout au long de la production de son. L’utilisation de gel permet de limiter la présence d’air entre la mâchoire et la sonde. La difficulté est de maintenir de façon constante le contact entre la mâchoire et la sonde. Plusieurs approches sont possibles. L’approche choisie dans le système HATS [94] consiste à maintenir fermement la tête et la sonde dans une position donnée. L’ajout d’un petit coussinet rempli de gel sur la sonde permet de ne pas trop perturber la production et autorise un léger mouvement de la mâchoire. Le coussinet conserve le contact acoustique et se déforme en fonction des mouvements de la mâchoire inférieure. Cependant, ce genre de système est assez contraignant pour le locuteur. Il est également possible de n’imposer des contraintes que sur une partie du système, en ne fixant que la sonde à un support et en laissant au locuteur la possibilité de bouger sa tête. La mâchoire inférieure étant contrainte par la sonde, c’est la partie supérieure du crâne qui peut basculer vers l’arrière. On peut aussi maintenir immobile la tête du sujet (appui du front et du menton) mais laisser la sonde libre, en la tenant à la main par exemple. La sonde suit ainsi les mouvements de la mâchoire inférieure. D’autres types de systèmes ont été développés, en utilisant un casque sur lequel est fixée la sonde afin de maintenir le contact entre la sonde et la mâchoire du locuteur. Dans ces systèmes, la sonde et la tête peuvent se déplacer l’une par rapport à l’autre et il peut alors s’avérer intéresser de compenser l’un ou l’autre des mouvements. A l’inverse, le casque développé au laboratoire possède une plateforme de support ajustable pour le capteur ultrasonore, afin de le maintenir en contact avec le menton. La sonde que nous avons utilisée est une sonde microconvexe pourvue de 128 éléments piézoélectriques, conçue et réalisée afin d’en diminuer la taille et le poids. La taille ainsi que la fréquence de ces éléments piézoélectriques constituent des caractéristiques qui influent largement sur les propriétés de la sonde. Le champ d’émission de la sonde est de 140° permettant une bonne visualisation du mouvement de la langue. L’échographe que nous utilisons est le Terason T3000, un système léger et portable qui permet néanmoins l’enregistrement d’images de bonne qualité via la connexion Firewire d’un ordinateur.
Les autres capteurs
Le casque permet l’acquisition simultanée des données sur le conduit vocal, grâce à une sonde ultrasonore, mais aussi une caméra pour visualiser les mouvements des lèvres et un microphone pour enregistrer le signal acoustique. Afin de s’affranchir du problème des variations d’éclairages, qui pourrait impacter l’efficacité des algorithmes de traitement des images, la caméra est équipée d’un filtre permettant de filtrer la lumière visible ainsi que d’un anneau de LEDs infrarouges. Un micro-cravate de la marque Audio-Technica Pro 70 est également fixé sur le casque afin d’enregistrer le signal acoustique. Par ailleurs, nous avons également choisi d’inclure trois autres capteurs qui ne sont pas fixés sur le casque. Ces autres capteurs sont en effet directement maintenus sur le corps du chanteur. Il y a un accéléromètre positionné sur le nez du chanteur, permettant de mesurer son activité nasale au cours de la phonation. Cet accéléromètre enregistre les vibrations au niveau du nez, d’où peuvent être extraits des marqueurs de nasalité. Un électroglottographe (EGG) (de la marque Glottal Enterprises Inc., modèle EG2-PCX2) est attaché au cou du chanteur. Ce capteur permet d’enregistrer un signal temporel dont les variations permettent de déterminer de façon fiable les ouvertures et fermetures glottiques. Un autre capteur, une ceinture de respiration, positionnée au niveau de la poitrine du chanteur, permet de mesurer la fréquence et l’amplitude des respirations du chanteur.
Informations contenues dans les données
Nous souhaitons obtenir des images sagittales de la langue. Pour cela, la barrette de transducteurs piézoélectriques de la sonde doit être placée dans le sens de la longueur de la langue. Cette coupe permet de visualiser l’interface entre la partie supérieure de la langue et l’air. A gauche et à droite de l’image se trouvent des ombres acoustiques, qui sont dues à la présence d’os, à savoir l’os hyoïde à gauche et l’os de la mâchoire à droite. En effet, les tissus osseux réfléchissent presque entièrement le faisceau ultrasonore et l’onde n’est pas transmise. Il arrive parfois que l’ombre acoustique de la mâchoire masque une partie de la langue. Ainsi, il n’est pas possible d’avoir une information fiable sur la position de la pointe de la langue. De même, la position du palais n’est pas directement visible, elle peut seulement être déduite du contact avec la langue. Un mouvement de déglutition permet de repérer la position du palais.
Nous souhaitons obtenir des images permettant de détecter le degré d’ouverture des lèvres. Les variations de niveau de gris entre les lèvres et l’intérieur de la bouche ou les dents doivent être suffisantes pour permettre de segmenter l’image de façon automatique, indépendamment de l’éclairage. L’association du filtre permettant de filtrer la lumière visible et de l’anneau de LED infrarouges permet d’obtenir des images de luminosité constante. Nous obtenons donc des images en noir et blanc, dont l’intensité lumineuse est stable. Sur ces images, l’information essentielle est la forme des lèvres.
Le microphone doit permettre l’acquisition d’un signal acoustique malgré les mouvements et les gestes des chanteurs. Le système de fixation du microphone sur le casque permet d’enregistrer des signaux acoustiques pour lesquels la distance lèvres-microphone est constante. Ces signaux doivent être synchronisés avec les autres signaux enregistrés à l’aide de la carte son [92].
Le signal électroglottographique nous intéresse pour extraire des informations sur ses portions pseudopériodiques, en particulier pour les sons voisés. Sur ce signal, il est possible de détecter la période fondamentale ainsi que les instants de fermeture glottique et les paramètres de qualité vocale qui en découlent. Cependant, les conditions d’enregistrements n’excluent pas la présence d’artefacts dans le signal électroglottographique, principalement dus à des mouvements des muscles du cou.
Le signal issu de l’accéléromètre contient les informations de nasalité du chant. En effet, ce signal est quasi-nul pour des sons oraux et possède une amplitude significative dans le cas de sons nasaux.
Le signal de respiration est un signal qui a la particularité d’avoir une fréquence bien plus faible que les autres signaux enregistrés. Alors que les fréquences du signal acoustique, du signal électroglottographique et du signal issu de l’accéléromètre sont de l’ordre de la centaine de Hz, le signal de respiration est de l’ordre du Hz. La carte audio n’étant pas prévue pour enregistrer des fréquences aussi basse (elle inclut un filtre passe-bas à 1 Hz), nous avons dû faire une modulation d’amplitude afin d’enregistrer des informations de respiration.
|
Table des matières
1 Contexte
1.1 La production vocale
1.1.1 Description de l’appareil phonatoire
1.1.2 Contrôle de la production de parole
1.1.3 Contrôle de la qualité vocale
1.2 Les techniques de chant rares
1.2.1 Le Cantu in paghjella (chant traditionnel de Corse)
1.2.2 Le Canto a Tenore (chant traditionnel sarde)
1.2.3 La musique byzantine
1.2.4 Human Beat Box
1.3 Modèles pour l’analyse et la synthèse de la voix
1.3.1 Introduction à l’analyse et la synthèse vocale
1.3.2 La synthèse vocale
1.3.3 Naturalité et intelligibilité
1.4 Méthodes d’apprentissage statistique
1.4.1 Introduction à l’apprentissage statistique
1.4.2 Notions de Shallow learning et Deep Learning
1.4.3 Les machines de Boltzmann restreintes (RBM)
1.4.4 Empilement de RBM
1.5 Enregistrement de données articulatoires
1.5.1 Les méthodes d’enregistrement de données articulatoires
1.5.2 L’échographie
1.5.3 L’électroglottographie
1.5.4 Choix du matériel
1.5.5 Informations contenues dans les données
1.5.6 Acquisition de données
2 Extraction du contour de langue à partir d’images échographiques
2.1 Introduction
2.2 Méthodes d’extraction du contour de langue à partir d’images échographiques
2.2.1 Méthodes d’extraction du contour
2.2.2 Méthodes de suivi de contour
2.3 Prétraitement des images échographiques
2.3.1 Traitement des images échographiques
2.3.2 Utilisation d’un contour initial pour l’apprentissage
2.3.3 Outil d’extraction du contour initial
2.4 Utilisation d’un autoencodeur profond pour l’extraction automatique du contour de la langue
2.4.1 Description de la phase d’apprentissage
2.4.2 Reconstruction du contour à partir de l’image ultrasonore seule
2.4.3 Conversion des images de sortie en contours
2.5 Méthodes pour l’évaluation des résultats de reconstruction du contour
2.5.1 Critères d’évaluation
2.5.2 Base de données et applications
2.6 Choix de l’architecture de l’autoencodeur
2.6.1 Profondeur du réseau
2.6.2 Complexité du réseau
2.6.3 Taille des mini-batches
2.6.4 Nombre d’itérations
2.7 Qualité du contour reconstruit
2.8 Discussion
3 Synthèse vocale à partir des mouvements des articulateurs
3.1 Introduction
3.2 Calcul des variables à prédire : prétraitements du signal acoustique
3.2.1 Ordre de prédiction LPC
3.2.2 Calcul des LSF de référence à partir du signal acoustique
3.2.3 Détection du voisement
3.2.4 Filtrage des LSF
3.3 Construction de modèles multimodaux de l’articulation
3.3.1 Une approche linéaire : projection dans l’espace des EigenLips et EigenTongues
3.3.2 Une approche non linéaire : Autoencodeurs profonds
3.3.3 Gestion de la multimodalité
3.3.4 Sélection de descripteurs
3.3.5 Prédiction des valeurs des LSF
3.3.6 Comparaison entre les méthodes
3.4 Méthodes de synthèse vocale
3.4.1 Utilisation de signaux d’excitation
3.4.2 Construction de signaux d’excitation
3.5 Application à une base de voyelles chantées isolées
3.6 Application à une base de chants traditionnels
3.6.1 Choix de l’architecture profonde
3.6.2 Construction du signal d’onde de débit glottique
3.6.3 Choix des descripteurs
3.6.4 Résultats de prédiction des LSF
3.7 Evaluation perceptive
3.8 Discussion
4 Références
Télécharger le rapport complet