La technologie utilisée par Voxygen
Nous allons, dans cette partie, nous intéresser à la technique de synthèse la plus usitée aujourd’hui puisqu’elle est aussi la plus naturelle, celle qui restitue le mieux la parole et l a plus fidèle à la voix d’origine ; la synthèse par concaténation, qui, au gré de ses évolutions est aujourd’hui appelée synthèse par sélection d’unités ou synthèse par corpus. C’est donc naturellement que l’ancienne équipe France Télécom, aujourd’hui Voxygen, a choisi d’orienter ses recherches et de construire son architecture selon cette méthode.
Pour commencer, nous allons nous pencher sur la technique de synthèse considérée comme le point de départ de la synthèse par sélection : la synthèse par concaténation de diphones. Cette technique de synthèse a vu le jour principalement pour deux raisons. Premièrement, les chercheurs se sont rendu compte de l’importance des transitions entre phonèmes et de l’impact qu’elles pouvaient avoir sur la perception du signal (intelligibilité, naturel). Deuxièmement, les méthodes de synthèse utilisant des règles ou imitant l’appareil phonatoire pour construire des sons ne permettent pas de fabriquer un signal suffisamment naturel et intelligible.
De ce deuxième constat est née l’idée de construire des bases de données sonores directement à partir des enregistrements d’un locuteur. Les unités acoustiques utilisées sont donc issues de parole réelle. Le signal est alors fabriqué en concaténant les diphones présents dans la base, selon le texte produit. Le choix du diphone comme unité de sélection est venu du premier constat évoqué plus haut ; l’impact des transitions entre les phonèmes. En effet, le diphone s’étendant du milieu (partie stable) du phonème courant au milieu d u phonème suivant, on prend appui sur les zones stables des phonèmes, ce qui facilite les concaténations.
Malheureusement, les problèmes engendrés par cette technique sont principalement liés à la prosodie restituée par le signal. En effet, en utilisant une unité acoustique si courte, la prosodie obtenue par concaténation est très monotone. On applique donc une prosodie calculée par des algorithmes de traitements du signal, mais le résultat obtenu ne renvoie pas l’image d’une parole naturelle et suffisamment intelligible. De plus, le fait d’utiliser le diphone engendre des discontinuités acoustiques pour chaque concaténation et une mauvaise prise en compte des phénomènes de coarticulation portant sur plus d’un diphone, renvoyant une synthèse artificielle et parfois difficilement intelligible. [Cadic, D., 2011]
La figure ci-dessous présente le mot «virgule» découpé en phonèmes. En bleu les marqueurs de frontières de phonèmes et en jaune les marqueurs de milieu de phonèmes. A partir de cette figure, nous pouvons illustrer un découpage en diphones.
Au vu du manque de cohérence et de naturel lié à la synthèse par concaténation de diphones, la nécessité de prendre en compte des unités plus longues a rapidement émergé. Les études se sont donc orientées vers l’utilisation des triphones, quadriphones, syllabes ou même de mots entiers, nmais un problème de volume des enregistrements et des corpus nécessaires a empêché les techniques d’aboutir. C’est alors que l’idée d’utiliser des unités de longueurs variables voit le jour.
C’est cette direction que Voxygen à choisi de suivre.
Bien qu’elle reste une technique de concaténation d’unités puisque son principe fondamental repose sur la juxtaposition d’unités, la synthèse utilisée par Voxygen est plutôt appelée synthèse par sélection d’unités ou synthèse par corpus. En effet, la plus petite unité pouvant être sélectionnée reste le diphone pour sa restitution des transitions entre phonèmes, ce qui empêche des concaténations sur des zones non stables, mais le fait de sélectionner des unités de longueur s variables implique d’être en mesure de sélectionner l’unité la plus adaptée au contexte attendu. Plus précisément, après la constitution d’un corpus d’enregistrement, un locuteur enregistre un nombre de phrases conséquent et pertinent dans une langue donnée afin de couvrir potentiellement tous les sons présents dans la langue, ce qui constitue la base de données sonores du système, en somme, le point de départ de la synthèse vocale. La particularité de Voxygen est sa spécialisation dans la création de voix expressive. Pour cela, elle intègre à son processus de création de voix des règles de spécificité prosodique telles que la position syllabique, l’intonation montante ou descendante, la structure syllabique, etc, qui permettent l’utilisation d’une même un ité dans différents contextes, tout en garantissant une prosodie naturelle. Chaque unité est représentée dans des contextes linguistiques et prosodiques différents. La difficulté réside donc, pour l’algorithme de sélection utilisé, dans la quantité de données à traiter et les choix à effectuer, tant au niveau linguistique, qu’aux niveaux phonétique et prosodique. L’algorithme est donc construit de façon à sélectionner les unités en fonction de ce que l’on appelle le coût cible et le coût de concaténation se lon les unités présentes dans la base de données. Nous expliquerons plus précisément dans la partie 2_I de ce travail en quoi consiste le coût de concaténation , nous allons ici nous pencher sur la notion de coût cible.
Comme évoqué plus haut, le système de synthèse utilisé par Voxygen prend comme unité élémentaire le diphone. Le coût cible attribué aux unités est donc basé sur les diphones contenus dans la base. Pour chaque entrée textuelle proposée, plusieurs candidats potentiels pour chaque unité sont présélectionnés en fonction de leurs caractéristiques linguistiques, prosodiques et syntaxiques et de leurs caractéristiques transitoires (c’est sur ces caractéristiques liées à la concaténation que le coût de concaténation est attribué), ce qui constitue ce que l’on appelle un treillis d’unités
Le coût cible est alors attribué à chaque candidat du treillis en fonction de l’écart entre ses,caractéristiques et celles de la cible attendue et le coût de concaténation en fonction des distorsions plus ou moins importantes engendrées, que nous détaillerons dans la partie 2_I de ce travail.
Évidemment, deux diphones présents côte à côte dans la base, se verront attribuer un coût de concaténation nul (ce qui ne sera pas forcément le cas du coût cible), il est donc possible de trouver des unités beaucoup plus longues que le diphone selon le contenu de la phrase d’entrée.
Théoriquement, il serait tout à fait possible de trouver dans la base une phrase entière, ce qui renverrait un signal de synthèse totalement naturel puisqu’extrait tel quel de la base. L’intérêt d’un tel système de synthèse, qui permet de sélectionner des unités de longueurs variables en attribuant ces coûts, est évidemment de pouvoir sélectionner les unités les plus longues possibles afin de limiter les distorsions liées aux concaténations (les phénomènes de coartic ulation sont donc mieux pris en compte) et de favoriser telle ou telle unité en fonction de ses caractéristiques prosodiques.
Ceci permet de construire un signal de parole synthétique de meilleure qualité et relativement naturel grâce à la prise en compte de la prosodie directement dans la sélection des unités.
Fragile à l’intérieur, robuste à l’extérieur
Définition
Avant d’entrer réellement dans une définition précise de la notion de sandwich, nous devons donner une précision phonémique. En effet, Il est important d’introduire deux notions avant de passer à la suite : le phonème fragile et le phonème robuste. Les phonèmes sont tous différents et présentent tous des variantes de prononciation, d’ouverture, de voisement, etc. Il est donc important de les classifier en amont, afin de bien comprendre leurs mécanismes, permettant ou non la concaténation. En effet, tous les phonèmes ne se comportent pas de la même manière à la synthèse et la concaténation n’aura pas le même im pact sur tous les phonèmes. D’autre part, la classification des phonèmes diffère selon les langues, il est donc primordial d’adapter cette classification.
La classification des phonèmes se fait en fonction de leurs caractéristiques phonétiques et articulatoires : voisement, ouverture, lieu d’articulation. En fonction de ces caractéristiques, on peut définir leur facilité de concaténation, selon laquelle on applique un principe de coût appelé «coût de concaténation». Le coût de concaténation consiste à a ttribuer un coût entre 1 et 10 à chaque phonème, 1 étant attribué aux phonèmes robustes, 5 aux liquides et au /e/ muet et 10 aux phonèmes fragiles, pour permettre à l’algorithme de sélection des unités de toujours choisir le «chemin» le moins coûteux. Ce coût est donc calculé en fonction des «distorsions acoustiques qui résulteraient d’une concaténation» [Cadic, D., 2011]. Ainsi, l’algorithme fera en sorte de n’effectuer des concaténations que sur des phonèmes non coûteux, les phonèmes dits «robustes», et d ’épargner les phonèmes dits «fragiles».
Motivation de son utilisation et sélection des unités
Comme abordé plus tôt, le diphone est l’unité représentative minimale utilisée dans la synthèse par concaténation mais elle n’est pas suffisante, d’une part, pour couvrir tous les contextes linguistiques et prosodiques d’un corpus, et d’autre part, sa petite taille engendre des discontinuités phonétiques dérangeantes. Les corpus d’enregistrements construits pour la synthèse sont souvent composés de milliers de phrases qui peuvent supporter une couverture par des unités plus longues que le diphone comme le triphone, la syllabe ou même le mot ou le sandwich. Nous allons ici nous intéresser à cette dernière unité.
Cette unité, de longueur variable en fonction des corpus et des parties à couvrir, permet une couverture des unités en contexte. En effet, chaque unité est alors caractérisée non seulement par son contenu phonétique, linguistique et prosodique mais aussi par son environnement phonétique, linguistique et prosodique.
Outre les questions contextuelles, l’intérêt d’une telle unité réside dans sa capacité à protéger les phonèmes fragiles des concaténations. En effet, ce coût étant directement corrélé à la qualité de la synthèse, on peut facilement affirmer que le fait d’utiliser le sandwich réduira ce coût de concaténation et permettra donc d’appréhender une synthèse de meilleure qualité.
Par ailleurs, la sélection des unités dans le processus de synthèse dépendant de la constitution du corpus et donc de la couverture de la langue, il est nécessaire, pour que le système sélectionne des sandwiches, que ceux-ci soient présents dans la base de données. De plus, comme évoqué plus haut, les unités ne doivent pas seulement remplir des contraintes phonétiques dans leur contenu mais également des contraintes phonétiques, linguistiques et prosodiques dans leur environnement.
Pour cela, il est préférable, surtout dans le cas de Voxygen qui met un point d’honneur à proposer des voix multi-expressives, que les unités soient toujours multi-représentées.
L’utilisation du sandwich vocalique comme unité est, en conséquence, motivée par sa capacité à protéger et anticiper les discontinuités phonétiques et prosodiques liées aux nombreuses concaténations nécessaires à la synthèse, en protégeant les parties fragiles par des parties robustes.
De plus, le sandwich permet, de par son inclusion des phonèmes fragiles en son milieu, de mieux prendre en compte les phénomènes de coarticulation le plus souvent engendrés par les voyelles, les semi-voyelles et les liquides, phonèmes considérés justement comme des phonèmes fragiles.
Mise en pratique
Mavoa
Pour illustrer le principe de prise en compte du sandwich dans la sélection des unités et en démontrer concrètement l’utilité et l’importance, nous allons nous pencher sur un des travaux effectués durant ce stage : l’écriture de scénarios pour l’application Mavoa.
Dans l’idéal, il serait intéressant de pouvoir contrôler les valeurs des enr de chaque unité sélectionnée pour pouvoir les faire coïncider avec la cible , mais cela ne serait possible qu’après enregistrement des phrases et représenterait un travail très fastidieux.
Mis à part ces contraintes syntaxiques, les segments sélectionnés doivent évidemment renvoyer la même phonétique que les segments de la cib le. En effet, si le processus d’écriture n’est pas automatique, le processus de synthèse, lui, l’est. Il s’agit donc de «prédire» les meilleures unités afin que le système Baratinoo puisse sélectionner ce qui synthétisera la phrase cible dans les phrases du corpus. Une des difficultés de ce travail d’écriture a été de construire à la main des phrases contenant les bonnes unités dans une langue étrangère, ce qui ralenti sans doute le travail. Mais la principale difficulté a été de respecter les contraintes citées ci-dessus. En effet, les contraintes sur la position syllabique, le contexte phonétique ou encore le type de voyelle rendent le travail compliqué et réduisent les possibilités. Cependant, agissant sur la prosodie de l’énoncé elles sont très importantes dans la synthétisation de l’expression, point d’honneur des travaux de l’entreprise.
De plus, et c’est le point crucial de notre exposé, le découpage des unités est l’enjeu majeur du fonctionnement de l’application. Comme déjà explicité, la plus peti te unité sélectionnée est le diphone (milieu du phonème courant jusqu’au milieu du phonème suivant), mais des unités plus longues peuvent être prises en compte, par exemple, le sandwich. Dans le travail d’écriture de scénarios pour Mavoa, l’intérêt est d’écrire des phrases contenant les segments les plus longs possibles potentiellement «concaténables» dans la synthèse. En effet, le corpus étant court, il est beaucoup plus intéressant de sélectionner des unités longues pour obtenir une synthèse de bonne qualité. Si seul le diphone était sélectionné, les concaténations seraient beaucoup trop nombreuses et la synthèse pas assez naturelle. Ici, le sandwich permet de restituer une parole beaucoup plus naturelle puisque les unités sont directement issues du signal enregistré.
Voici trois exemples de scénarios espagnols qui illustrent bien la notion de sandwich (notons toutefois que la notion de sandwich dans le cadre de Mavoa est un peu particulière puisque nous nous permettons d’y inclure des phonèmes robustes. L’intérêt ici est de sélectionner des unités longues, commençant et se terminant par des phonèmes robustes afin de protéger d’éventuels phonèmes fragiles de la concaténation).
De l’importance du choix des corpus
La création d’une nouvelle voix, et plus loin encore, d’une nouvelle langue, dans un système de synthèse vocale impliquent la constitution préalable de ce que l’on appelle un corpus. Ce corpus très volumineux est constitué d’un ensemble de phrases correspondant à la représentation d’une langue, et dans le cas d’une voix dédiée à une application, il représente le domaine complet. A partir de ce corpus, un script condensé est mis en place ; il correspond à ce que l’on souhaite couvrir dans une langue et une application données et est ensuite mis en forme pour l’enregistrement.
Cependant, ces deux étapes de création diffèrent selon le type de synthèse, la cible que l’on vise, le domaine applicatif.
Nous allons donc voir dans cette partie comment, selon le type de synthèse recherché, les corpus sont construits et les scripts de lecture optimisés. Nous verrons donc, dans un premier temps, trois procédés différents appliqués à trois applications différentes. Nous expliquerons dans le même temps la notion d’entonnoir dont nous avons choisi de qualifier le processus de création de corpus et de scripts condensés. Dans un deuxième temps, nous montrerons en quoi la création d’une voix se joue en deux dimensions : la dimension phonétique et la dimension prosodique. Enfin, en troisième partie, nous montrerons, à travers les travaux réalisés, comment la cible prévue pour la synthèse influe sur la construction du corpus et du script condensé.
Différents procédés pour différentes mises en oeuvre
La vocation première de Voxygen est de créer des voix dites «complètes», capables de vocaliser n’importe quelle entrée textuelle dans une langue donnée, on parle de synthèse «Full TTS». L’objectif d’une telle mise en oeuvre est de pouvoir couvrir tout le vocabulaire de la langue, dans tous les contextes envisageables. Pour cela, la création de ce que l’on appelle un corpus est nécessaire. Ce corpus est construit à partir de différentes sources :
sous-titres de films,
SMS,
romans,
journaux,
chroniques historiques,
wikipédia…
Deux obstacles se présentent néanmoins :
la difficulté à trouver des sources qui soient nombreuses, variées et faisant partie du domaine publique,
la difficulté à «nettoyer» les corpus.
En effet, les journaux, bien que constituant une immense source dans des langages divers et variés et relativement accessibles, ne permettent pas, par exemple, d’obtenir de données écrites à la première ou à la deuxième personne. C’est pourquoi des sources de type conversationnel sont introduites. Par ailleurs, les corpus recueillis n’étant pas utilisables tels quels, il est nécessaire de les «nettoyer». Ce travail de nettoyage consiste à normaliser le format d’encodage des textes (UTF-8), à lisser le texte en ajoutant des balises de mises en forme, à supprimer d’éventuelles fautes d’orthographes, etc.
Le but de ce processus est d’obtenir un corpus assez grand (plusieurs millions de phrases) pour représenter potentiellement toute la langue, il est donc primordial de varier les sources et ainsi créer le plus d’effets de langage possibles. Cependant, il est nécessaire de préciser qu’il ne s’agit que d’une «représentation». En effet, la langue étant un concept infini, présentant un nombre infini de variantes, il serait impossible de la représenter dans sa totalité. Cela impliquerait de pouvoir enregistrer toute la langue et la définition même de la synthèse vocale par concaténation n’aurait plus lieu d’être.
La deuxième étape du processus de création de voix complète est le «parsing». Cette étape consiste à passer le corpus de phrases dans un module de parsing de Baratinoo qui va analyser la structure morphosyntaxique du texte, le découper en groupes de souffle et attribuer à chacun des statistiques de couverture et des valeurs prosodiques. Ces groupes de souffle sont définis différemment selon les langues. Par exemple, en français, ils sont définis par la ponctuation, ainsi, le parsing découpera le texte à chaque fois qu’il rencontrera un point, une virgule, un point d’interrogation, etc. En anglais, par contre, les groupes de souffle sont découpés grâce à un arbre de décisions appris sur des corpus annotés manuellement car le découpage systématique sur des ponctuations comme en français n’est pas envisageable.
Ensuite, pour chaque groupe de souffle, le parsing va donner toutes les séquences de diphones, sandwiches, clusters consonantiques et triphones présentes dans le corpus en attribuant à chacun des phonèmes une suite d’ENR (voir partie 2_III_A) et seulement aux voyelles, ce que l’on appelle un contexte. Le contexte de chaque voyelle est prédéf ini dans des fichiers dits de «regroupement» qui permettent, pour chaque langue et selon la cible que l’on souhaite atteindre, de réduire l’univers à couvrir (par conséquent le nombre de phrases). Les regroupements permettent de rassembler certaines unités ayant des caractéristiques proches. On n’agit ici que sur les voyelles car ce sont les phonèmes que l’on souhaite représenter le plus précisément pour les protéger des concaténations et ce sont également les phonèmes qui portent le mieux la prosodie. Par exemple, en français, on regroupe toutes les unités (voyelles) en fonction de leur position syllabique et de leur marqueur mélodique en ne les discriminant pas par leur structure syllabique. C’est-à-dire que pour un ensemble de phonèmes ayant la même position syllabique et le même marqueur mélodique, on estime qu’en en couvrant un seul, cela suffit, peu importe que la structure syllabique de ces phonèmes soit différente. Le corpus ainsi obtenu après le parsing est appelé la «pioche». On lui donne ce nom afin d’exprimer le phénomène d’extraction qui est réalisé. En effet, on «pioche» les phrases qui nous intéressent pour la couverture des unités afin de créer le script condensé.
La troisième étape du processus est l’extraction des statistiques, c’est l’une des étapes les plus importantes puisqu’elle nous informe sur les unités qui seront sélectionnées dans le script condensé. De plus, s’agissant des unités de couverture, cette étape illustre tout à fait le cheminement de ce travail. A partir de la pioche obtenue par le parsing, des statistiques sur la fréquence d’apparition des unités vont être calculées. Ces statistiques, donnant la fréquence d’apparition des sandwiches, des diphones, des clusters consonantiques et des triphones dans chaque groupe de souffle, vont permettre d’attribuer un «score» à ces groupes de souffle, c’est ce qui constitue la dernière étape du processus
Une question de dimension
Au fil des parties développées jusqu’ici, nous avons pu évoquer deux dimensions dans la sélection des unités :
La dimension phonétique
La dimension prosodique
Nous allons donc voir dans cette partie comment, peu importe le procédé utilisé, ces deux dimensions sont dépendantes l’une de l’autre et comment, dans un processus manuel comme Mavoa, et dans un processus automatique comme la création de voix SNF, les difficultés liées à l’une ou l’autre de ces dimensions ont pu être résolues.
La création des scripts condensés se fait en fonction de paramètres phonétiques et prosodiques indispensables et indissociables pour pouvoir sélectionner les unités qui composeront une synthèse de bonne qualité. En effet, la sélection de la bonne unité est déterminée par la correspondance phonétique avec la cible ; l’unité peut donc contenir exactement les mêmes phonèmes que la cible ou bien être assimilable grâce aux regroupements permis. Mais la correspondance phonétique n’est pas suffisante pour définir la meilleure unité à sélectionner. En effet, entrent également en compte des paramètres prosodiques tels que la position syllabique, les marqueurs mélodiques, ou encore le contexte de chaque phonème, qui permettent de choisir telle ou telle unité. Ces deux dimensions sont bien sûr liées et un changement dans les paramètres de l’une ou de l’autre peut changer les coûts de sélection et ainsi donner une synthèse complètement différente.
Dans un processus manuel tel que Mavoa, on cherche avant tout, à l’écriture des scénarios, à couvrir les unités les plus longues possibles tout en gardant un effet de surprise pour l’utilisateur.
Dans un premier temps, le but est de couvrir les unités d’un point de vue phonétique. On cherche à couvrir des unités correspondantes phonétiquement. Dans un deuxième temps, la dimension prosodique est prise en compte en faisant en sorte de respecter les positions syllabiques et donc les marqueurs mélodiques de la première et de la dernière unité d’un groupe de souffle. A ce stade, les cas de structures syllabiques, des marqueurs mélodiques, etc, en milieu de groupe de souffle sont relégués au second plan. En effet, ce n’est qu’au stade de test des enregistrements et de la synthèse que l’on peut vérifier les correspondances d’enr, une fois que le dictionnaire est créé et que l’on peut voir les sorties du module «select» de Baratinoo. Ce module permet, entre autre, de voir toutes les valeurs d’enr de chaque phonème, et donc de vérifier que la sélection attendue est bien celle réalisée. Grâce à ces valeurs d’enr, on peut remarquer que la prise en compte de la prosodie influe sur la sélection des unités au même titre que la phonétique.
D’autre part, nous avons pu nous rendre compte plus tard, qu’une règle linguistique stipulait qu’un mot fonctionnel («avec») ne devait pas être remplacé par un mot non fonctionnel et donc sémantiquement plein («avant»). C’est donc cette règle qui était à l’origine de «l’ erreur» générée.
Par ailleurs, dans le cas d’un processus automatique et donc beaucoup plus lourd, l’objectif est différent. En effet, il s’agit plutôt de jouer sur les deux tableaux en même temps et donc de prendre en compte tous les critères. Dans un processus tel que la création de voix complète, l’intérêt est de définir des règles capables de sélectionner les meilleures unités, sans garantir qu’elles aient exactement les caractéristiques ciblées par la synthèse. On ne parle donc plus, dans ce cas, de «bonnes» unités puisque l’on n’attend pas réellement de cible spécifique, on cherche plutôt à ce que l’algorithme sélectionne la meilleure unité dans sa base de données, en considérant les paramètres phonétiques et acoustiques mais aussi les paramètres prosodiques et linguistiques. Il serait d’ailleurs impossible de vérifier à chaque fois et pour chaque unité les valeurs d’enr attribuées pour essayer de modifier la sélection dans un processus aussi important, c’est pourquoi on ne peut pas atteindre un taux de couverture de 100%. Par ailleurs, dans un processus tel que la création de voix contextuelles, le but est de renvoyer une synthèse de haute qualité, on cherche donc une couverture de 100% des unités. Ce taux de couverture confère au système la possibil ité de sélectionner les «bonnes» unités et non pas seulement les meilleures. En effet, le domaine étant restreint et le corpus fini, les unités sont toutes sélectionnées et correspondent à la cible attendue.
On peut donc noter, encore une fois, que le processus de sélection, à la fois pour le script condensé mais aussi pour la synthèse, est tout à fait lié à la cible applicative visée, que ce soit d’un point de vue phonétique ou prosodique.
Des attentes différentes selon l’utilisation des corpus
Maintenant que nous avons vu comment les scripts condensés et les corpus étaient construits, nous pouvons nous interroger sur les raisons et la manière dont ces corpus sont choisis suivant l’utilisation qu’il en sera faite. En effet, nous pouvons évoquer t rois façons de construire les corpus en fonction de trois utilisations différentes.
Dans un premier temps, intéressons nous au choix du corpus pour la création d’une voix complète. Nous avons eu l’occasion durant ce stage de travailler sur une voix comp lète un peu particulière : une « voix patient ». Les voix patient sont enregistrées dans le cadre du développement de l’application VoxMed, créée par Voxygen, en partenariat avec le Centre Hospitalier Universitaire Pontchaillou à Rennes. Le principe d’une telle application est de permettre à des patients atteints d’une maladie entraînant une perte partielle ou totale de leur voix, de pouvoir vocaliser n’importe quelle entrée textuelle avec leur propre voix enregistrée avant l’opération. Nous parlons ici d’une voix complète un peu particulière car, étant destinée à des patients dans un délai très court, il est nécessaire de construire un corpus qui soit le plus petit possible pour permettre des enregistrements rapides et sans soufrances.
Dans le cadre d’une voix complète donc, le corpus est défini de façon à couvrir (idéalement) toute la langue, le sens des phrases n’a donc pas vraiment d’importance. L’essentiel dans ce type de travail est d’avoir un pourcentage de couverture qui soit le plus élevé possible afin de pouvoir compter, au minimum, tous les diphones de la langue dans le script condensé. La particularité d’une voix patient réside donc dans le fait que le corpus est construit de façon à ce que le nombre de phrases soit assez réduit pour être enregistré en une seule journée. En effet, le laps de temps entre le moment où les patients sont mis au courant de la nécessité d’opérer et l’annonce de la date de l’opération qui leur privera de leur voix est très court. De plus les personnes étant malades et souvent âgées, elles se fatiguent très vite, il est donc nécessaire de constituer des scripts locuteurs assez courts.
La nécessité de construire des corpus et des scripts condensés courts oblige l’entreprise à revoir ses critères de sélection à la baisse. En effet, pour pouvoir réduire le nombre de phrases du script locuteur, il faut forcément attendre moins d’unités à couvrir. C’est en cela que nous avons parlé d’une voix complète «un peu particulière» car, à la différence d’une voix complète «normale» où l’on cherche à couvrir toute la langue en essayant d’obtenir un nombre de phrase correct (ni trop élevé ni trop faible) par rapport aux unités à couvrir, le but ici est de réduire au maximum le nombre de phrases du script locuteur tout en restant cohérent dans la couverture des unités.
Les concessions permettant la réduction du nombre de phrases dans le script condensé interviennent dans les deux dimensions évoquées dans la partie précédente : la dimension phonétique et la dimension prosodique. Pour permettre une telle réduction (1000 phrases pour une voix patient contre plusieurs milliers selon les langues pour une voix complète «normale»), plusieurs méthodes sont mises en place :
des fichiers de regroupements qui forcent l’algorithme à sélectionne r les unités de couverture selon des règles prédéfinies : une réduction du nombre de phonèmes est réalisée en considérant comme assimilables certains phonèmes proches phonétiquement et prosodiquement. Par exemple : on considère /im/ et /um/ comme équivalen ts, il n’est donc pas nécessaire de les sélectionner tous les deux.
On ne sélectionne que les diphones fréquents car on considère que les patients n’auront pas réellement besoin d’utiliser des diphones rares.
Les sources utilisées pour constituer le corpus sont réduites, on utilise seulement le corpus « sous-titres de films » pour les voix patients (corpus conversationnel).
|
Table des matières
Remerciements
Table des matières
Introduction
Voxygen, présentation de l’entreprise et de sa technologie de synthèse vocale
I. Voxygen
II. La synthèse vocale
III. La technologie utilisée par Voxygen
Le sandwich : fragile à l’intérieur, robuste à l’extérieur
I. Définition
II. Motivation de son utilisation et sélection des unités
III. Mise en pratique
A. Mavoa
B. SNF
De l’importance du choix des corpus
I. Différents procédés pour différentes mises en oeuvre
II. Une question de dimension
III. Des attentes différentes selon l’utilisation des corpus
Plurilinguisme et pluridisciplinarité
I. Plurilinguisme
A. Le français
B. US english
C. El español
II. Pluridisciplinarité
A. Le Slot’N’Fill, du PLS à la sélection des phrases
B. Programmation
C. Mavoa, de l’écriture des scénarios à l’utilisation des scripts d’affichage
III. Perspectives
Conclusion
Références
I. Bibliographie
II. Documentation Voxygen
III. Sitographie
Table des illustrations
Table des annexes
Annexes
A. Scénarios espagnol pour l’application Mavoa
B. Scénarios patient
C. Procédure d’ajout d’une nouvelle langue et de nouveaux scénarios dans Mavoa
D. Résultats des tests sur les différents dictionnaires utilisés en français et en américain (SNF
automobile)
Table des matières
Résumé
Abstract
Télécharger le rapport complet