Modèles neuronaux pour la simplification de parole, application au sous-titrage

Dans le cadre linguistique, la simplification est généralement définie comme le processus consistant à réduire la complexité d’un texte (ou de paroles), tout en préservant au mieux son sens. Son application principale est de rendre plus aisée la compréhension et la lecture pour un utilisateur. Cette première définition est pour le moins imprécise, dans la mesure où différentes opérations peuvent être considérées pour arriver à ce résultat : remplacement des mots compliqués ou techniques (simplification lexicale), restructuration grammaticale des phrases (simplification syntaxique), schématisation des idées (simplification conceptuelle), redondance et explicitation des points clefs (modification élaborée), suppression des informations secondaires pour réduire la longueur et faire ressortir l’essentiel (résumé ou compression) (Siddharthan, 2014). Le type et l’intensité de la simplification à exécuter dépendent de l’utilisation visée et du public destinataire. La littérature comporte notamment des exemples d’application pour :
— les enfants (De Belder & Moens, 2010),
— les personnes apprenant une langue étrangère (Petersen & Ostendorf, 2007),
— les personnes atteintes d’un trouble affectant la lecture, comme certains cas d’autisme (Evans et al., 2014), d’aphasie (Carroll et al., 1999) ou de dyslexie (Rello et al., 2013),
— les personnes non familières avec un domaine technique (médical par exemple, Elhadad & Sutaria (2007); Siddharthan & Katsos (2010); Grabar & Hamon (2014)),
— les personnes sourdes ou malentendantes.

La surdité, lorsqu’elle intervient avant l’acquisition de la langue, est souvent à l’origine d’un isolement communicatif entraînant un retard dans l’apprentissage de la lecture (Hamm, 2008). Torres Monreal & Santana Hernández (2005) ont observé que pour un test standard sur le niveau de lecture, des élèves sourds espagnols en fin de collège obtenaient des scores comparables ou inférieurs à la valeur moyenne correspondant aux enfants de 7 ans ; des résultats qui sont cohérents avec ceux de Traxler (2000) aux États-Unis. Ainsi, quoiqu’il existe une variabilité importante de la maîtrise de la langue écrite au sein de cette population (en fonction de l’âge auquel est survenue la perte d’audition, de l’exposition à une culture tournée vers l’oral ou la langue des signes), la simplification est une solution envisagée pour renforcer l’accessibilité des textes auprès des sourds et malentendants (Alonzo et al., 2020), en particulier dans le cas du sous-titrage (Daelemans et al., 2004). Diaz Cintas & Remael (2007) définissent le sous-titrage de la manière suivante : « une pratique de traduction qui consiste à présenter un texte écrit, généralement sur la partie basse de l’écran, qui s’efforce de rapporter le dialogue original des locuteurs, ainsi que les éléments discursifs qui apparaissent à l’image (lettres, encarts, graffiti, inscriptions, pancartes, etc.), et les informations qui sont contenues sur la bande-son (chants, voix hors champ) ». l’affichage suppose une segmentation du texte en lignes et sous-titres (ou blocs), qui est soumise à des contraintes spatiales (le plus souvent fixées par des conventions officielles). Les sous-titres interagissent avec les paroles et l’image : les sous-titres doivent apparaître à une vitesse permettant la lecture par le spectateur, tout en restant synchrones avec l’information sonore et graphique.

Alors que les sous-titres interlinguistiques servent à diffuser les films et programmes dans d’autres langues, les sous-titres intralinguistiques sont le seul moyen, avec l’interprétation en langue des signes, par lequel sourds et malentendants peuvent avoir accès aux contenus audio-visuels. Or, en conséquence des avancées dans les télécommunications, et de la généralisation des appareils d’enregistrement et des dispositifs d’affichage, la vidéo a pris une place importante dans la société, que ce soit dans le contexte professionnel, récréatif, ou de l’éducation. Afin de garantir l’égalité des individus dans la participation à la vie publique et sociale, un certain nombre de pays dans le monde ont mis en œuvre des obligations légales concernant le sous-titrage des émissions télévisées : section 508 du Rehabilitation Act et 21st Century Communications and Video Accessibility Act (CVAA) aux États-Unis, Communications Act 2003 et Equality Act 2010 au Royaume-Uni etc. En France la loi n° 2005-102 du 11 février 2005 pour l’égalité des droits et des chances, la participation et la citoyenneté des personnes handicapées (2005-102) rend obligatoire l’accompagnement de sous titres pour l’ensemble des programmes des chaîne dont l’audience moyenne annuelle dépasse 2,5 % de l’audience totale des services de télévision.

Le projet ROSETTA (RObot de Sous-titrage Et Toute Traduction Adaptés), dans le cadre duquel à été réalisée cette thèse, se propose de développer des solutions technologiques d’accessibilité pour les contenus audiovisuels en français. Plus précisément, ROSETTA cherche à automatiser la chaîne de production de sous-titres multilingues (français, anglais, espagnol et chinois) et à fournir une représentation en langue des signes française (LSF) de ces contenus par l’animation d’avatars virtuels, en utilisant les dernières avancées dans le domaine de l’intelligence artificielle. Ces objectifs se placent dans une optique de réduction des coûts de production pour les sociétés et organismes à l’origine de programmes vidéos partagés en ligne ou télédiffusés, et d’augmentation du volume de vidéos rendues accessibles. Un consortium de cinq partenaires collabore dans ce projet :
— SYSTRAN : Entreprise spécialisée dans le développement de logiciels de traduction ; chef de file du projet.
— france.tv access : Filiale du groupe France Télévisions, qui travaille sur la production des sous-titres pour sourds et malentendants.
— MOCAPLAB : Studio de services complets de capture et d’animation de mouvement.
— LISN : Laboratoire Interdisciplinaire des Sciences du Numérique. Les équipes de recherche du LISN couvrent des thématiques en relation avec les sciences du numérique, les sciences de l’ingénieur, l’intelligence artificielle et la science des données, l’interaction humain-machine, le traitement automatique des langues, et la bio-informatique. Nos travaux ont été menés dans l’équipe Traitement du Langage Parlé (TLP).
— LUTIN/EPHE : Laboratoire des Usages en Technologies d’Information Numériques. Le Lutin a comme objet d’études les systèmes cognitifs naturels et artificiels et leurs interactions pragmatiques et sémantiques.

Pendant la durée du projet, france.tv access a mis à disposition les vidéos et les soustitres professionnels des émissions diffusées par France Télévisions, à travers une API pour laquelle nous avons développé un service de requêtes. Ces programmes divergent par leurs formats (journaux, magazines, jeux, fictions etc.), leurs thèmes (politique, culture, santé etc.), et les situations d’énonciation qui produisent différentes formes de langue parlée, en fonction par exemple du niveau de préparation des prises de parole.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 La simplification pour les systèmes séquence-à-séquence
2.1 Introduction
2.1.1 Simplification p. opp. compression
2.1.2 Simplification de parole p. opp. simplification de texte
2.1.3 Simplification de document p. opp. simplification de phrase
2.2 Méthodes pour la simplification automatique de phrase
2.2.1 Simplification lexicale
2.2.2 Analogie avec la traduction
2.2.3 Modèles génératifs et représentations latentes
2.3 Ressources
2.4 Évaluation
2.4.1 Métriques de lisibilité
2.4.2 Métriques provenant d’autres tâches
2.4.3 Métriques conçues pour la simplification
2.5 Conclusion
3 Sous-titrage automatique
3.1 Introduction
3.1.1 Historique du sous-titrage
3.1.2 Enjeux des sous-titres intralinguistiques
3.2 Caractéristiques du sous-titrage
3.2.1 Contraintes sur la forme
3.2.2 Passer de l’oral à l’écrit
3.2.3 Comprimer et simplifier
3.3 Architectures pour l’automatisation
3.4 Ressources
3.5 Évaluation automatique
3.6 Conclusion
4 Contrôler la complexité par la longueur
4.1 Introduction
4.2 Contexte
4.2.1 Contrôle de la longueur dans un modèle RNN
4.2.2 Contrôle de la longueur dans un modèle Transformer
4.2.3 Un corpus artificiel pour la compression de séquence
4.3 Expériences
4.3.1 Évaluation des modèles de contrôle de longueur
4.3.2 Prédiction de longueur à partir des états cachés
4.3.3 Évolution de la probabilité de génération de la fin de phrase
4.4 Implémentation
4.5 Résultats
4.5.1 Compression/décompression de phrases
4.5.2 Prédiction de la longueur future
4.5.3 Évolution de la probabilité des caractères de fin de phrase
4.6 Conclusion
5 Corpus pour le sous-titrage d’émissions télévisées
5.1 Introduction
5.2 Recueil et annotation de corpus
5.2.1 Corpus pour l’apprentissage
5.2.2 Corpus de test
5.3 Analyse selon la stratégie de sous-titrage
5.4 Analyse par genre télévisuel
5.5 Conclusion
6 Production automatique de sous-titres
7 Conclusion