Organisation du manuscrit
Cette thèse est structurée en sept chapitres. Son contenu touche à la définition du domaine de recherche et de ses différents défis. Une étude approfondie de l’état de l’art a permis de fixer les objectifs et les hypothèses afin de répondre à la problématique, d’évaluer la validité des solutions proposées, et enfin de comparer nos résultats avec ceux des systèmes de base. Dans le chapitre 1, l’introduction porte sur le contexte et la motivation de l’étude du domaine de traits paralinguistiques. Nous y décrirons les problèmes auxquels sont confrontés les chercheurs. Ceux-ci sont expliqués afin d’ éclaircir les objectifs et les stratégies pour les atteindre. Le chapitre 2 présente la terminologie spécifique associée aux traits paralinguistiques notamment l’émotion ainsi que les accents. On y présente les définitions, les théories, les modèles, les corpus ainsi qu’une étude de la littérature en relation avec ces derniers. Le Chapitre 3 décrit le système automatique de la détection et de la classification de traits paralinguistiques.
On y présente les différentes étapes en commençant par l’extraction des paramètres jusqu’à la classification. Ces étapes sont détaillées en rapport avec la revue de la littérature du domaine. Le chapitre 4 introduit les nouveaux descripteurs proposés et utilisés au cours de cette recherche, tels que l’OPVI, le calcul des mesures rythmiques à base d’intensité et du modèle auditif. Le chapitre 5 décrit l’approche multivariable segmentale et suprasegmentale, le classificateur utilisant cette approche, l’optimisation utilisée pour la réduction des descripteurs acoustiques au niveau de l’étape de la classification ainsi que les résultats de leur application. Le chapitre 6 discute l’amélioration apportée par les nouvelles métriques rythmiques et les méthodes au niveau du système de reconnaissance de traits paralinguistiques. Le chapitre 7 conclut cette thèse et donne les perspectives de ce travail de recherche. paralinguistiques de la parole La paralinguistique touche à la discipline qui traite de différents éléments qUI accompagnent la parole et qui contribuent à la communication. Ces derniers ne font pas partie du système linguistique. Par contre, ils peuvent être présents sous forme acoustique (vocale et non verbale) ou linguistique.
Ce nouveau terme «paralinguistique» a été présenté comme composante de la parole par Trager [3] et a été développé plus tard par Crystal [33] [34]. Trager a déterminé le paralangage comme la partie qui accompagne la langue et qui a la forme sonore. Les gestes du corps humain ne font pas partie du paralangage selon lui, puisque c’est la communication silencieuse. Le paralangage touche aux éléments non verbaux de la communication utilisés pour modifier le sens et l’émotion. Ils peuvent être 13 exprimés consciemment ou inconsciemment. Le paralangage complète la partie linguistique de la conversation, car la compréhension totale de la langue ne peut être atteinte que par la considération de ces éléments[2] [3]. De même, en 1945, Pike a introduit l’ existence d’ autres composantes de la parole qui devançaient la linguistique et qui appuyaient la compréhension du message du locuteur [35] mais il ne les a pas identifiées par un terme spécifique comme Trager. Trager considérait le secteur du paralangage spécifiquement pour la communication humaine par l’analogie avec l’expression vocale de plusieurs animaux.
Par opposition, Abercrombie jugeait que le terme paralangage pouvait être exploité pour la communication humaine et animale [36]. Le paralangage a progressé au cours des années, grâce à son utilisation dans des domaines autres que la linguistique et en raison des études effectuées par d’ autres chercheurs que les linguistes. Plusieurs descriptions et définitions sont ressorties de ce progrès touchant à ce nouveau domaine. Celles-ci ont été regroupées par Crystal en deux grands groupes: le premier était étroit et le deuxième était large. Il s’est servi de la définition large de ce nouveau domaine. Effectivement, selon lui le paralangage était la communication humaine vocale non segmentale qui excluait tous les phénomènes autres que vocaux [37] [34]. Selon Abercrombie la définition de Crystal, relative aux aspects larges et étroits de ce domaine, n’ était pas encore juste et évidente. En effet, il considérait que la paralinguistique est large lorsqu’ il y avait inclusion des descripteurs linguistiques de la parole dans son processus et étroite lorsque ceux-ci sont exclus [36].
Crystal estimait que le domaine du paralangage avait trois tendances fondamentales d’évolution. La première se rapportait à la découverte et au développement du domaine par Trager, ainsi que son application en linguistique. La seconde, touchait à l’application du paralangage dans des sphères autres que celles mentionnées par Trager, comme le domaine de la psychothérapie. En plus, l’évolution de la langue a donné de nouvelles définitions au terme paralangage. La troisième tendance s’ intéressait au développement d’une confusion théorique causée par les deux premières tendances. Cette dernière connue au niveau du domaine était le résultat de l’ absence d’ études évolutives du nouveau terme qui permettraient de faire face aux changements que la langue a connus. Cette ambigüité a été mentionnée par Crystal lors de son étude du domaine [33]. D’après lui, plusieurs facteurs étaient à l’origine de cette équivoque liée au domaine de paralinguistique telle que : l’absence d’une description ou définition standard et unique du domaine: au début le paralangage était un domaine marginal pour Trager. En effet, il a été sous l’influence de sa spécialité comme linguiste lors de la description et définition du nouveau domaine. Cette influence est une partie de la description du domaine, de l’ attribution du terme « paralangage » et aussi de la définition du terme comme partie complémentaire de la langue. Trager a allié le terme paralangage seulement à la phonétique et à l’orphique qui sont deux domaines propres à la linguistique. Cette insuffisance de clarté a conduit à l’apparition de plusieurs descriptions du paralangage et des signes paralinguistiques. Crystal les a classés en sept descriptions:
Les traits et les états paralinguistiques diffèrent au niveau de la durée. En réalité, la variation en fonction du temps varie d’un trait paralinguistique à un autre. Pour le trait âge par exemple, cela prend 10 ans entre l’âge de 20 à 30 ans pour percevoir un changement. Par contre, pour certains états, le changement peut se produire en l’espace de quelques secondes, comme de passer de l’ état triste à l’état heureux. L’âge et le genre peuvent influencer l’ expression de l’état émotionnel, car on ne retrouve pas la même expression chez les hommes, les femmes et les adultes. Également, les traits paralinguistiques ont la capacité d’ affecter les caractéristiques paralinguistiques à moyen terme, comme dans le cas de l’alcool, l’effet de celui-ci est différent selon le sexe et l’âge des personnes. La segmentation du signal de la parole en unités, pour l’ analyse et le traitement, dépend de cette catégorisation des éléments paralinguistiques en trait ou état. Du fait que les traits sont lents et les états rapides dans leurs changements, cela peut guider une représentation de la longueur de l’unité de la segmentation lors du processus du traitement automatique des traits paralinguistiques. Cependant, si on tient compte de la relation de corrélation entre les traits et les états, cette hypothèse n’ est plus valable.
D’ailleurs un des défis dans la détection et la classification des éléments paralinguistiques de la parole est l’absence d’un paradigme de segmentation du signal. Néanmoins, il faut préciser que la segmentation du signal est une étape primordiale dans le processus de traitement automatique des éléments paralinguistiques de la parole. Le changement de traits paralinguistiques exige beaucoup de temps comparé aux états paralinguistiques. Sans compter qu’ il diffère d’une personne (locuteur) à une autre, même le changement pour une même personne est souvent inconnu ce qui est des traits paralinguistiques. En revanche, les états paralinguistiques dépendent, dans leurs changements, de facteurs personnels et interpersonnels ce qui entraine lors des traitements automatiques la complexification de la segmentation. D’après le Tableau 2-1 , on remarque que les éléments paralinguistiques diffèrent bien entre eux par le degré d’ intensité de la rapidité du changement et de la corrélation avec les autres éléments paralinguistiques, et avec la sensibilité aux différents facteurs d’après Scherer [39]. En plus de la catégorisation à base de temps, et malgré son importance, il existe d’autres types de classification pour les éléments paralinguistiques qui impliquent d’autres critères de classification: spontanée et actée, complexe et simple, quantifiable et qualifiable, intentionnelle et instinctive, ressentie et vue, perceptible et imperceptible, discrète et contenue, prototypique et périphérique, privée et sociale, universelle et culturelle, unimodale et multimodale, et enfin état et trait. L’objectif derrière tous ces types de classification ainsi que les méthodes de catégorisation consiste à bien définir et décrire un phénomène paralinguistique. Nous pensons qu’il est très important de connaitre préalablement la catégorie de l’élément paralinguistique avant de lancer le processus de sa reconnaissance automatique afm de sélectionner le contexte et les scénarios des données expérimentales les plus adéquats.
|
Table des matières
Résumé
Remerciements
Table des matières
Liste des tableaux
Liste des figures
Liste des symboles
Chapitre 1 – Introduction
1.1 Contexte et motivations
1.2 Problématique
1.3 Objectif principal
1.4 Objectifs spécifiques
1.5 Domaines d’application de la reconnaissance des traits paralinguistiques
1.6 Organisation du manuscrit
Chapitre 2 – Traits paralinguistiques de la parole
2.1 Introduction
2.2 Historique et définition de la paralinguistique
2.3 Catégories de traits paralinguistiques
2.4 Corpus de données de traits paralinguistiques
2.4.1 L’ annotation des corpus
2.4.2 Évaluation de l’ annotation
2.4.3 Corpus de données de traits paralinguistiques
2.5 Parole émotionnelle
2.5.1 Définition et théories des émotions
2.5.2 Les corpus de la parole émotionnelle
2.5.3 Unités de base et descripteurs pour la reconnaissance des émotions
2.6 Variété native et non native d’une langue
2. 7 Conclusion
Chapitre 3 – Reconnaissance automatique de traits paralinguistiques de la parole
3.1. Introduction
3.2. Rappel sur les descripteurs prosodiques
3.2.1 Le pitch
3.2.2 L’ intensité
3.2.3 La durée
3.3. Le rythme de la parole
3.3.1 L’hypothèse de Pike et Abercrombie relative au rythme
3.3.2 Les métriques du rythme de la parole
3.4. Qualité de la voix
3.5. Les paramètres acoustiques basés sur une analyse dans le domaine spectral
3.6. Classification des traits paralinguistiques
3.6.1 Méthodes de sélection des paramètres acoustiques
3.6.2 Les approches statiques de la classification
3.7. Conclusion
Chapitre 4 – Nouveaux descripteurs pour la reconnaissance des émotions et des accents
4.1. Introduction
4.2. État de l’art sur les rythmes des familles pairwise (PVI)
4.3. Proposition d’une nouvelle métrique: OPVI
4.3.1 Définition de OPVI
4.3.2 Performance de la métrique OPVI dans la classification des accents natifs et non natifs
4.4. Métriques rythmiques à base d’intensité
4.5. Un modèle d’audition pour extraire des descripteurs distinctifs
4.5.1 Modèle d’ oreille de Caelen
4.5.2 Classification des accents natifs et non natifs par le modèle d’audition
4.6. Conclusion
Chapitre 5 – Nouvelles approches de classification
5.1. Introduction
5.2. Combinaison des approches: une voie prometteuse
5.3. Les algorithmes d’optimisation par évolution différentielle (DE)
5.4. L’optimisation par essaims particulaires (OEP)
5.5. Apprentissage supervisé profond des traits paralinguistiques
5.5.1. Machines de Boltzmann restreintes (RBM)
5.5.2. Approche profonde optimisée à base de RBM
5.5.3. Approche complète de combinaison (GMM-RL-PSO)
5.6. Résultats
5.6.1. Combinaison en série
5.6.2. Combinaison parallèle
5.6.3. Combinaison des différentes méthodes de sélection
5.6.4. Approche complète de combinaison (GMM-RL-PSO)
5.6.5. Optimisation multiobjectif
5.6.6. L’optimisation de RBM
5.7. Conclusion
Chapitre 6 – Résultats globaux et discussions
6.1. Introduction
6.2. Corpus utilisés et prétraitement du signal vocaL
6.2.1. Emotional Prosody Speech and Transcript
6.2.2. Corpus des accents : Linguistic Data Consortium (LDC) West Point Arabic
6.3. Paramètres acoustiques expérimentés
6.4. Évaluation de la métrique OPVI et les autres métriques de rythme
6.5. Évaluation des paramètres auditifs et les métriques rythmiques à base d’intensité
6.6. Combinaison et optimisation des méthodes de sélection de paramètres
6.7. Optimisation de la sélection des paramètres par l’évolution différentielle (DE)
6.8. Conclusion
Chapitre 7 – Conclusion générale
7.1. Recommandations
Bibliographies
Télécharger le rapport complet