Définition des émotions
Cette citation reflète bien les incertitudes et difficultés, non perceptibles d’emblée, mais qui pourtant transparaissent à mesure qu’on franchit les étapes de conception et de développement d’un agent affectivement compétent. La première incertitude liée au domaine de la psychologie à laquelle on pourrait faire face est l’absence d’un consensus autour de la définition de l’émotion et de ses différents types. L’absence du consensus apparaît déjà dans la distinction de l’émotion des autres types d’états affectifs que sont l’humeur (mood), attitudes interpersonnelles (interpersonal stances), attitudes et traits de personnalité affectifs. Afin de distinguer entre ces cinq types d’états, Scherer (Scherer, 2000) a suggéré une approche caractéristique basée sur un ensemble de critères distinctifs tels que l’intensité, la durée, le degré de synchronisation des sous-systèmes organismiques, le degré de dépendance avec un événement déclencheur et le degré d’impact de l’état affectif sur le comportement. Selon ces critères, les différents types d’états affectifs peuvent être caractérisés comme suit : Émotion : Relativement bref épisode, d’une réponse synchronisée de l’ensemble ou la plupart des sous-systèmes organismiques, en réponse à l’évaluation d’un événement externe ou interne, d’une importance majeure (ex. colère, tristesse, joie, peur, honte, fierté, désespoir). Humeur : État affectif diffus, plus prononcé comme changement de sentiment subjectif, mais de faible intensité, d’une durée relativement longue, souvent sans cause apparente (ex. joyeux, triste, irritable, apathique, déprimé, vif). Stances interpersonnelles : Attitude affective envers une autre personne lors d’une interaction, caractérisant l’échange interpersonnel (ex. distant, froid, chaud, favorable, méprisant). Attitudes : Relativement durable, conviction teintée d’affection, préférence et prédisposition envers des objets ou des personnes (ex. plaisant, affectueux, détestable, appréciable, désirant). Traits de personnalité : Émotionnellement chargé, caractères de personnalité et tendances de comportement stables, typique pour une personne (ex. nerveux, anxieux, imprudent, morose, hostile, envieux, jaloux).
L’émotion se distingue donc, par rapport aux autres états affectifs, par une plus grande intensité, mais de plus courte durée, qui possède un grand impact sur le comportement de l’individu et qui est susceptible de changer plus rapidement.
Expressions émotionnelles entre les effets pousser et tirer Scherer (Scherer et al. 2010c) explique que l’expression émotionnelle est façonnée à travers une combinaison d’effets pousser et tirer (push and pull). Dans le cas de l’effet pousser, les facteurs internes naturels de l’organisme, tels que les modifications physiologiques liées à l’activation d’émotions fortes, poussent le comportement moteur dans certaines directions. L’expression qui en résulte est très variable et peut changer rapidement dans le temps. Les grognements et cris des nourrissons, les éclats d’affect et les énoncés émotionnels soudains et incontrôlés sont des exemples de cas où l’effet pousser est dominant. En revanche, les facteurs tirer externes sont au service de visées spécifiques de communication, des attentes qui nécessitent l’affichage de traits expressifs relativement clairs et compriss ou de normes culturellement définies.
Par exemple, une personne est tenue socialement d’avoir un air heureux même si elle est en réalité déçue du cadeau reçu (Bänziger et al. 2010b). Dans une étude menée par Cowie (Cowie et al. 2010b) sur l’induction par observation de films, il a été montré que le type de signes visibles manifestés sur le visage (effet tirer) dépend non seulement de la présence ou non d’autrui, mais aussi de son identité (proche ou étranger) et du type d’émotion exprimée. L’encodage d’effet tirer se caractérise par un haut degré de symbolisation et de stylisation, on peut s’attendre, par conséquent, à ce que les différences individuelles soient relativement petites et peu nombreuses (Scherer et al. 2010c).
Théorie de l’émotion discrète
La théorie de l’émotion discrète se concentre particulièrement sur l’étude de l’expression motrice ou du schème de conduite adaptative. Les théoriciens de cette mouvance proposent l’existence d’un petit nombre, compris entre 9 et 14, d’émotions de base ou fondamentales caractérisées par des modèles de réponse très spécifiques (Scherer, 2003). Ces modèles de réponse sont produits par un programme neuro-moteur inné caractérisé par ses composants neurophysiologiques, expressif (faciales et vocales) et subjectif. La lutte en cas de colère et la fuite (vol) en cas de peur (fight or flight) sont deux exemples de conduites bien connus qui sont souvent cités pour illustrer la différentiation des réponses autonomes activées pour chacune des deux émotions. En cas de colère, une augmentation de la perfusion sanguine des mains (signe d’une mobilisation pour une querelle violente) est prévue alors qu’une augmentation de la perfusion au visage est considérée comme un message d’excitation de colère. Par contre en cas de peur, une perfusion accrue des membres à mobiliser pour une course rapide est prédite. Cette distribution du sang vers les extrémités pourrait causer un visage pâle.
D’ailleurs une augmentation de la transpiration est prévue de se produire et qui peut servir comme moyen échappatoire efficace à l’emprise du prédateur (Kreibig et al. 2010). Les premières études qui se sont intéressées à l’effet vocal des émotions ont utilisé ce modèle et ont choisi d’examiner particulièrement l’effet de la joie, la tristesse, la peur, la colère et la surprise. Sur le plan de production de la parole, d’après Williams and Stevens (1981), les émotions colère, peur et joie vont exciter le système nerveux sympathique qui va provoquer une augmentation de la fréquence cardiaque et de la pression artérielle, la bouche deviendra sèche et des tremblements musculaires occasionnels sont à prévoir. La parole devient par conséquent forte et rapide avec une forte énergie à haute fréquence. D’autre part, l’excitation du système nerveux parasympathique, par une émotion tristesse par exemple, causera une diminution de la fréquence cardiaque et de la pression artérielle et une augmentation de la salivation. Par conséquent la production de la parole est lente avec peu d’énergie dans les hautes fréquences (Nwe et al. 2003).
Modèle d’émotion à composantes
Le modèle d’émotion à composantes (componential model of emotion), proposé par Scherer, est un des modèles ayant élaboré la conceptualisation de la théorie de l’évaluation cognitive (Scherer, 2010b). Le champ d’intérêt de ce modèle ne se limite pas à l’étude des sentiments subjectifs (tel est le cas pour la théorie dimensionnelle) ni au nombre supposé d’émotions de base (comme c’est le cas avec la théorie discrète). Ce modèle met l’accent sur la variabilité des différents états émotionnels, tels que produits par différents types de patrons d’évaluation (appraisal patterns) (Scherer, 2003). L’évaluation est basée sur quatre critères qui représentent les variables qui permettraient de prédire l’émotion et son intensité, à savoir i) la pertinence de l’évènement (affecte-il la personne ou le groupe social) ii) implications (impacts de cet évènement sur son bien-être et sur l’atteinte de ses objectifs) iii) capacité à faire face à ces conséquences et iv) significativité de cet évènement par rapport à ses convictions personnelles et ses valeurs sociales.
Ils offrent également la possibilité de modéliser les différences qui existent entre les membres de la même famille d’émotion, telle que la colère forte, la colère froide et le mépris. D’après (Scherer, 2003), ces approches fournissent une base solide pour une élaboration théorique des mécanismes qui sont censés sous-tendre la relation émotion-voix et permettent de générer des hypothèses très concrètes qui peuvent être testées empiriquement. Dans le cadre du modèle des composantes, Klaus Scherer (2010b) définit une émotion comme un épisode de changements d’état intervenant dans tous ou la plupart des cinq soussystèmes organiques de manière interdépendante et synchronisée en réponse à l’évaluation d’un stimulus externe, ou interne, par rapport à un intérêt central pour l’individu. Les cinq sous-systèmes organiques touchés par les changements sont les composants: cognitif (activité du système nerveux central), psychophysiologique (réponses périphériques), motivationnel (tendance à répondre à l’événement), moteur (mouvement, expression faciale, vocalisation), sentiment subjectif.
|
Table des matières
CHAPITRE 1 INTRODUCTION
1.1 Problématique
1.1.1 Incertitudes relatives à la définition de l’émotion en psychologie
1.1.2 Nature dynamique de l’émotion
1.1.3 Bruit au niveau des corpus des émotions
1. Erreurs induites par l’opération d’annotation :
2. Conditions d’enregistrement et de transmission du signal :
1.1.4 Chevauchement entre classes d’émotions dans l’espace des traits acoustiques
1.1.5 Propriétés statistiques des corpus de données
1.2 Objectif
1.3 Applications
1.4 Organisation de cette thèse
CHAPITRE 2 THÉORIES DES ÉMOTIONS
2.1 Définition des émotions
2.2 Expressions émotionnelles entre les effets pousser et tirer
2.3 Modèles psychologiques des émotions
2.3.1 Théorie de l’émotion discrète
2.3.2 Théorie dimensionnelle
2.3.3 Théorie de l’évaluation cognitive
2.3.4 Modèle d’émotion à composantes
2.4 Corpus de parole émotionnelle
2.4.1 Type de corpus des émotions
2.4.1.1 Émotions naturelles
2.4.1.2 Émotions simulées
2.4.1.3 Émotions induites
2.4.2 Constitution d’un corpus de parole émotionnelle
2.4.2.1 Collection des enregistrements
2.4.2.2 Annotation du corpus
2.4.2.3 Validation du corpus
2.4.3 Corpus de données d’émotion dans la revue de littérature
2.5 Conclusion
CHAPITRE 3 REVUE DE LITTÉRATURE SUR LES SYSTÈMES DE RECONNAISSANCE AUTOMATIQUE DES ÉMOTIONS
3.1 Introduction
3.2 Travaux basés sur des classificateurs simples
3.2.1 Travaux selon le type d’unité d’analyse
3.2.2 Travaux selon le type des traits caractéristiques
3.2.2.1 Prosodie
3.2.2.2 Traits spectraux
3.2.2.3 Traits de la qualité de la voix
3.2.2.4 Éclats affectifs
3.2.2.5 Information linguistique
3.2.2.6 Sélection des traits caractéristiques
3.2.3 Travaux selon la portée des traits caractéristiques
3.2.3.1 Information à court terme
3.2.3.2 Information à long terme
3.2.4 Travaux selon l’approche de classification
3.2.4.1 Approche dynamique
3.2.4.2 Approche statique
3.2.4.3 Approche logique floue
3.2.4.4 Approche basée sur la similarité
3.3 Combinaison de classificateurs
3.3.1 Combinaison en cascade
3.3.2 Combinaison hiérarchique
3.3.3 Combinaison parallèle
3.3.3.1 Diversification dans les types de traits
3.3.3.2 Diversification dans la portée temporelle de l’information acoustique
3.3.3.3 Diversification des unités d’analyse
3.3.3.4 Diversification des unités d’analyses et des types de descripteurs
3.3.3.5 Diversification des modèles de classification
3.3.3.6 Diversification des types et portées de traits, d’unités d’analyse et de modèles de classification
3.3.4 Combinaison série
3.4 Techniques d’amélioration des performances des systèmes de RAE
3.4.1 Techniques basées sur l’exploitation de l’information sur le mode opératoire
3.4.1.1 Mode dépendant- versus indépendant du locuteur
3.4.1.2 Mode dépendant versus indépendant du genre
3.4.2 Techniques basées sur le traitement du problème de rareté des données d’apprentissage
3.4.2.1 Combinaison de plusieurs corpus
3.4.2.2 Co-apprentissage
3.4.2.3 Étiquetage actif
3.5 Conclusion
CHAPITRE 4 MÉTHODOLOGIE ET APPROCHE BASÉE SUR LA SIMILARITÉ POUR LA CLASSIFICATION DES ÉMOTIONS
4.1 Introduction
4.2 Approche basée sur la similarité
4.2.1 Motivation
4.2.2 Traits basés sur la similarité
4.2.3 Méthodes de classification
4.3 Corpus de parole émotionnelle FAU AIBO Emotion
4.4 Protocole d’expérimentation
4.5 Choix des descripteurs de haut niveau
4.5.1 Super vecteurs et dérivées
4.5.1.1 Modélisation par mélange de gaussiennes
4.5.1.2 Méthode d’estimation du maximum de vraisemblance
4.5.1.3 Adaptation MAP
4.5.1.4 Adaptation MLLR
4.5.1.5 Combinaison de MLLR et MAP
4.5.1.6 Expérimentations
4.5.1.7 Analyse discriminante linéaire probabiliste (PLDA)
4.5.2 Scores de vraisemblance comme traits de haut niveau
4.5.2.1 Motivation
4.5.2.2 Scores de vraisemblance et mesure de similarité
4.5.2.3 Vecteur de traits VCE et l’analyse des émotions
4.6 Conclusion
CHAPITRE 5 MÉTHODE DU PLUS PROCHE PATRON DE SIMILARITÉ PONDÉRÉ
5.1 Introduction
5.2 Vue d’ensemble du système WOC-NN
5.3 Patron de proximité
5.4 Métrique de mesure de similarité
5.4.1 Pondération des rangs de classe
5.4.2 Modèle de régression logistique
5.4.3 Génération des données d’entrainement
5.4.4 Réduction de la dimensionnalité
5.4.5 Normalisation de la pondération
5.5 Interaction entre les classes dans un patron de proximité
5.6 Résultats expérimentaux
5.6.1 Patrons de proximité des classes d’émotion du corpus FAU AIBO Emotion
5.6.2 Résultats de la classification
5.6.3 Résultats du modèle non linéaire
5.7 Conclusion
CHAPITRE 6 MODÈLES D’ANCRAGE POUR LA RECONNAISSANCE MUTICLASSES D’ÉMOTION
6.1 Introduction
6.2 Modèles d’ancrage
6.2.1 Construction de l’espace d’ancrage
6.2.2 Mappage dans l’espace d’ancrage
6.2.3 Classification des énoncés émotionnels
6.3 Configuration expérimentale
6.4 Problème des données bruitées avec la métrique euclidienne
6.5 Normalisation des scores
6.5.1 Normalisation de la covariance intraclasse
6.5.2 Résultats et discussion
6.6 Vecteurs représentative des classes
6.6.1 Représentant unique versus représentants multiples
6.6.2 Résultats expérimentaux
6.7 Comparaison avec des systèmes dorsaux plus complexes
6.7.1 Traitement du problème de distribution biaisée des classes de données
6.7.2 Résultats expérimentaux
6.8 Conclusion
CHAPITRE 7 MODÈLES D’ANCRAGE : PROPRIÉTÉS ET APPLICATION À UNE CLASSIFICATION BINAIRE
7.1 Introduction
7.2 Analyse géométrique des modèles d’ancrage dans espace bidimensionnel
7.2.1 Métrique euclidienne
7.2.2 Similarité cosinus
7.2.3 Relation entre les vecteurs représentatifs de classe et la métrique de similarité
7.2.4 Propriétés des vecteurs représentatifs de classe
7.3 Comparaison entre des règles décision Bayes et modèles d’ancrage
7.4 Expérimentation des modelés à ancrage à espace bidimensionnel
7.4.1 Configuration expérimentale
7.4.2 Résultats avant la normalisation WCCN
7.4.3 Effet géométrique de la normalisation WCCN
7.5 Espace d’ancrage multidimensionnel
7.5.1 La distance euclidienne
7.5.2 La mesure cosinus
7.5.3 Résultats expérimentaux dans un espace d’ancrage à cinq dimensions
7.6 Comparaison de la complexité algorithmique et optimisation
7.7 Conclusion
CHAPITRE 8 LES MODÈLES D’ANCRAGE POUR LA COMBINAISON DE CLASSIFICATEURS
8.1 Introduction
8.2 Nouveaux traits spectraux pour la reconnaissance des émotions
8.2.1 Estimation du Spectrum multitaper
8.2.2 Extraction des MFCC et PLP multitaper
8.2.3 Extraction des traits AMCC
8.2.4 Évaluation des performances individuelles des traits proposés
8.2.4.1 Résultats des traits multitaper et des traits AMCC
8.3 Complémentarité des traits
8.3.1 Analyse des matrices de confusion
8.3.2 Combinaison des traits
8.4 Fusion avec les modèles d’ancrage
8.4.1 Définition de l’espace d’ancrage de fusion
8.4.2 Normalisation des scores
8.4.3 Résultats expérimentaux des modèles d’ancrage de fusion
8.4.4 Modèles d’ancrage versus autres méthodes de combinaison
8.5 Conclusion
CONCLUSION GÉNÉRALE
RECOMMANDATIONS
ANNEXE I CORPUS DE PAROLE ÉMOTIONNELLE
ANNEXE II LE CORPUS FAU AIBO EMOTION
ANNEXE III MÉTHODES D’ESTIMATION DES PARAMÈTRES
LISTE DE RÉFÉRENCES BIBLIOGRAPHIQUES
Télécharger le rapport complet