L’émotion : une notion complexe
Reconnues comme partie intégrante de l’humain, il est ainsi surprenant de constater qu’à ce jour, il n’existe pas de définition ou même de cadre théorique consensuel des émotions. C’est même le contraire, une étude recensait 92 définitions pour le concept d’émotion en 1981 [144]. Le problème n’est donc pas tant que le mot « émotion » n’a pas de signification précise, c’est qu’il en a beaucoup [128]. Nous avons choisi d’utiliser la définition d’émotion suivante dans cette thèse, car elle est suffisamment générale et recouvre la plupart des aspects descriptifs et explicatifs du phénomène :
Les émotions sont le résultat de l’interaction de facteurs subjectifs et objectifs, réalisés par des systèmes neuronaux ou endocriniens, qui peuvent :
a) induire des expériences telles que des sentiments d’éveil, de plaisir ou de déplaisir ;
b) générer des processus cognitifs tels que des réorientations pertinentes sur le plan perceptif, des évaluations, des étiquetages ;
c) activer des ajustements physiologiques globaux ;
d) induire des comportements qui sont, le plus souvent, expressifs, dirigés vers un but et adaptatifs. D’après Kleinginna & Kleinginna (1981) [144]
On peut ajouter que les émotions ont des propriétés bien spécifiques :
• Elles sont brèves et marquées, c’est-à-dire distinctes d’un état habituel [59]. Elles ne s’arrêtent pas brusquement en temps normal mais décroissent lentement en intensité.
• Elles ont un caractère unique.
C’est l’induction de comportements par les émotions qui nous intéresse particulièrement ici, c’est-à-dire la manifestation extérieure des émotions, particulièrement dans la voix, et également leur perception par les humains.
Théories modernes des émotions
Cette partie présente les théories modernes des émotions les plus importantes. Elles sont notamment utilisées dans le domaine de l’affective computing comme fondation des systèmes de reconnaissance d’émotions. On pourra se référer à l’Annexe III pour une perspective historique sur les théories des émotions.
Théories catégorielles
Les théories catégorielles sont les plus simples et les plus naturelles : elles tentent d’établir des catégories d’émotions différentes et clairement reconnaissables, tout en répertoriant les signes extérieurs reliées à ces émotions (expressions faciales, variations de la prosodie, changements physiologiques…). En général, elles désignent un petit nombre d’émotions comme étant basiques ou canoniques, les autres émotions n’étant alors que des composés des premières. Cette démarche était déjà adoptée au milieu du 17ème siècle par Descartes dans son traité « Les Passions de l’Âme » [72]. En se fondant notamment sur les travaux de Darwin, un des chercheurs les plus influents de ce courant, Paul Ekman, a mis en évidence l’existence de six émotions basiques et de leurs expressions faciales reconnaissables universellement : la colère, la joie, la tristesse, la peur, la surprise et le dégoût [89]. Il est même suggéré que ces émotions de base correspondent à des circuits neuronaux spécifiques et qu’elles sont clairement mesurables et donc distinctes [90]. D’autres travaux proposent des listes d’émotions basiques. Quelques uns parmi les plus reconnus sont résumés dans le tableau ci-dessous. Il est aisé de voir les limites de ces théories : aucune ne s’accorde complètement sur une liste d’émotions et il y a des différences de granularité, c’est-à-dire que certaines émotions peuvent en contenir d’autres (par exemple, la joie de Izard peut contenir la satisfaction de Kemper).
Théories dimensionnelles
Les théories dimensionnelles cherchent à définir des dimensions abstraites pour s’affranchir des descriptions et du vocabulaire des théories catégorielles et ainsi les représenter sur un continuum. Si certains modèles unidimensionnels ont été proposés, en général centrés autour de la valence (évaluation positive ou négative de l’émotion en terme d’agréabilité) ou de l’activation, la plupart des modèles comportent au moins deux dimensions. Parmi les plus importants, le modèle à deux dimensions de Russel allie la valence et l’activation pour représenter plusieurs catégories d’émotions [217]. Cependant cette approche est critiquée car une projection sur deux dimensions uniquement causerait une perte d’information trop importante : par exemple, la peur et la colère sont presque confondues dans un espace valence/activation [59, 106]. Déjà en 1874, Wundt argumentait pour une représentation des sentiments en trois dimensions (agréable/déplaisant, excité/calme et tension/relaxation) [274]. Plus tard, le modèle PAD utilise trois dimensions assez similaires (Pleasure, Activation, Dominance) [177]. Plutchick a développé un modèle que l’on peut qualifier d’hybride, car il mélange une notion d’intensité à des couples d’émotions opposées (anticipation/surprise, rage/terreur…) [204]. Une représentation graphique de ce modèle sous forme de cône existe, où l’axe vertical représente l’intensité ; les émotions contraires sont diamétralement opposées et les émotions proches sont placées de manière adjacente. (cf Figure 2.1).
Il existe d’autres représentations graphiques des correspondances entre les émotions catégorielles et un modèle dimensionnel. L’outil Feeltrace a notamment été développé dans cet objectif [61]. Il permet l’annotation de données audio et vidéo : les émotions doivent être placées, sous forme de pastilles colorées, dans un disque centré sur un état neutre et orienté par les axes valence et activation (cf Figure 2.2). Une composante temporelle est présente car la taille des pastilles varie avec le temps.
Théories cognitives de l’évaluation
Il s’agit d’un des modèles les plus sophistiqués, théorisé à partir des années 1980 [108, 152, 220]. Il postule que les émotions sont nées de l’évaluation d’évènements par rapport à des critères internes ; c’est donc un modèle génératif des émotions et pas seulement perceptuel. Les mécanismes cognitifs (pas nécessairement conscients ou contrôlés) complexes et cachés qui permettent cette évaluation sont expliqués et pris en compte. La grande nouveauté est également d’intégrer une dynamique temporelle, en contraste avec les théories précédentes qui affectaient une étiquette à un état considéré comme statique. Les processus de vérification des critères (checks) s’effectuent séquentiellement de manière rapide [221]. Dans le Componential Process Model de Scherer, cinq critères (SEC – Stimulus Evaluation Check) sont vérifiés sur un total de dix-huit variables :
Nouveauté (Soudaineté, Familiarité, Prévisibilité) : caractère inattendu ou non de l’évènement ;
Agrément (Intrinsèque ou global, Désirabilité) : expérience plaisante ou déplaisante;
Rapports aux causes et buts (Causalité interne, Causalité externe, Pertinence, Degré de certitude dans la prédiction des conséquences, Attentes, Opportunité, Urgence) ;
Potentiel de maîtrise (Contrôle de l’évènement, Contrôle des conséquences, Puissance, Ajustement) : possibilité de s’adapter ;
Accord avec les standards (Externes, Internes) : accords aux normes sociales et concepts de soi.
Cette théorie est très complète, mais elle n’est pas exempte de problèmes : certains concepts demeurent difficiles à expliquer, tels que l’amour ou le désir [93] ; elles restent contre-intuitives et donc difficiles à expliquer ; la plupart des résultats expérimentaux supportant la théorie ont été obtenus par auto-évaluation des sujets interrogés. De plus, elle est très difficile à appliquer dans un contexte de détection automatique d’émotions car la plupart des étapes se font de manière cachées, dans l’intimité des processus cognitifs du sujet, même si des corrélations entre la vérification des critères SEC et des réactions externes (expressions faciales, modification de la voix) ont été reportées dans la littérature [222]. Sa cohérence a par contre été évaluée avec succès par un modèle informatique [218] et elle peut être bien adaptée dans un contexte génératif, pour un cas de synthèse d’émotion pour un personnage virtuel par exemple [57]. On peut noter qu’il existe des pendants à ces théories dans le domaine du verbal et de la linguistique. La théorie de l’énonciation de Charaudeau [45] décrit un processus complexe d’évaluation en cinq modalités basées sur des critères subjectifs.
|
Table des matières
CHAPITRE 1 : INTRODUCTION GÉNÉRALE
1.1 Besoins et défis actuels
1.2 Contexte – Le projet ARMEN
1.3 Contributions
1.4 Organisation du document
CHAPITRE 2 : THÉORIE DES ÉMOTIONS ET DE LEURS EXPRESSIONS
2.1 L’émotion : une notion complexe
2.2 Théories modernes des émotions
2.2.1 Théories catégorielles
2.2.2 Théories dimensionnelles
2.2.3 Théories cognitives de l’évaluation
2.3 Expression vocale des émotions
2.4 Utilisation des théories des émotions dans l’affective computing
CHAPITRE 3 : SYSTÈMES AUTOMATIQUES DE RECONNAISSANCE DES ÉMOTIONS
3.1 Composants d’un système de reconnaissance
3.2 Problématiques relatives à l’apprentissage automatique
3.2.1 Généralités
3.2.2 Problème du sur-apprentissage
3.2.3 Évaluation : métriques et méthodologies
3.2.4 Algorithmes – Détails sur les SVM
3.3 Corpus émotionnels : collecte et annotation, spontanéité des données
3.4 Performances des systèmes actuels
CHAPITRE 4 : INTERACTION ÉMOTIONNELLE AVEC DES MACHINES
4.1 Éléments théoriques de la communication non-verbale humaine
4.2 Machines interactives
4.2.1 Agents virtuels expressifs
4.2.2 Robots
4.2.3 Cas des robots assistants
4.3 Aspects dialogiques
4.4 Aspects perceptifs
4.5 Nouveaux challenges de l’interaction homme-machine
CHAPITRE 5 : COLLECTE DE DONNÉES
5.1 Introduction – Motivation
5.2 Protocoles et système de collecte de données
5.2.1 Première collecte (ARMEN_1)
5.2.2 Seconde collecte (ARMEN_2)
5.2.3 Quelques remarques sur les collectes .
5.3 Segmentation et annotation
5.3.1 Segmentation
5.3.2 Annotation
5.4 Corpus finaux
5.5 Discussion
CHAPITRE 6 : DÉTECTION DES ÉMOTIONS EN CROSS-CORPUS
6.1 État de l’art
6.1.1 Motivation
6.1.2 Difficultés
6.1.3 Stratégies
6.2 Expériences menées
6.2.1 Présentation des corpus
6.2.2 Expériences et résultats
6.3 Conclusion
CHAPITRE 7 : SÉLECTION AUTOMATIQUE DE PARAMÈTRES
7.1 État de l’art
7.1.1 Algorithmes de sélection séquentielle
7.1.2 Sélection flottante
7.2 SFFS-SSH
7.3 H-SFFS
7.3.1 Fonctionnement de l’algorithme H-SFFS : pseudo-code
7.3.2 Résultats
7.4 Analyse des paramètres sélectionnés
7.5 Méthodologie : combattre le sur-apprentissage
7.6 Conclusion
CHAPITRE 8 : CONCLUSION
Télécharger le rapport complet