Les émotions colorent notre vie, permettent d’exprimer les différentes facettes de la personnalité, et, les vivre pleinement, c’est s’autoriser une existence intense. On a beaucoup cru, au siècle précédent, à la toute puissance de la raison en oubliant l’émotion. Et pour cause ! On la considérait comme un obstacle au travail de la raison. Grâce au neuroscientifique et à l’imagerie cérébrale, on sait désormais que l’être humain n’est pas un décideur rationnel et que l’émotion est un partenaire fondamental de la cognition humaine, de sa créativité et de sa prise de décision .
Doter la machine des capacités de reconnaissance d’état émotionnel, tel est le défi scientifique autour duquel se rassemblent différentes communautés (traitement du signal, traitement d’images, intelligence artificielle, robotique, interaction homme-machine, etc.).
L’état émotionnel des humains peut être obtenu à partir d’un large éventail d’indices comportementaux et des signaux qui sont disponibles par le biais d’une expression ou d’une présentation visuelle, auditive et physiologique de l’émotion :
❐ L’état émotionnel à travers l’expression visuelle est évalué en fonction de la modulation des expressions faciales, gestes, postures et plus généralement le langage corporel. Les données sont capturées par une caméra, permettant des configurations non intrusives. Les systèmes sont généralement très sensibles à la qualité de la vidéo, l’éclairage, la pose et la taille du visage sur la vidéo [156] ;
❐ L’état émotionnel à travers l’expression auditive peut être estimé comme une modulation du signal vocal [156]. Dans ce cas, les données sont captées par un microphone, ce qui permet des configurations d’un système non intrusif. Les besoins en traitement de données vocales propres (rapport signal / bruit (SNR) inférieur à 10 dB) peut sérieusement réduire la qualité de l’estimation [233]. En outre, le traitement est difficilement géré lors de la présence de plus d’une seule voix dans le flux audio ;
❐ L’état émotionnel à travers la représentation physiologique est estimé par la modulation de l’activité du système nerveux autonome (SNA). L’estimation peut être très fiable [137, 213] et est moins sensible à la qualité des émotions que celles extraites des modalités auditives et visuelles [156]. La principale limitation est liée à l’intrusion des dispositifs de détection.
Comme le contenu émotionnel reflète le comportement humain, la reconnaissance automatique des émotions est un sujet qui suscite un intérêt croissant. Ce n’est cependant pas une tâche aisée. Les émotions jouent en effet un rôle implicite dans le processus de communication en comparaison du message explicite véhiculé par le niveau lexical. Le phénomène à reconnaître est complexe et subtil, présentant des manifestations très diversifiées et dépendantes de nombreux facteurs (contexte social, culturel, personnalité du locuteur, etc.).
La mesure des émotions est extrêmement délicate. Il est nécessaire de combiner des techniques classiques de mesure [135] utilisées souvent séparément : reconnaissance des expressions faciales, reconnaissance de la parole et analyse des signaux physiologiques. Dans ce travail, nous nous concentrons sur la combinaison des mesures physiologiques et des expressions faciales pour la reconnaissance des émotions. Plusieurs avantages peuvent être attendus lors de la combinaison des signaux physiologiques et des expressions faciales.
Tout d’abord, une expression faciale est une manifestation visible de l’état émotionnel, de l’activité cognitive, de l’intention, de la personnalité et de la psychopathologie d’une personne. Dans [149], Mehrabian a mis en évidence le fait que 55 % du message émotionnel est communiqué par l’expression faciale alors que 7 % seulement par le canal linguistique et 38% par le paralangage. Ainsi, les expressions faciales jouent un rôle important dans la communication humaine et en interaction homme-machine. Mais, l’utilisateur peut consciemment ou inconsciemment, cacher ses émotions détectées par des canaux extérieurs (visage et voix).
D’un autre coté, les capteurs physiologiques nous permettent de recueillir en permanence des informations sur l’état émotionnel de l’utilisateur alors que l’analyse des émotions du visage doit être détectée lorsque les expressions montrent un changement et que la personne est en face de la caméra. De plus, il est difficile pour les utilisateurs de manipuler librement les capteurs physiologiques par rapport aux expressions faciales ou à la voix.
Enfin, une analyse basée sur les signaux physiologiques et sur les expressions faciales permet de lever les ambiguïtés et de compenser les erreurs.
|
Table des matières
Introduction générale
1 État de l’art sur la reconnaissance des émotions
1.1 Introduction
1.2 Notions sur les émotions
1.2.1 Définition
1.2.2 Modèles théoriques de l’émotion
1.2.2.1 Théorie physiologique
1.2.2.2 Théorie Néo-Darwinienne
1.2.3 Neurophysiologie des émotions : Le système limbique
1.2.4 Types d’émotion
1.2.4.1 Émotions primaires
1.2.4.2 Émotions secondaires
1.2.4.3 Émotions sociales
1.2.5 Représentation des émotions
1.2.5.1 Approche catégorielle
1.2.5.2 Approche dimensionnelle
1.2.6 Composantes d’une émotion
1.2.6.1 Composantes physiologiques des émotions
1.2.6.2 Composantes comportementales des émotions
1.2.7 Conclusion
1.3 Les expressions faciales
1.3.1 Introduction
1.3.2 Un système d’analyse des expressions faciales
1.3.3 Les techniques de détection de visages
1.3.3.1 Méthodes basées sur les connaissances acquises
1.3.3.2 Méthodes basées sur les caractéristiques invariantes
1.3.3.3 Méthodes basées sur la mise en correspondance
1.3.3.4 Méthodes basées sur l’apparence
1.3.4 Extraction des caractéristiques faciales
1.3.4.1 Analyse bas niveau
1.3.4.2 Analyse intermédiaire
1.3.4.3 Analyse haut niveau
1.3.4.4 Synthèse sur l’extraction des caractéristiques
1.3.5 Classification des expressions basée sur des données statiques
1.3.5.1 Approches basées sur des modèles
1.3.5.2 Approches basées sur des points caractéristiques
1.3.6 Classification basée sur des données dynamiques
1.3.7 Synthèse sur la classification des expressions faciales
1.3.8 Conclusion
1.4 Les signaux physiologiques
1.4.1 Introduction
1.4.2 Les modifications physiologiques concomitant des émotions
1.4.3 L’activité physiologique et l’activation émotionnelle
1.4.3.1 Activité électrodermale
1.4.3.2 Pression sanguine volumique (Blood volume pulse BVP)
1.4.3.3 Volume et rythme respiratoire (VR)
1.4.3.4 Activité électromyographique (EMG)
1.4.3.5 Température cutanée ( Skin Temperature SKT)
1.4.4 Recherche antérieure sur la reconnaissance des émotions à partir des signaux physiologiques
1.4.5 Conclusion
1.5 Les systèmes multimodaux
1.5.1 Introduction
1.5.2 Fusion de données
1.5.3 Fusion des caractéristiques
1.5.3.1 Méthodes de sélection
1.5.3.2 Transformations des caractéristiques
1.5.3.3 Synthèse sur la fusion au niveau des caractéristiques
1.5.4 Fusion des décisions
1.5.4.1 Principe du vote
1.5.4.2 Les règles
1.5.4.3 Méthodes empiriques
1.5.4.4 Distance euclidienne
1.5.4.5 Modèle graphique de probabilité
1.5.5 Conclusion
1.6 Conclusion
2 Analyse des expressions faciales
2.1 Introduction
2.2 Extraction des caractéristiques faciales
2.2.1 Détection de visage
2.2.1.1 Les descripteurs de HAAR
2.2.1.2 Cascade de classifieur
2.2.2 La localisation des points caractéristiques faciaux
2.2.3 Le suivi des points caractéristiques avec le flux optique
2.3 Reconnaissance des expressions faciales
2.3.1 Codage des expressions faciales
2.3.2 Classification des expressions faciales
2.4 Résultats et discussions
2.4.1 Description des bases de données utilisées
2.4.1.1 La base de Cohn-Kanade
2.4.1.2 La base de FEEDTUM
2.4.2 Implémentation et Résultats
2.5 Conclusion
Conclusion générale
Télécharger le rapport complet