Depuis longtemps, les interfaces homme-machine pour les produits et services ont continué d’évoluer pour mieux s’adapter au besoin des utilisateurs. La conception la plus importante qui permet la réussite de l’humain est de l’aider à effectuer rapidement et facilement ses tâches et d’offrir la souplesse qui permet aux utilisateurs de manier facilement les différents appareils.
Au cours des dernières années, une énorme attention a été accordée à l’amélioration de tous les aspects de l’interaction entre l’homme et la machine en développant des interfaces intelligentes. Dans ce contexte, de nombreuses études ont été proposées dans différents domaines tels que la vision par ordinateur, l’ingénierie, la psychologie et les neurosciences. Ces études visent à améliorer les interfaces-ordinateur et réformer également les actions que l’ordinateur peut exécuter en fonction de la rétroaction de l’utilisateur. Par conséquent, les ordinateurs doivent être capables d’interpréter le comportement de l’utilisateur afin de satisfaire ses demandes (Neji, Benammar, Wali, & Alimi, 2013). En ce sens, l’auteur dans (Picard R. W., 1999.) dit: «si nous voulons des ordinateurs qu’ils soient véritablement intelligents et interagissent naturellement avec nous, nous devons leur donner la capacité de reconnaître, comprendre, et même d’avoir et d’exprimer des émotions ». Ainsi, pour faciliter l’interaction homme-machine, la machine doit être capable de reconnaître, de comprendre et de gérer les émotions. De la même façon, les auteurs dans (Minsky, 1985) ont posé la question de la nécessité d’émotions pour la synthèse de l’intelligence et disent: « la question n’est pas de savoir si les machines intelligentes peuvent avoir des émotions, mais si les machines peuvent être intelligentes sans émotions. » Par ailleurs, Christine Lisetti , explique le terme« affective » liés à l’ordinateur en disant » il est à prendre en compte le rôle des émotions dans la cognition pour améliorer l’interaction homme-machine « . Toutes ces études mettent en évidence l’importance de l’interaction efficace entre l’homme et la machine.
En fait, bien que les nouvelles technologies soient présentes dans notre vie quotidienne, ils ne fournissent pas une interface adéquate qui les rend plus abordables pour les utilisateurs. Par conséquent, l’informatique affective en améliorant l’interaction homme-ordinateur, permet aux ordinateurs d’être plus adaptés à l’homme et non pas l’inverse. Dans ce contexte, notre recherche se concentre sur la reconnaissance des émotions à partir d’expressions faciales afin de fournir un système d’analyse de l’émotion cognitive.
Détection des visages
Toutes les applications automatiques imitant la perception humaine et destinées à reconnaitre des êtres humains, à identifier leurs états émotionnels, ou simplement segmenter des visages, doivent passer par une phase initiale et primordiale, à savoir, la détection du visage humain. Une image, statique ou vidéo, peut contenir un ou plusieurs visages, ou n’en posséder plus. Une détection implique une localisation précise permettant aux phases postérieures de traitement de se focaliser sur la bonne partie de l‘image, alors de fonctionner avec plus de précision et efficacité, évitant ainsi de tomber dans les problèmes de fausses reconnaissances dites respectivement, la fausse positive, et la fausse négative , que nous verrons en détails dans les chapitres subséquents .
Il est vrai qu’une détection de visage est une tâche très facile pour l’être humain, néanmoins, en ce qui concerne une machine intelligente cela devient de plus en plus difficile, que ce soit pour les images photographiques ou les vidéos. Une localisation implique une segmentation, une extraction des primitives, puis une vérification. Et tout cela se déroule en tenant compte des différentes conditions d’échelles, de luminances, et d’orientations. Les techniques de détection des visages se répartirent en deux grandes familles d’approches, notamment, les approches structurelles et les approches globales. La première catégorie utilise les informations concernant le visage dans lesquels des caractéristiques de bas niveau sont extraites, tandis que la deuxième catégorie classe la détection du visage humain parmi les problèmes généraux de reconnaissance de formes.
Les approches structurelles (basée-caractéristiques)
Analyse de bas niveau
Les contours
l’extraction de contours est amplement utilisée dans la détection des visages (Brunnelli & Poggio., 1993) (Choi, Kim, & Rhee, 1999.) (Herpers, Kattner, Rodax, & Sommer, 1995) (Low & Ibrahim, 1997). Elle consiste en une détection des traits de visage sur lesquels une analyse ultérieure est élaborée. Tous les traits détectés sont labélisés et comparés avec un modèle de visage pour vérifier si la détection est correcte ou pas.
Plusieurs types de détecteur sont appliqués, notamment, le filtre de Sobel, le Laplacien, le filtre de Marr-Hildreth…etc. Dans ce paragraphe nous allons présenter brièvement deux méthodes qui utilisent respectivement, le filtre de Sobel et le filtre Laplacien.
Niveau de gris
Le niveau de gris représente aussi une caractéristique pertinente pour la détection des visages. Les yeux, les lèvres et les sourcils se montrent toujours plus sombres par rapport aux autres caractéristiques faciales. Cette idée est exploitée dans plusieurs approches dont nous présentons ici le travail de Yang et al. (Yang & Huang, 1994) et celui de Sobotka et al. (Sobottka & Pitas, 1996). Les auteurs dans (Yang & Huang, 1994) ont développé un système automatique de détection des visages sans tenir compte de leur taille, nombre, et emplacement dans l’image. L’idée principale consiste à transformer l’image principale en une image mosaïque, puis à une certaine résolution, un ensemble de règles est appliqué afin de trouver les composants de visage. L’image mosaïque est obtenue en diminuant la résolution de l’image originale, elle est composée d’un ensemble de cadres dont chacun est de taille de n × n pixels, et le niveau de gris de chaque cadre est défini par la moyenne des intensités des pixels y sont inclus. Sobotka et al dans (Sobottka & Pitas, 1996) proposent une approche qui consiste à trouver le visage suite à une détection de ses composants, à savoir, les sourcils, les yeux, le nez, et la bouche. Ceux-ci sont déterminés en cherchant les minimas et les maximas des projections horizontales et verticales des niveaux de gris, ils sont notés respectivement, par y-projection et x-projection.
Le mouvement
L’information sur le mouvement est employée dans le cas d’utilisation d’une séquence vidéo. La segmentation se fait par l’analyse de différence entre trames, qui sert à extraire efficacement le premier-plan sans tenir compte du contenu de l’arrière plan. Les auteurs dans (Beek, Reinders, Sankur, & Lubbe., 1992) (Graf, Cosatto, Gibson, Petajan, & Kocheisen, 1996) (Turk & Pentland, 1991), font l’extraction du visage et des parties du corps humain en utilisant un seuil de différence de trame accumulé. D’autres approches telles que dans (Low & Ibrahim, 1997) (Luthon & Lievin, 1997) (Low B. K. Computer Extraction of Human Faces, 1998) (Crowley & Berard, 1997) utilisent aussi la différence de trame afin de localiser les caractéristiques faciales. Par exemple Berard (Crowley & Berard, 1997) estime une existence des yeux en mesurant le déplacement horizontal et vertical entre deux régions adjacentes.
Une autre méthode plus fiable, pour mesurer le mouvement, est basée sur le déplacement des contours. McKenna et al. (McKenna, Gong, & Liddell, 1995) utilisent un filtre Gaussien pour détecter les mouvements de visage et du corps humain.
|
Table des matières
Introduction générale
Chapitre 1 : Détection des visages
Introduction
1 Les approches structurelles (basée-caractéristiques)
1.1 Analyse de bas niveau
Les contours
Niveau de gris
La couleur
Le mouvement
Autres mesures
1.2 Analyse des caractéristiques
Recherche de caractéristiques
Analyse de constellation
1.3 Les modèles de forme active
Les contours actifs (snake)
Modèle de points distribués
2 Les approches globales
2.1 Les méthodes de sous-espaces linéaires
2.2 Les réseaux de neurones
2.3 Les approches statistiques
Conclusion
Chapitre 2 : Reconnaissance des visages
Introduction
1 Les approches holistiques
1.1 Analyse en composante principale « Eigenface »
1.2 Eigenfaces probabilistes
1.3 Analyse discriminante linéaire LDA
1.4 Les machines à support de vecteurs SVM
1.5 Les lignes caractéristiques
1.6 Analyse en composantes indépendantes ICA
2 Les Approches locales (basée caractéristiques)
2.1 Les méthodes géométriques
2.2 Elalstic Buch Graph Matching (EBGM)
2.3 Les modèles de Markov (HMM)
2.4 Méthode de LBP (Local Binary Pattern)
3. Les méthodes hybrides
3.1 Eigenfaces modulaire
3.2 Les modèles d’apparences flexibles
3.3 Méthode linéaire hybride de Fisher
3.4 Méthodes basées composants
Conclusion
Chapitre 3 : L’émotion
1 Introduction et définition de l’émotion
1.1 Les émotions primaires
1.2 Les émotions secondaires
2. Les expressions faciales
3. L’émotion
3.1 Les différentes émotions universelles
3.2 Modèle théorique de l’émotion
Théorie physiologique
Théorie Néo-Darwinienne
3.3 Neurophysiologie des émotions
3.4 Représentation des émotions
Approche catégorielle
Approche dimensionnelle
4 Expression de l’émotion
4.1 Les canaux de l’expression
4.2 Les variables captées pour reconnaître les émotions
5. Systèmes de reconnaissance de l’émotion
5.1 Les systèmes de reconnaissance émotionnels existants
Reconnaissance générique/personnalisée
Reconnaissance active / passive
5.2 Quelques capteurs utilisés pour la reconnaissance d’émotions
5.3 Canaux de communication émotionnelle
Reconnaissance par expression faciale
Reconnaissance par la voix
Reconnaissance par le mouvement
Reconnaissance par les signaux physiologiques
Conclusion générale