Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot

Le sujet de ma thèse est la « Détection de marqueurs affectifs et attentionnels de personnes âgées en interaction avec un robot », qui fait partie du domaine de l’affective computing, décrit dans les travaux de R. Picard en 1997 [102]. Les recherches dans le domaine de l' »affective computing » se focalisent sur la modélisation informatique des émotions et plus largement des comportements affectifs. De plus en plus de recherche portent sur les marqueurs sociaux et affectifs. Dans mon étude de thèse, je me suis concentré sur la détection visuelle de l’attention, de rire et de sourire de personnes âgées, et la fusion audio-visuelle pour la détection.

Corpus ROMEO2

La plupart des corpus émotionnels existants sont actés [65, 79, 97, 139], mais peu de corpus réalistes existent. Il y en a encore moins quand il s’agit de données réalistes avec des personnes âgées. Dans le but d’avoir un corpus de données réalistes avec des marqueurs affectifs et sociaux des personnes âgées, j’ai participé à la collection d’un corpus de personnes âgées notamment pour l’enregistrement des données visuelles. Le système utilisé pour contrôler le robot est un magicien d’Oz, plusieurs scénarios de conversation au quotidien ont été utilisés pour encourager les gens à coopérer avec le robot. Ces scénarios ont été élaborés dans le cadre du projet ROMEO2 avec l’association Approche . La mission de l’association Approche est de promouvoir les nouvelles technologies au service des personnes en situations de handicap. Le but du projet ROMEO et ROMEO2 est de développer un robot humanoïde qui peut agir comme un assistant d’accompagnement pour les personnes souffrant de perte d’autonomie. Dans cette perspective, le robot est en mesure d’aider une personne dans ses tâches quotidiennes quand elle est seule. Le but de cette étude est de concevoir un système interactif affectif entraîné avec des marqueurs interactionnels, émotionnels et de la personnalité. J’ai participé à ce travail au sein de l’équipe « Dimensions affectives et sociales dans les interactions orales » sur la partie détection visuelle du rire, du sourire et de l’attention ainsi que sur la fusion audio-visuelle tardive en collaboration avec Mohamed SEHILI.

L’ensemble du corpus ROMEO2 collecté contient 27 sujets de 85 ans en moyenne pour une durée totale de 9 heures. Afin d’étudier précisément le comportement des personnes âgées, j’ai conçu le schéma d’annotation audio et vidéo avec les chercheurs de l’équipe, annoté une partie du corpus, relu et corrigé les annotations des autres annotateurs, complété les résultats d’analyse des corrélations entre les questionnaires de satisfaction et de personnalité, et participé aux analyses sur les corrélations entre questionnaires et annotations. Plusieurs phénomènes liés au comportement des personnes âgées en interaction avec le robot ont été trouvés, par exemple, les personnes âgées se sont souvent adressées à l’expérimentateur qui était assis à leur droite. Cette constatation nous a amené à étudier des signes de perte de l’attention (e.g. tourner la tête) des personnes dans l’interaction.

Défis des systèmes automatiques

L’objectif de ma thèse est l’étude de l’interaction affective et sociale entre des personnes âgées et un robot à partir du corpus ROMEO2, le choix des indices de comportement à étudier dans le système automatique doit considérer plusieurs facteurs tels que l’importance des indices pour le déroulement de l’expérimentation, l’apprentissage de l’état mental ou émotionnel du sujet, l’influence sur la stratégie de communication du robot, la quantité d’évènements annotés pour l’entrainement des modèles statistiques, etc. Ma recherche se focalise sur la détection de l’attention et la détection de rire et de sourire.

La plupart des chercheurs ont testé et validé leurs méthodes de détection sur les corpus actés ou posés [38, 59, 73, 120]. M. Valstar et de ses collègues [142] affirment que les expressions spontanées sont différentes des expressions actées ou posés à la fois en apparence et en temps de réaction. Cela signifie que les méthodes utilisées pour la reconnaissance des expressions actées ou posées pourraient ne pas fonctionner correctement sur les expressions réalistes. De plus, la conception d’un système qui marche sur les données réalistes des personnes âgées est encore plus difficile à cause du manque de données pour l’entrainement du modèle statistique, de l’influence de la texture faciale et de la façon de sourire pour la détection visuelle, de l’influence de la qualité vocale pour la détection auditive, de la variété du temps de réaction, du niveau de compréhension auditive, de la perte de la vue des personnes âgées, etc. Tous ces défis liés à la reconnaissance automatique sur le corpus réaliste des personnes âgées en interaction sociale avec robot sont envisagés. Ces difficultés également exigent, hors le corpus ROMEO2, une évaluation du système sur un corpus standard pour comparer avec la performance des méthodes de l’état de l’art.

Détection de l’attention

Dans de nombreuses interactions sociales humain-robot, le sujet est très susceptible d’interagir avec d’autres êtres humains présents dans la même pièce et perd temporellement le focus sur l’interaction principale avec le robot. Cette interaction humain-humain peut être une très brève interaction ou une assez longue discussion. Les motivations de la détection de l’attention consistent à percevoir quand le sujet ne s’adresse pas au robot et à adapter le comportement du robot à la situation. Dans de nombreux ouvrages, le suivi de regard et la technique de localisation audio sont utilisés pour détecter l’attention du sujet. Après avoir considéré les difficultés liées aux personnes âgées et les résultats d’analyse obtenus par l’étude des annotations du corpus, nous nous intéressons à la rotation de la tête au niveau de l’indice visuel, l’énergie et la qualité de voix pour la détection du destinataire de la parole. Un sousensemble du corpus ROMEO 2 et le corpus standard Pointing04 [53] (pour détection visuelle) est utilisé pour l’expérimentation du système automatique.

Détection de rire et sourire

Les marqueurs affectifs [109] jouent un rôle important dans l’interaction sociale non verbale, parmi lesquels le rire et le sourire sont parmi les marqueurs sociaux les plus importants de l’interaction homme-robot sociale. Ils ne contiennent pas seulement des informations affectives mais ils peuvent également révéler la stratégie de communication de locuteur. Dans le contexte de l’interaction homme robot, un système de détection automatique de rire et sourire peut donc aider le robot à adapter son comportement au profil de l’utilisateur donné en adoptant une stratégie de communication plus pertinente. Même si de nombreuses études intéressantes sur la détection de rire et sourire ont été menées, peu d’entre elles portaient sur les personnes âgées. Les données de personnes âgées sont relativement rares et portent souvent un défi important pour le système automatique de détection du rire et sourire en raison de l’influence de rides faciales pour la reconnaissance visuelle et la faible qualité de voix pour la reconnaissance auditive.

Mes intérêts se concentrent sur la détection de rire et sourire dans la modalité visuelle et la fusion des informations des modalités audio et visuelles afin d’améliorer la performance du système automatique. La forte corrélation entre la relaxation au niveau de l’expérience pendant l’expérimentation des sujets et leur nombre de sourires et rire annotées lors d’une interaction est montrée, les corrélations entre le nombre d’évènements et la performance du système automatique sont également trouvées.

Apports de l’étude

Cette étude a contribué à plusieurs aspects de d’étude affective et sociale des personnes âgées :
• Participation à la collecte notamment pour l’enregistrement de vidéo du corpus ROMEO2
• Conception du schéma d’annotation avec les collègues et participation à l’annotation, la vérification et la correction des annotations
• Analyse des corrélations entre l’âge, la personnalité, l’autonomie et les comportements des personnes âgées à partir des questionnaires et des annotations du corpus ROMEO2
• Analyse de la dimension sociale de la rotation de la tête
• Conception et réalisation d’une méthode visuelle non-statistique pour la détection de rotation de la tête ; l’évaluation sur le corpus standard Pointing04 et l’évaluation au niveau de frame et segment sur une partie du corpus ROMEO2
• Fusion de la détection visuelle de la rotation de la tête et la détection auditive de la qualité de voix (conception et réalisation du système audio par mon collègue Mohamed Sehili) pour la détection de l’attention ; l’évaluation segmentale sur une partie du corpus ROMEO2
• Détection de rire et sourire dans la modalité visuelle
• Fusion des informations des modalités audio-visuelles afin d’améliorer la performance du système automatique (conception et réalisation du système audio par mon collègue Mohamed Sehili) ; l’évaluation au niveau des frames, du segment (séquence de frames) et « in the wild » (sans segmentation a priori) sur une partie du corpus ROMEO2
• Analyse des corrélations statistiques entre la performance des systèmes de détection de rire et sourire pour les personnes âgées et les questionnaires, les annotations .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Partie I : Etat de l’art
1 « Affective computing »
1.1 Détection des émotions
1.2 « Affect bursts » – détection de rire et sourire
1.3 Détection de l’attention
1.4 Corpus existants
2 Techniques d’analyse de l’image
2.1 Détecteur de visage utilisant Haar Cascades
2.2 « Local Binary Patterns »
2.3 « Support Vector Machines »
2.4 Fusion multimodale et cascade
2.5 Evaluation de performance
Synthèse de l’État de l’Art
Partie II: Collecte, annotation et analyse du corpus ROMEO2
3 Collecte
3.1 Données ciblées
3.2 Scénarios d’interaction
3.3 Magicien d’Oz
3.4 Equipement
3.5 Participant
3.6 Expérimentateur
3.7 Déroulement
3.8 Questionnaires
3.9 Annotations
4 Analyse
4.1 Analyse des questionnaires
4.2 Analyse des annotations
4.3 Choix des indices de comportement pour le système automatique
4.4 Difficulté des données de personnes âgées
Synthèse de la Collecte, annotation et analyse du corpus ROMEO2
Partie III : Systèmes automatiques
5 Détection de l’orientation de la tête
5.1 Introduction
5.2 Corpus de test utilisé
5.3 Méthode
5.4 Evaluation et résultat sur le corpus ROMEO2
5.5 Evaluation sur le corpus Pointing04
5.6 Analyse de la dimension sociale de la rotation de la tête
5.7 Conclusion partielle et perspective
6 Détection multimodale de l’attention
6.1 Introduction
6.2 Corpus de test utilisé
6.3 Méthode
6.4 Résultats expérimentaux
6.5 Conclusion partielle et perspective
7 Détection de rire et de sourire
7.1 Introduction
7.2 Méthodes
7.3 Corpus de test
7.4 Système de la détection visuelle
7.5 Système de la détection auditive
7.6 Système audio-visuel
7.7 Corrélations statistiques entre la performance des systèmes et les questionnaires et les annotations
7.8 Conclusion partielle
Synthèse des systèmes automatiques
Conclusion