Contexte
Intelligence artificielle et apprentissage automatique Chaque minute, plus de 2.4 millions de recherches sont lancรฉes sur Google tandis que plus de 500 heures de vidรฉos sont mises en lignes sur Youtube. Twitter compte 350 000 tweets par minute, Instagram plus de 50 millions dโimages et Facebook plus de 350 millions de photos. Associรฉs ร la mise en ligne de cette impressionnante quantitรฉ dโinformation, sโajoutent les commentaires et rรฉactions de la part dโautres utilisateurs. Ces รฉlรฉments constituent des sources de renseignements supplรฉmentaires, avec par exemple plus de 5 milliards de commentaires postรฉs par mois sur Facebook. De maniรจre plus gรฉnรฉrale, le volume de donnรฉes numรฉriques augmente constamment, avec des sources trรจs variรฉes, telles que la mรฉtรฉorologie, lโastronomie, ou encore les archives de diffรฉrents programmes et actions (ou logs). Ces quelques chiffres soulignent la masse actuelle de lโinformation disponible actuellement sous diffรฉrentes formes (texte, image, son, chiffres, etc. ), rรฉceptacle dโun ensemble de connaissances inestimable et difficile ร exploiter. Un moyen de disposer de certaines de ces connaissances passe par lโapprentissage statistique, qui consiste ร estimer ร partir des donnรฉes un modรจle permettant dโinfรฉrer automatiquement la rรฉponse ร une tรขche complexe et difficile ร formuler algorithmiquement. Par exemple, la reconnaissance automatique de lโidentitรฉ dโune personne ร partir de son visage est rendue possible par des modรจles ayant bรฉnรฉficiรฉ de larges bases de donnรฉes composรฉes de visages et des identitรฉs des utilisateurs associรฉs [130, 248, 75].
Les rรฉseaux de neurones profonds peuvent รชtre considรฉrรฉs comme une sous branche de lโapprentissage statistique [166] et se rรฉvรจlent particuliรจrement efficaces pour traiter ce type de problรจme [110]. Lโentraรฎnement de tels modรจles consiste en un problรจme dโoptimisation. Si nous reprenons lโexemple prรฉcรฉdent, pour chaque visage, le rรฉseau de neurones proposera un vecteur, auquel il sera possible dโassocier une identitรฉ. Il sera alors possible de calculer lโerreur effectuรฉe par ce rรฉseau et de la minimiser sur lโensemble des donnรฉes, conduisant ร lโapprentissage du concept de lโidentitรฉ. Au fur et ร mesure de cet apprentissage, le rรฉseau construit ses propres reprรฉsentations internes (ou cachรฉes) des donnรฉes, permettant de dรฉvelopper diffรฉrentes couches dโabstraction, dโune maniรจre analogue ร nos processus dโapprentissage de la perception.
Perception et multimodalitรฉ Nรฉanmoins, notre perception repose sur nos sens : nous disposons de plusieurs sources dโinformation, apportรฉes par diffรฉrents canaux, entre lesquels nous crรฉons des liens [193] afin de rรฉsoudre un problรจme donnรฉ. Prenons lโexemple dโune discussion que nous aurions avec un interlocuteur. Celui-ci cherche ร partager avec nous de lโinformation, qui est donc prรฉsente dans les mots quโil utilise. Mais lโinformation va รฉgalement รชtre communiquรฉe ร travers dโautres modalitรฉs, telles que le ton de sa voix, ses expressions faciales ou encore ses gestes, constituant une communication nonverbale [192], contenant plus dโinformation que de simples mots. La perception que nous avons du monde qui nous entoure est donc multimodale et elle permet de reconstituer une information riche et complexe ร partir de diffรฉrentes modalitรฉs.
Analyse de donnรฉes multi-modales et application
Une grande partie des contenus disponibles sur Internet peuvent รชtre considรฉrรฉs comme des donnรฉes multimodales. Par exemple, les vidรฉos sur Youtube contiennent de lโimage, du son et des commentaires (donc du texte), tandis que les images de Facebook sont souvent accompagnรฉes dโune localisation ou de textes rรฉdigรฉs par leurs auteurs, et que les tweets contiennent rรฉguliรจrement des รฉmoticรดnes et des liens vers des images, du son ou des vidรฉos. Pour amรฉliorer la perception des systรจmes neuronaux actuels, il est alors intรฉressant de prendre en compte les diffรฉrentes modalitรฉs disponibles dans les donnรฉes. Il est par exemple possible dโamรฉliorer la transcription automatique de la parole (i.e. transformer la voix en texte) en se servant du mouvement des lรจvres [68, 298] pour limiter les erreurs dues par exemple au bruit environnant. Un sujet particuliรจrement complexe et oรน lโusage de diffรฉrentes modalitรฉs peut se rรฉvรฉler trรจs pertinent est lโanalyse des รฉmotions dโune personne. En effet, si nous reprenons lโexemple de la communication non-verbale, les รฉmotions sont en grande partie contenues dans des modalitรฉs autre que le texte [46] et elles ont alors diffรฉrentes formes dโexpression (vocales, faciales, corporelles). Pour pouvoir percevoir une รฉmotion, nous utilisons lโensemble de ces modalitรฉs et lโapprentissage dโun rรฉseau de neurones utilisant ces diffรฉrentes modalitรฉs permettrait dโamรฉliorer substantiellement la qualitรฉ des systรจmes unimodaux (i.e. nโutilisant quโune modalitรฉ).
Amรฉliorer la reconnaissance (et la gรฉnรฉration) des รฉmotions constitue un enjeu dรฉcoulant de plusieurs intรฉrรชts et applications :
โ lโamรฉlioration des interfaces homme-machine en ajoutant une coloration รฉmotionnelle rรฉaliste, par exemple dans le cas des agents virtuels [218] ou en personnalisant lโinterface suivant lโhumeur de son utilisateur
โ une aide face au trouble autistique (qui implique lโincapacitรฉ ร reconnaรฎtre les รฉmotions [183]), par exemple en proposant aux personnes autistes un outil permettant dโapprendre ร reconnaรฎtre et ร exprimer des รฉmotions [274]
โ la rรฉ-utilisation de certaines modalitรฉs, telles que lโexpression faciale, mais appliquรฉes ร des tรขches connexes, telles que lโestimation de la douleur [186]
โ lโamรฉlioration du marketing client, en identifiant les clients mรฉcontents ou en se servant des รฉmotions exprimรฉes par les clients face ร un produit pour รฉvaluer celui-ci
โ lโindexation de contenus, pour par exemple retrouver des moments clรฉs au sein de films et ainsi amรฉliorer la qualitรฉ des rรฉsumรฉs automatiques de ceux-ci .
Rรฉseaux de neurones et reprรฉsentations
Apprentissage statistiqueย
Les approches neuronales peuvent รชtre vues comme une sous-partie du domaine de lโapprentissage statistique. Celui-ci peut lui-mรชme รชtre dรฉfini comme une discipline de lโintelligence artificielle, qui concerne la conception, lโanalyse, le dรฉveloppement et lโimplรฉmentation de mรฉthodes permettant ร une machine (au sens large) dโรฉvoluer par un processus systรฉmatique, et ainsi de remplir des tรขches difficiles ou impossibles ร remplir par des moyens algorithmiques plus classiquesย . Plus sommairement, nous pourrions dรฉfinir lโapprentissage statistique comme la recherche et lโobtention dโune fonction permettant de rรฉsoudre une tรขche ร partir dโun ensemble de donnรฉes associรฉes. Plusieurs ouvrages [100, 39, 254, 8] permettent dโapprofondir cette dรฉfinition et dโexplorer ce domaine trรจs large.
Formalisation du problรจme de lโapprentissage supervisรฉ Nous proposons maintenant une dรฉfinition plus formelle, issue de [254]. Si nous considรฉrons que X est lโensemble des entrรฉes possibles et Z lโensemble des sorties possibles, il existe une distribution de probabilitรฉ inconnue sur lโensemble X รZ, que nous noterons p(x,z) avec (x,z) โ X ร Z.
Classification, rรฉgression Au sein de lโapprentissage supervisรฉ, nous pouvons distinguer diffรฉrentes problรฉmatiques et notamment des problรจmes de rรฉgression et de classification. La classification consiste en des annotations par catรฉgories, i.e. que les zi correspondent ร des valeurs discrรจtes et quโil en existe un nombre fini. Par exemple, un problรจme de classification classique serait de dรฉterminer ร partir dโune photo dโanimal sโil sโagit dโun chien, dโun chat ou dโun oiseau. La rรฉgression consiste en des annotations par valeurs continues, i.e. que les zi correspondent ร des valeurs comprises dans un intervalle donnรฉ. Par exemple, un problรจme de rรฉgression pourrait รชtre lโestimation de la position dโun animal dans une image, modรฉlisรฉe par deux valeurs continues ร rรฉgresser . Les mรฉthodes utilisรฉes et notamment la fonction de coรปt employรฉe prรฉsentent des diffรฉrences entre ces deux types de problรฉmatiques .
|
Table des matiรจres
1 Introduction gรฉnรฉrale
1.1 Contexte
1.2 Problรฉmatiques
1.3 Contributions et organisation du manuscrit
2 รtat de lโart gรฉnรฉral
2.1 Rรฉseaux de neurones et reprรฉsentations
2.1.1 Apprentissage statistique
2.1.2 Architectures de rรฉseaux de neurones
2.1.3 Apprentissage dโun rรฉseau de neurones
2.1.4 Aide ร la convergence
2.1.5 Recherche des paramรจtres
2.1.6 Transfert de connaissances
2.2 Informatique affective
2.2.1 Dรฉfinitions
2.2.2 Reconnaissance dโรฉmotions
2.2.3 Gรฉnรฉration dโรฉmotion
2.3 Multimodalitรฉ et multi-tรขche
2.3.1 Problรจme multimodal
2.3.2 Fusion multimodale
2.3.3 Lien avec les approches multi-tรขches
2.4 Conclusions
3 Approches neuronales pour la reconnaissance dโรฉmotion
3.1 Introduction
3.1.1 Motivations
3.1.2 Le challenge Emotion in the Wild
3.2 Reconnaissance dโรฉmotions ร partir de diffรฉrentes modalitรฉs
3.2.1 Extraire des descripteurs de la modalitรฉ visuelle
3.2.2 Sรฉlection et fusion temporelle
3.2.3 Extraire des descripteurs du son
3.2.4 Fusion multimodale
3.2.5 Sรฉlection des modรจles
3.3 Expรฉrimentations et participations au challenge EmotiW
3.3.1 La base de donnรฉes Acted Facial Expression in the Wild (AFEW)
3.3.2 รvaluation des descripteurs
3.3.3 รvaluation de la fusion temporelle
3.3.4 รvaluation de la fusion multimodale
3.3.5 Rรฉsultats finaux et discussion
3.4 Conclusions
3.4.1 En rรฉsumรฉ
3.4.2 Questionnements
3.4.3 Perspectives
4 Reprรฉsentation compacte et interprรฉtable de lโรฉmotion
4.1 Introduction
4.2 Apprentissage dโune reprรฉsentation de lโexpression faciale
4.2.1 Entraรฎnement dโun rรฉseau de neurones pour la reconnaissance dโexpression faciale
4.2.2 Quelques intuitions sur la reprรฉsentation des รฉmotions
4.2.3 Apprentissage dโune reprรฉsentation compacte et performante
4.2.4 รvaluation de la reprรฉsentation
4.3 Analyse et gรฉnรฉration dโexpressions faciales
4.3.1 Visualisations prรฉliminaires
4.3.2 Apprentissage dโun modรจle de modification de lโexpression
4.3.3 รvaluation de la reprรฉsentation disc3 pour la gรฉnรฉration dโexpressions faciales
4.3.4 ร propos de la dรฉmonstration
4.4 Conclusions
4.4.1 En rรฉsumรฉ
4.4.2 Perspectives
5 Transfert de connaissances ร partir de plusieurs sources
5.1 Introduction
5.2 Construction du problรจme de transfert multi-source
5.2.1 Formulation du problรจme
5.2.2 Connaissances sources
5.2.3 Connaissances cibles
5.2.4 Vers une connaissance gรฉnรฉrale
5.3 Rรฉduction de dimensionnalitรฉ
5.3.1 Pourquoi rรฉduire la dimensionnalitรฉ ?
5.3.2 Approche adoptรฉe .
5.3.3 รtude empirique
5.4 Transfert des connaissances
5.4.1 Distillation pour un modรจle unique et compacte
5.4.2 Lien avec une approche multi-tรขche
5.4.3 Validation expรฉrimentale
5.5 Conclusions
5.5.1 En rรฉsumรฉ
5.5.2 Perspectives
6 Conclusion gรฉnรฉrale