Apprentissage neuronal profond pour l’analyse de contenus multimodaux et temporels

Contexte

Intelligence artificielle et apprentissage automatique Chaque minute, plus de 2.4 millions de recherches sont lancรฉes sur Google tandis que plus de 500 heures de vidรฉos sont mises en lignes sur Youtube. Twitter compte 350 000 tweets par minute, Instagram plus de 50 millions dโ€™images et Facebook plus de 350 millions de photos. Associรฉs ร  la mise en ligne de cette impressionnante quantitรฉ dโ€™information, sโ€™ajoutent les commentaires et rรฉactions de la part dโ€™autres utilisateurs. Ces รฉlรฉments constituent des sources de renseignements supplรฉmentaires, avec par exemple plus de 5 milliards de commentaires postรฉs par mois sur Facebook. De maniรจre plus gรฉnรฉrale, le volume de donnรฉes numรฉriques augmente constamment, avec des sources trรจs variรฉes, telles que la mรฉtรฉorologie, lโ€™astronomie, ou encore les archives de diffรฉrents programmes et actions (ou logs). Ces quelques chiffres soulignent la masse actuelle de lโ€™information disponible actuellement sous diffรฉrentes formes (texte, image, son, chiffres, etc. ), rรฉceptacle dโ€™un ensemble de connaissances inestimable et difficile ร  exploiter. Un moyen de disposer de certaines de ces connaissances passe par lโ€™apprentissage statistique, qui consiste ร  estimer ร  partir des donnรฉes un modรจle permettant dโ€™infรฉrer automatiquement la rรฉponse ร  une tรขche complexe et difficile ร  formuler algorithmiquement. Par exemple, la reconnaissance automatique de lโ€™identitรฉ dโ€™une personne ร  partir de son visage est rendue possible par des modรจles ayant bรฉnรฉficiรฉ de larges bases de donnรฉes composรฉes de visages et des identitรฉs des utilisateurs associรฉs [130, 248, 75].

Les rรฉseaux de neurones profonds peuvent รชtre considรฉrรฉs comme une sous branche de lโ€™apprentissage statistique [166] et se rรฉvรจlent particuliรจrement efficaces pour traiter ce type de problรจme [110]. Lโ€™entraรฎnement de tels modรจles consiste en un problรจme dโ€™optimisation. Si nous reprenons lโ€™exemple prรฉcรฉdent, pour chaque visage, le rรฉseau de neurones proposera un vecteur, auquel il sera possible dโ€™associer une identitรฉ. Il sera alors possible de calculer lโ€™erreur effectuรฉe par ce rรฉseau et de la minimiser sur lโ€™ensemble des donnรฉes, conduisant ร  lโ€™apprentissage du concept de lโ€™identitรฉ. Au fur et ร  mesure de cet apprentissage, le rรฉseau construit ses propres reprรฉsentations internes (ou cachรฉes) des donnรฉes, permettant de dรฉvelopper diffรฉrentes couches dโ€™abstraction, dโ€™une maniรจre analogue ร  nos processus dโ€™apprentissage de la perception.

Perception et multimodalitรฉ Nรฉanmoins, notre perception repose sur nos sens : nous disposons de plusieurs sources dโ€™information, apportรฉes par diffรฉrents canaux, entre lesquels nous crรฉons des liens [193] afin de rรฉsoudre un problรจme donnรฉ. Prenons lโ€™exemple dโ€™une discussion que nous aurions avec un interlocuteur. Celui-ci cherche ร  partager avec nous de lโ€™information, qui est donc prรฉsente dans les mots quโ€™il utilise. Mais lโ€™information va รฉgalement รชtre communiquรฉe ร  travers dโ€™autres modalitรฉs, telles que le ton de sa voix, ses expressions faciales ou encore ses gestes, constituant une communication nonverbale [192], contenant plus dโ€™information que de simples mots. La perception que nous avons du monde qui nous entoure est donc multimodale et elle permet de reconstituer une information riche et complexe ร  partir de diffรฉrentes modalitรฉs.

Analyse de donnรฉes multi-modales et application

Une grande partie des contenus disponibles sur Internet peuvent รชtre considรฉrรฉs comme des donnรฉes multimodales. Par exemple, les vidรฉos sur Youtube contiennent de lโ€™image, du son et des commentaires (donc du texte), tandis que les images de Facebook sont souvent accompagnรฉes dโ€™une localisation ou de textes rรฉdigรฉs par leurs auteurs, et que les tweets contiennent rรฉguliรจrement des รฉmoticรดnes et des liens vers des images, du son ou des vidรฉos. Pour amรฉliorer la perception des systรจmes neuronaux actuels, il est alors intรฉressant de prendre en compte les diffรฉrentes modalitรฉs disponibles dans les donnรฉes. Il est par exemple possible dโ€™amรฉliorer la transcription automatique de la parole (i.e. transformer la voix en texte) en se servant du mouvement des lรจvres [68, 298] pour limiter les erreurs dues par exemple au bruit environnant. Un sujet particuliรจrement complexe et oรน lโ€™usage de diffรฉrentes modalitรฉs peut se rรฉvรฉler trรจs pertinent est lโ€™analyse des รฉmotions dโ€™une personne. En effet, si nous reprenons lโ€™exemple de la communication non-verbale, les รฉmotions sont en grande partie contenues dans des modalitรฉs autre que le texte [46] et elles ont alors diffรฉrentes formes dโ€™expression (vocales, faciales, corporelles). Pour pouvoir percevoir une รฉmotion, nous utilisons lโ€™ensemble de ces modalitรฉs et lโ€™apprentissage dโ€™un rรฉseau de neurones utilisant ces diffรฉrentes modalitรฉs permettrait dโ€™amรฉliorer substantiellement la qualitรฉ des systรจmes unimodaux (i.e. nโ€™utilisant quโ€™une modalitรฉ).

Amรฉliorer la reconnaissance (et la gรฉnรฉration) des รฉmotions constitue un enjeu dรฉcoulant de plusieurs intรฉrรชts et applications :
โ€” lโ€™amรฉlioration des interfaces homme-machine en ajoutant une coloration รฉmotionnelle rรฉaliste, par exemple dans le cas des agents virtuels [218] ou en personnalisant lโ€™interface suivant lโ€™humeur de son utilisateur
โ€” une aide face au trouble autistique (qui implique lโ€™incapacitรฉ ร  reconnaรฎtre les รฉmotions [183]), par exemple en proposant aux personnes autistes un outil permettant dโ€™apprendre ร  reconnaรฎtre et ร  exprimer des รฉmotions [274]
โ€” la rรฉ-utilisation de certaines modalitรฉs, telles que lโ€™expression faciale, mais appliquรฉes ร  des tรขches connexes, telles que lโ€™estimation de la douleur [186]
โ€” lโ€™amรฉlioration du marketing client, en identifiant les clients mรฉcontents ou en se servant des รฉmotions exprimรฉes par les clients face ร  un produit pour รฉvaluer celui-ci
โ€” lโ€™indexation de contenus, pour par exemple retrouver des moments clรฉs au sein de films et ainsi amรฉliorer la qualitรฉ des rรฉsumรฉs automatiques de ceux-ci .

Rรฉseaux de neurones et reprรฉsentations

Apprentissage statistiqueย 

Les approches neuronales peuvent รชtre vues comme une sous-partie du domaine de lโ€™apprentissage statistique. Celui-ci peut lui-mรชme รชtre dรฉfini comme une discipline de lโ€™intelligence artificielle, qui concerne la conception, lโ€™analyse, le dรฉveloppement et lโ€™implรฉmentation de mรฉthodes permettant ร  une machine (au sens large) dโ€™รฉvoluer par un processus systรฉmatique, et ainsi de remplir des tรขches difficiles ou impossibles ร  remplir par des moyens algorithmiques plus classiquesย  . Plus sommairement, nous pourrions dรฉfinir lโ€™apprentissage statistique comme la recherche et lโ€™obtention dโ€™une fonction permettant de rรฉsoudre une tรขche ร  partir dโ€™un ensemble de donnรฉes associรฉes. Plusieurs ouvrages [100, 39, 254, 8] permettent dโ€™approfondir cette dรฉfinition et dโ€™explorer ce domaine trรจs large.

Formalisation du problรจme de lโ€™apprentissage supervisรฉ Nous proposons maintenant une dรฉfinition plus formelle, issue de [254]. Si nous considรฉrons que X est lโ€™ensemble des entrรฉes possibles et Z lโ€™ensemble des sorties possibles, il existe une distribution de probabilitรฉ inconnue sur lโ€™ensemble X ร—Z, que nous noterons p(x,z) avec (x,z) โˆˆ X ร— Z.

Classification, rรฉgression Au sein de lโ€™apprentissage supervisรฉ, nous pouvons distinguer diffรฉrentes problรฉmatiques et notamment des problรจmes de rรฉgression et de classification. La classification consiste en des annotations par catรฉgories, i.e. que les zi correspondent ร  des valeurs discrรจtes et quโ€™il en existe un nombre fini. Par exemple, un problรจme de classification classique serait de dรฉterminer ร  partir dโ€™une photo dโ€™animal sโ€™il sโ€™agit dโ€™un chien, dโ€™un chat ou dโ€™un oiseau. La rรฉgression consiste en des annotations par valeurs continues, i.e. que les zi correspondent ร  des valeurs comprises dans un intervalle donnรฉ. Par exemple, un problรจme de rรฉgression pourrait รชtre lโ€™estimation de la position dโ€™un animal dans une image, modรฉlisรฉe par deux valeurs continues ร  rรฉgresser . Les mรฉthodes utilisรฉes et notamment la fonction de coรปt employรฉe prรฉsentent des diffรฉrences entre ces deux types de problรฉmatiques .

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

1 Introduction gรฉnรฉrale
1.1 Contexte
1.2 Problรฉmatiques
1.3 Contributions et organisation du manuscrit
2 ร‰tat de lโ€™art gรฉnรฉral
2.1 Rรฉseaux de neurones et reprรฉsentations
2.1.1 Apprentissage statistique
2.1.2 Architectures de rรฉseaux de neurones
2.1.3 Apprentissage dโ€™un rรฉseau de neurones
2.1.4 Aide ร  la convergence
2.1.5 Recherche des paramรจtres
2.1.6 Transfert de connaissances
2.2 Informatique affective
2.2.1 Dรฉfinitions
2.2.2 Reconnaissance dโ€™รฉmotions
2.2.3 Gรฉnรฉration dโ€™รฉmotion
2.3 Multimodalitรฉ et multi-tรขche
2.3.1 Problรจme multimodal
2.3.2 Fusion multimodale
2.3.3 Lien avec les approches multi-tรขches
2.4 Conclusions
3 Approches neuronales pour la reconnaissance dโ€™รฉmotion
3.1 Introduction
3.1.1 Motivations
3.1.2 Le challenge Emotion in the Wild
3.2 Reconnaissance dโ€™รฉmotions ร  partir de diffรฉrentes modalitรฉs
3.2.1 Extraire des descripteurs de la modalitรฉ visuelle
3.2.2 Sรฉlection et fusion temporelle
3.2.3 Extraire des descripteurs du son
3.2.4 Fusion multimodale
3.2.5 Sรฉlection des modรจles
3.3 Expรฉrimentations et participations au challenge EmotiW
3.3.1 La base de donnรฉes Acted Facial Expression in the Wild (AFEW)
3.3.2 ร‰valuation des descripteurs
3.3.3 ร‰valuation de la fusion temporelle
3.3.4 ร‰valuation de la fusion multimodale
3.3.5 Rรฉsultats finaux et discussion
3.4 Conclusions
3.4.1 En rรฉsumรฉ
3.4.2 Questionnements
3.4.3 Perspectives
4 Reprรฉsentation compacte et interprรฉtable de lโ€™รฉmotion
4.1 Introduction
4.2 Apprentissage dโ€™une reprรฉsentation de lโ€™expression faciale
4.2.1 Entraรฎnement dโ€™un rรฉseau de neurones pour la reconnaissance dโ€™expression faciale
4.2.2 Quelques intuitions sur la reprรฉsentation des รฉmotions
4.2.3 Apprentissage dโ€™une reprรฉsentation compacte et performante
4.2.4 ร‰valuation de la reprรฉsentation
4.3 Analyse et gรฉnรฉration dโ€™expressions faciales
4.3.1 Visualisations prรฉliminaires
4.3.2 Apprentissage dโ€™un modรจle de modification de lโ€™expression
4.3.3 ร‰valuation de la reprรฉsentation disc3 pour la gรฉnรฉration dโ€™expressions faciales
4.3.4 ร€ propos de la dรฉmonstration
4.4 Conclusions
4.4.1 En rรฉsumรฉ
4.4.2 Perspectives
5 Transfert de connaissances ร  partir de plusieurs sources
5.1 Introduction
5.2 Construction du problรจme de transfert multi-source
5.2.1 Formulation du problรจme
5.2.2 Connaissances sources
5.2.3 Connaissances cibles
5.2.4 Vers une connaissance gรฉnรฉrale
5.3 Rรฉduction de dimensionnalitรฉ
5.3.1 Pourquoi rรฉduire la dimensionnalitรฉ ?
5.3.2 Approche adoptรฉe .
5.3.3 ร‰tude empirique
5.4 Transfert des connaissances
5.4.1 Distillation pour un modรจle unique et compacte
5.4.2 Lien avec une approche multi-tรขche
5.4.3 Validation expรฉrimentale
5.5 Conclusions
5.5.1 En rรฉsumรฉ
5.5.2 Perspectives
6 Conclusion gรฉnรฉrale

Lire le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *