Apprentissage neuronal profond pour l'analyse de contenus multimodaux et temporels

Contexte

Intelligence artificielle et apprentissage automatique Chaque minute, plus de 2.4 millions de recherches sont lancées sur Google tandis que plus de 500 heures de vidéos sont mises en lignes sur Youtube. Twitter compte 350 000 tweets par minute, Instagram plus de 50 millions d’images et Facebook plus de 350 millions de photos. Associés à la mise en ligne de cette impressionnante quantité d’information, s’ajoutent les commentaires et réactions de la part d’autres utilisateurs. Ces éléments constituent des sources de renseignements supplémentaires, avec par exemple plus de 5 milliards de commentaires postés par mois sur Facebook. De manière plus générale, le volume de données numériques augmente constamment, avec des sources très variées, telles que la météorologie, l’astronomie, ou encore les archives de différents programmes et actions (ou logs). Ces quelques chiffres soulignent la masse actuelle de l’information disponible actuellement sous différentes formes (texte, image, son, chiffres, etc. ), réceptacle d’un ensemble de connaissances inestimable et difficile à exploiter. Un moyen de disposer de certaines de ces connaissances passe par l’apprentissage statistique, qui consiste à estimer à partir des données un modèle permettant d’inférer automatiquement la réponse à une tâche complexe et difficile à formuler algorithmiquement. Par exemple, la reconnaissance automatique de l’identité d’une personne à partir de son visage est rendue possible par des modèles ayant bénéficié de larges bases de données composées de visages et des identités des utilisateurs associés [130, 248, 75].

Les réseaux de neurones profonds peuvent être considérés comme une sous branche de l’apprentissage statistique [166] et se révèlent particulièrement efficaces pour traiter ce type de problème [110]. L’entraînement de tels modèles consiste en un problème d’optimisation. Si nous reprenons l’exemple précédent, pour chaque visage, le réseau de neurones proposera un vecteur, auquel il sera possible d’associer une identité. Il sera alors possible de calculer l’erreur effectuée par ce réseau et de la minimiser sur l’ensemble des données, conduisant à l’apprentissage du concept de l’identité. Au fur et à mesure de cet apprentissage, le réseau construit ses propres représentations internes (ou cachées) des données, permettant de développer différentes couches d’abstraction, d’une manière analogue à nos processus d’apprentissage de la perception.

Perception et multimodalité Néanmoins, notre perception repose sur nos sens : nous disposons de plusieurs sources d’information, apportées par différents canaux, entre lesquels nous créons des liens [193] afin de résoudre un problème donné. Prenons l’exemple d’une discussion que nous aurions avec un interlocuteur. Celui-ci cherche à partager avec nous de l’information, qui est donc présente dans les mots qu’il utilise. Mais l’information va également être communiquée à travers d’autres modalités, telles que le ton de sa voix, ses expressions faciales ou encore ses gestes, constituant une communication nonverbale [192], contenant plus d’information que de simples mots. La perception que nous avons du monde qui nous entoure est donc multimodale et elle permet de reconstituer une information riche et complexe à partir de différentes modalités.

Analyse de données multi-modales et application

Une grande partie des contenus disponibles sur Internet peuvent être considérés comme des données multimodales. Par exemple, les vidéos sur Youtube contiennent de l’image, du son et des commentaires (donc du texte), tandis que les images de Facebook sont souvent accompagnées d’une localisation ou de textes rédigés par leurs auteurs, et que les tweets contiennent régulièrement des émoticônes et des liens vers des images, du son ou des vidéos. Pour améliorer la perception des systèmes neuronaux actuels, il est alors intéressant de prendre en compte les différentes modalités disponibles dans les données. Il est par exemple possible d’améliorer la transcription automatique de la parole (i.e. transformer la voix en texte) en se servant du mouvement des lèvres [68, 298] pour limiter les erreurs dues par exemple au bruit environnant. Un sujet particulièrement complexe et où l’usage de différentes modalités peut se révéler très pertinent est l’analyse des émotions d’une personne. En effet, si nous reprenons l’exemple de la communication non-verbale, les émotions sont en grande partie contenues dans des modalités autre que le texte [46] et elles ont alors différentes formes d’expression (vocales, faciales, corporelles). Pour pouvoir percevoir une émotion, nous utilisons l’ensemble de ces modalités et l’apprentissage d’un réseau de neurones utilisant ces différentes modalités permettrait d’améliorer substantiellement la qualité des systèmes unimodaux (i.e. n’utilisant qu’une modalité).

Améliorer la reconnaissance (et la génération) des émotions constitue un enjeu découlant de plusieurs intérêts et applications :
— l’amélioration des interfaces homme-machine en ajoutant une coloration émotionnelle réaliste, par exemple dans le cas des agents virtuels [218] ou en personnalisant l’interface suivant l’humeur de son utilisateur
— une aide face au trouble autistique (qui implique l’incapacité à reconnaître les émotions [183]), par exemple en proposant aux personnes autistes un outil permettant d’apprendre à reconnaître et à exprimer des émotions [274]
— la ré-utilisation de certaines modalités, telles que l’expression faciale, mais appliquées à des tâches connexes, telles que l’estimation de la douleur [186]
— l’amélioration du marketing client, en identifiant les clients mécontents ou en se servant des émotions exprimées par les clients face à un produit pour évaluer celui-ci
— l’indexation de contenus, pour par exemple retrouver des moments clés au sein de films et ainsi améliorer la qualité des résumés automatiques de ceux-ci .

Réseaux de neurones et représentations

Apprentissage statistique

Les approches neuronales peuvent être vues comme une sous-partie du domaine de l’apprentissage statistique. Celui-ci peut lui-même être défini comme une discipline de l’intelligence artificielle, qui concerne la conception, l’analyse, le développement et l’implémentation de méthodes permettant à une machine (au sens large) d’évoluer par un processus systématique, et ainsi de remplir des tâches difficiles ou impossibles à remplir par des moyens algorithmiques plus classiques . Plus sommairement, nous pourrions définir l’apprentissage statistique comme la recherche et l’obtention d’une fonction permettant de résoudre une tâche à partir d’un ensemble de données associées. Plusieurs ouvrages [100, 39, 254, 8] permettent d’approfondir cette définition et d’explorer ce domaine très large.

Formalisation du problème de l’apprentissage supervisé Nous proposons maintenant une définition plus formelle, issue de [254]. Si nous considérons que X est l’ensemble des entrées possibles et Z l’ensemble des sorties possibles, il existe une distribution de probabilité inconnue sur l’ensemble X ×Z, que nous noterons p(x,z) avec (x,z) ∈ X × Z.

Classification, régression Au sein de l’apprentissage supervisé, nous pouvons distinguer différentes problématiques et notamment des problèmes de régression et de classification. La classification consiste en des annotations par catégories, i.e. que les zi correspondent à des valeurs discrètes et qu’il en existe un nombre fini. Par exemple, un problème de classification classique serait de déterminer à partir d’une photo d’animal s’il s’agit d’un chien, d’un chat ou d’un oiseau. La régression consiste en des annotations par valeurs continues, i.e. que les zi correspondent à des valeurs comprises dans un intervalle donné. Par exemple, un problème de régression pourrait être l’estimation de la position d’un animal dans une image, modélisée par deux valeurs continues à régresser . Les méthodes utilisées et notamment la fonction de coût employée présentent des différences entre ces deux types de problématiques .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction générale
1.1 Contexte
1.2 Problématiques
1.3 Contributions et organisation du manuscrit
2 État de l’art général
2.1 Réseaux de neurones et représentations
2.1.1 Apprentissage statistique
2.1.2 Architectures de réseaux de neurones
2.1.3 Apprentissage d’un réseau de neurones
2.1.4 Aide à la convergence
2.1.5 Recherche des paramètres
2.1.6 Transfert de connaissances
2.2 Informatique affective
2.2.1 Définitions
2.2.2 Reconnaissance d’émotions
2.2.3 Génération d’émotion
2.3 Multimodalité et multi-tâche
2.3.1 Problème multimodal
2.3.2 Fusion multimodale
2.3.3 Lien avec les approches multi-tâches
2.4 Conclusions
3 Approches neuronales pour la reconnaissance d’émotion
3.1 Introduction
3.1.1 Motivations
3.1.2 Le challenge Emotion in the Wild
3.2 Reconnaissance d’émotions à partir de différentes modalités
3.2.1 Extraire des descripteurs de la modalité visuelle
3.2.2 Sélection et fusion temporelle
3.2.3 Extraire des descripteurs du son
3.2.4 Fusion multimodale
3.2.5 Sélection des modèles
3.3 Expérimentations et participations au challenge EmotiW
3.3.1 La base de données Acted Facial Expression in the Wild (AFEW)
3.3.2 Évaluation des descripteurs
3.3.3 Évaluation de la fusion temporelle
3.3.4 Évaluation de la fusion multimodale
3.3.5 Résultats finaux et discussion
3.4 Conclusions
3.4.1 En résumé
3.4.2 Questionnements
3.4.3 Perspectives
4 Représentation compacte et interprétable de l’émotion
4.1 Introduction
4.2 Apprentissage d’une représentation de l’expression faciale
4.2.1 Entraînement d’un réseau de neurones pour la reconnaissance d’expression faciale
4.2.2 Quelques intuitions sur la représentation des émotions
4.2.3 Apprentissage d’une représentation compacte et performante
4.2.4 Évaluation de la représentation
4.3 Analyse et génération d’expressions faciales
4.3.1 Visualisations préliminaires
4.3.2 Apprentissage d’un modèle de modification de l’expression
4.3.3 Évaluation de la représentation disc3 pour la génération d’expressions faciales
4.3.4 À propos de la démonstration
4.4 Conclusions
4.4.1 En résumé
4.4.2 Perspectives
5 Transfert de connaissances à partir de plusieurs sources
5.1 Introduction
5.2 Construction du problème de transfert multi-source
5.2.1 Formulation du problème
5.2.2 Connaissances sources
5.2.3 Connaissances cibles
5.2.4 Vers une connaissance générale
5.3 Réduction de dimensionnalité
5.3.1 Pourquoi réduire la dimensionnalité ?
5.3.2 Approche adoptée .
5.3.3 Étude empirique
5.4 Transfert des connaissances
5.4.1 Distillation pour un modèle unique et compacte
5.4.2 Lien avec une approche multi-tâche
5.4.3 Validation expérimentale
5.5 Conclusions
5.5.1 En résumé
5.5.2 Perspectives
6 Conclusion générale