Reconnaissance Bimodale de Visages

Techniques d’acquisition active

La technique active est la plus utilisée pour l’acquisition de la forme 3D du visage. Elle consiste à combiner un capteur photographique (ou plusieurs) avec une source lumineuse spécifique contrôlée, afin de mesurer les coordonnées 3D des objets de la scène observée. Différents systèmes d’acquisition active ont été élaborés, nous présentons ici les plus connus.
– Scanners laser : le laser consiste en une lumière monochromatique que l’on projette afin d’éclairer une tranche de la scène observée par une caméra associée au dispositif. Ceci permet de calculer la position dans l’espace de la tranche de scène captée en se basant sur le principe de la triangulation active [21]. La triangulation permet de déterminer la position d’un point en mesurant les angles entre ce point et d’autres points de référence (le projecteur de lumière et la caméra) dont la position est connue. Le laser a été beaucoup utilisé pour l’acquisition 3D de visages humains dans des applications différentes. Une collection de visages 3D a été publiée dans le cadre de l’évaluation FRGC (Face Recognition Grand Challenge) [110], comportant des vues frontales des visages et intégrant les deux type de données, 2D et 3D, pour chaque sujet acquis par un scanner laser de type VI900/910 de Konica Minolta. L’objectif du projet est l’évaluation des approches de reconnaissance faciale 2D et 3D sur un corpus d’images de taille significative (un total de 4007 modèles 3D) et riche en variations d’éclairage et d’expressions faciales. Les dispositifs laser présentent de bonnes performances d’acquisition en termes de précision et de résolution. Cependant, quelques difficultés comme les occultations et l’absorption de la lumière par la surface, notamment dans les régions pileuses du visage (sourcils, barbe, moustache) et les régions des yeux, peuvent affecter les résultats de l’acquisition. Par ailleurs, ces équipements sont très onéreux et nécessitent la coopération des personnes qui doivent rester un certain temps face au scanner en bougeant le moins possible afin d’acquérir le modèle 3D. Ceci limite leur utilisation à un nombre restreint d’applications.
– Systèmes basés sur la lumière structurée : ce type de technique active consiste à projeter une lumière à motifs structurant sous forme de grille ou des bandes de lumière parallèles. Les motifs sont capturés par la caméra associée. Il s’ensuit une étape d’analyse de la déformation de ces motifs par rapport à leur forme rectiligne d’origine, permettant d’obtenir la géométrie des objets de la scène. Différentes méthodes basées sur la projection de motifs lumineux ont été proposées. Chaque approche propose un schéma de lumière couplé à une méthode de mise en correspondance pour la reconstruction de la forme 3D. Un état de l’art détaillé sur ces méthodes a été présenté dans [115]. Quelques collections de visages ont été construites en se basant sur cette technique pour l’évaluation des méthodes d’analyse de visages 3D, comme la collection 3DRMA [17], contenant des visages 3D de 120 sujets.
– Systèmes basés sur le temps de vol (time-of-light, TOF) : ils se composent de LED ou de diodes lasers ayant la capacité de générer des impulsions de lumière très rapides , et un d’un capteur capable de mesurer le « temps de vol » (de l’ordre de la nanoseconde), c’est-à-dire le temps que cette impulsion met pour effectuer le trajet aller-retour entre la caméra et l’objet. Le « temps de vol » de cette impulsion est directement proportionnel à la distance entre la caméra et l’objet mesuré. Ceci permet ainsi d’obtenir une image complète de profondeur de l’objet mesuré. Un exemple de ces systèmes est la caméra SR4000 conçue par la société MESA IMAGING.
– Systèmes basés sur la lumière infrarouge : le principe de ces systèmes consiste à illuminer une scène par une lumière infrarouge, et ensuite à mesurer la quantité de la lumière incidente réfléchie par les objets. L’hypothèse faite est que plus cette quantité est grande, plus l’objet est proche de la caméra, et inversement. Le capteur Kinect, mis au point par Microsoft, est l’exemple le plus connu de cette catégorie.

Les modèles 3D

Ces méthodes consistent à utiliser un modèle 3D afin de reconstruire la forme 3D du visage à partir d’une image 2D. Un modèle 3D, appelé 3D morphable model (3DMM), permettant de représenter la forme du visage a été proposé par Blanz et Vetter [22]. Le 3DMM est à l’origine de plusieurs travaux de reconstruction 3D du visage [22, 9, 114, 143, 86]. À partir d’une grande collection de scans 3D de visages alignés, les auteurs ont construit un modèle statistique du visage en termes de forme et de texture. La forme et la texture sont décrites de manière vectorielle, et une ACP est appliquée sur les deux espaces (forme, texture) indépendamment. Les principaux axes de déformation sont caractérisés par les vecteurs propres. De nouveaux visages peuvent donc être décrits par une combinaison linéaire de ces vecteurs, pondérés par un ensemble de paramètres. Ces paramètres peuvent êtres estimés par différentes méthodes d’optimisation [22, 9, 114] cherchant à minimiser la différence entre l’image 2D du visage et l’image synthétisée à partir de son modèle. D’autres chercheurs ont proposé d’utiliser la silhouette du visage au lieu d’une simple image, comme Wang et al. [143]. Une silhouette est un contour, une forme ou l’ombre projetée par un objet. Elle fournit des données précises et robustes pour la reconstruction car elle ne dépend que de la forme et de la pose du visage et elle est indépendante de l’éclairage. L’approche proposée par Wang et al. [143], ainsi que celle proposée par Lee et al. [86] se basent toutes les deux sur l’utilisation des images de silhouette pour l’étape d’ajustement d’un modèle déformable. L’idée de ces deux approches est similaire à la méthode de Blanz et Vetter [22], sauf qu’au lieu d’utiliser une seule photo, elles se concentrent sur l’acquisition de la géométrie relativement précise d’un visage à partir de plusieurs images de silhouette. Le problème rencontré par les méthodes basées sur les modèles déformables est que l’algorithme d’optimisation peut converger vers une solution très proche de la valeur initiale, entraînant une reconstruction qui ressemble au modèle générique plutôt qu’au visage particulier qui doit être modélisé. Ainsi, cette méthode peut donner de très bons résultats lorsque le modèle générique présente des similarités significatives avec le visage à reconstruire. Toutefois, si les caractéristiques du modèle générique sont très différentes de celles du visage en cours de reconstruction, le modèle obtenu est susceptible de ne pas représenter fidèlement ce visage. Un autre inconvénient est la nécessité d’une initialisation manuelle afin de faciliter la convergence du système. En effet, en raison des minima locaux de la procédure d’optimisation utilisée pour l’estimation des paramètres du modèle, il est nécessaire d’initialiser cette procédure à proximité de la solution optimale. Un autre modèle appelé CANDIDE-3 [3] a été utilisé dans certains travaux de reconstruction de visages en raison de sa simplicité et de sa disponibilité publique. Le modèle CANDIDE-3 représente la forme d’un visage par un maillage 3D composé de 113 sommets. La formule générale décrivant le modèle CANDIDE-3 est donnée par deux ensembles : les Shape Units (SU) et les Actions Units (AU). Les SU permettent d’adapter le modèle 3D à la physionomie d’une personne. Les AU codent les modifications physiques d’un visage issues de l’activation de muscles faciaux. Elles permettent de reproduire et de s’adapter aux expressions d’un visage. Quelques méthodes sont basées sur ce modèle [81, 127, 128] pour la reconstruction 3D du visage. Cependant, ce modèle est généralement utilisé comme une étape préliminaire d’obtention d’une représentation 3D grossière du visage, et il n’est donc pas adapté à la reconstruction pour l’identification, mais plutôt à d’autres applications comme l’animation du visage.

Structure à partir du mouvement (SfM)

Cette technique a pour but l’extraction de la forme d’une scène à partir des changements spatiaux et temporels qui se produisent dans une séquence d’images, en exploitant le mouvement relatif entre la caméra et la scène. Le processus de Shape from Motion (SfM) consiste en deux étapes : la mise en correspondance entre les images, et l’estimation du mouvement et de la structure. La correspondance entre les images peut être obtenue par des méthodes différentielles [166] ou des méthodes basées sur les primitives d’intérêts (points, lignes, contours, etc.) [149]. La première catégorie de méthodes fournit des mesures denses sur le mouvement apparent (mouvement 2D) en utilisant les dérivées temporelles, et nécessite une séquence d’images séparées par de petits intervalles de temps. Les méthodes de la deuxième catégorie cherchent à établir une correspondance entre les points d’intérêts se trouvant dans des images successives. Ceci peut être fait par des méthodes de corrélation ou bien par des méthodes de suivi comme les filtres de Kalman [77]. La reconstruction et l’estimation du mouvement sont ensuite obtenues par différentes méthodes d’optimisation [95]. La méthode de factorisation, proposée par Kanade [76] a été aussi utilisée pour résoudre ce problème. Pour ce faire, la matrice engendrée par les correspondances calculées entre les images est décomposée en un produit de deux facteurs séparés : la forme et le mouvement. Le principe de SfM a été appliqué pour la reconstruction de visages dans les travaux de Brand et al. [27], Jebara et al. [73] et Torresani et al. [135]. Par ailleurs, dans [35], Chowdhury et al. ont proposé une méthode couplant la technique SfM et un modèle générique du visage. Deux images d’une séquence vidéo fournies en entrée à l’algorithme SfM. La reconstruction 3D obtenue à partir de l’algorithme SfM est fusionnée avec le modèle générique afin de corriger les éventuelles fausses estimations. Les auteurs ont montré que cette combinaison permet d’obtenir une reconstruction plus précise. Par rapport aux méthodes basées sur les modèles, ces méthodes ne nécessitent pas l’optimisation des paramètres d’un visage 3D moyen. Par conséquent, elles permettent de générer un modèle 3D spécifique à la personne en question. Cependant, la qualité de la reconstruction de visages 3D à partir de deux ou plusieurs images en utilisant la technique SfM est souvent insuffisante. Ceci est lié à l’étape de mise en correspondance entre les images qui est très sensible à la qualité des images, l’homogénéité des surfaces et les occultations.

Structure à partir des ombres portées (SfS)

La technique de Shape from Shading (SfS) est une méthode de reconstruction passive qui met en relation les niveaux de gris d’une image et le relief de la scène observée. Elle a été développée par Horn [63] et depuis, de nombreuses approches différentes ont émergé. Cette technique permet d’estimer la forme 3D d’un objet en analysant les variations progressives de l’ombrage dans l’image. Pour expliciter les fondements de SfS, il est nécessaire d’étudier la façon dont les images sont formées. Le niveau de gris d’un pixel dans une image représente la brillance de la scène en ce point. Celle-ci dépend de trois facteurs : l’éclairage de la scène, l’orientation de la surface et ses propriétés de réflectance. Lorsqu’on ne dispose que d’une image de la scène, le niveau de gris lu dans l’image constitue la seule donnée, ce qui rend la résolution du problème très complexe. Afin de réduire le nombre d’inconnues du système, quelques hypothèses sont établies [161] :
– éclairage : la scène est éclairée par une source lumineuse unique, émettant un flux lumineux parallèle et uniforme, ou bien par plusieurs sources lumineuses suffisamment éloignées. L’illumination est donc approximativement uniforme sur toute la surface ;
– réflectance : la réflectance de la scène, qui décrit la manière dont la lumière est reflétée, est connue. On suppose généralement que la réflectance des surfaces à étudier est homogène et de type diffuse ;
– modèle de formation : le modèle de formation de l’image est Lambertien, c’est-à-dire que le niveau de gris d’un pixel de l’image ne dépend que de la direction de la source de lumière et de la normale à la surface ;
– propriétés de la surface : la surface est lisse, non texturée et complètement visible (sans occultation). Le calcul de la normale en tout point de la surface s’effectue alors, grâce à une fonction de minimisation entre la brillance réelle de la scène et la brillance obtenue par estimation de la carte de réflectance. Plusieurs méthodes ont été proposées pour la reconstruction 3D du visage par la technique SfS [8, 122, 88]. Des a priori sur la forme du visage ont été introduits dans [8, 122] en utilisant un modèle statistique de la forme du visage afin de renforcer le processus SfS utilisé. Aux points d’occultation, les algorithmes SfS ne parviennent pas à déterminer tous les paramètres de la surface. Une façon d’éviter ce problème est d’estimer la profondeur à partir d’images prises à partir de plusieurs points de vue [48]. Bien que le SfS ait montré une efficacité satisfaisante pour la reconstruction 3D, il est basé sur plusieurs hypothèses fortes qui limitent son efficacité. La mise en œuvre de SfS nécessite la connaissance précise des propriétés de réflexion et d’éclairage, et est susceptible de donner de mauvais résultats en raison de certaines hypothèses irréalistes établies sur les propriétés de la surface et l’éclairage.

Post-traitement de la carte de profondeur du visage

La carte de profondeur estimée contient généralement des artefacts produits par des erreurs de mise en correspondance et des incertitudes. Par conséquent, il est souvent nécessaire de recourir à une étape de post-traitement afin de les éliminer. Deux types d’artefacts sont possibles dans la carte de profondeur :
– valeurs manquantes : aucun pixel correspondant n’est trouvé. La disparité du pixel reste donc indéfinie et la valeur de profondeur ne peut pas être calculée. Ces valeurs sont représentées par des trous dans la carte de profondeur ;
– valeurs erronées : la position du pixel correspondant est erronée. La disparité estimée est donc différente à la disparité réelle (supérieure ou inférieure). Un bruit est donc présent dans la carte de profondeur .Dans l’état de l’art, différentes méthodes ont été proposées pour le débruitage de la carte de profondeur. Afin de traiter les données manquantes, il s’agit de trouver le paramétrage approprié qui permet la reconstruction de ces données à l’aide des données disponibles (voisinage). Ceci est généralement réalisé par un algorithme d’interpolation linéaire ou cubique [74, 15, 66, 147, 47]. Le traitement des données erronées consiste souvent en l’application des filtres de réduction de bruit sur la carte de profondeur. Le filtre médian est couramment appliqué afin de débruiter et lisser les valeurs de profondeur [74, 15, 66, 47]. Dans [147], Wang et al. ont utilisé trois filtres gaussiens avec des variances différentes pour enlever les pics, remplir les petits trous et lisser les données. L’avantage de ces méthodes est qu’elles peuvent réduire le bruit de différentes tailles en adaptant les paramètres du filtre. Cependant, elles traitent la carte de profondeur globalement, et peuvent ainsi causer la perte des données exactes, car elles affectent toute l’image (incluant les pixels avec une valeur de profondeur correcte). Afin de pallier ce problème, une approche consiste à d’abord à identifier les valeurs erronées et ensuite à les corriger de la même manière que les données manquantes. Afin de détecter ces valeurs erronées, une méthode consiste à parcourir la carte de profondeur et à appliquer un seuillage sur la valeur absolue entre la valeur de profondeur d’un pixel et la valeur médiane de son voisinage. Seulement quand ce seuil est dépassé, le pixel est identifié comme un bruit [98]. La détection du bruit permet un débruitage plus précis de la carte de profondeur et préserve ainsi les données correctes. Cependant, si la zone bruitée est grande, le bruit devient plus difficile à détecter. En effet, dans ce cas de figure, l’information de profondeur du voisinage est également bruitée.

Approches bimodales 2D-3D

Afin d’augmenter la précision et la robustesse des systèmes de reconnaissance faciale, de nouvelles méthodes bimodales 2D-3D, dites de fusion, ont été récemment développées [26, 1]. L’objectif de ces méthodes est de combiner l’information visuelle (image 2D) et l’information 3D correspondante (modèle 3D ou image de profondeur du visage) afin de tirer parti des avantages et de la complémentarité des deux modalités. L’image 2D fournit des informations sur les régions texturées du visage avec peu de structure géométrique (comme les poils du visage, les yeux et les sourcils), tandis que les données 3D fournissent des informations sur les régions où il y a peu de texture (comme le nez, le menton ou les joues). La fusion de ces deux modalités est donc susceptible d’améliorer la précision et la robustesse des méthodes de reconnaissance faciale. La fusion 2D-3D peut intervenir à différents niveaux du processus de reconnaissance. Trois stratégies de fusion peuvent être considérées selon le niveau auquel elles interviennent lors du processus de reconnaissance [59] :
– la fusion de données brutes : elle consiste à combiner les données provenant directement des capteurs afin de construire de nouvelles données.
– la fusion de descripteurs : elle consiste à modéliser les données de chaque modalité séparément. Les vecteurs caractéristiques extraits à partir des données de chaque modalité sont ensuite fusionnés afin d’en construire un seul qui va être utilisé lors de l’apprentissage et de la mise en correspondance.
– la fusion de décisions : elle intervient après l’étape de classification. Un classifieur par modalité est donc construit et leurs sorties respectives sont ensuite combinées. Les Figures 3.9, 3.10 et 3.11 illustrent les trois stratégies possibles pour la fusion lors de l’étape de test. Les méthodes de fusion peuvent aussi être classées selon qu’elles interviennent avant ou après l’étape de classification [117]. On parle donc de fusion précoce (fusion de données ou de descripteurs) ou tardive (fusion de décisions).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

I Introduction, problématique et état de l’art
1 Introduction
1.1 Contexte
1.2 Processus général de la reconnaissance de visages
1.3 Problématique
1.4 Objectif et contributions
1.5 Plan de la thèse
2 Acquisition de la forme 3D du visage
2.1 Introduction
2.2 Techniques d’acquisition active
2.3 Techniques d’acquisition passive par reconstruction 3D
2.3.1 Les modèles 3D
2.3.2 Structure à partir du mouvement (SfM)
2.3.3 Structure à partir des ombres portées (SfS)
2.3.4 La stéréovision
2.4 Reconstruction basée sur la stéréovision
2.4.1 Principe général
2.4.2 Approches existantes
2.4.3 Reconstruction stéréoscopique : le cas du visage
2.4.4 Post-traitement de la carte de profondeur du visage
2.5 Conclusion et positionnement
3 Reconnaissance de visages
3.1 Introduction
3.2 Approches de reconnaissance 2D
3.2.1 Méthodes globales ou holistiques
3.2.2 Méthodes locales
3.2.3 Méthodes hybrides
3.2.4 Synthèse
3.3 Approches de reconnaissance 3D
3.3.1 Méthodes d’alignement
3.3.2 Méthodes basées sur des propriétés géométriques
3.3.3 Méthodes de réduction de dimensionnalité
3.3.4 Méthodes basées sur les modèles 3D
3.3.5 Synthèse
3.4 Approches bimodales 2D-3D
3.4.1 Fusion de données brutes
3.4.2 Fusion de descripteurs
3.4.3 Fusion de décisions
3.4.4 Choix de la stratégie de fusion
3.4.5 Synthèse
3.5 Reconnaissance 3D basée sur les motifs binaires locaux
3.5.1 Principe
3.5.2 LBP pour la reconnaissance de visages 2D
3.5.3 Extensions aux visages 3D
3.6 Conclusion et positionnement
II Approche proposée pour la reconstruction et la reconnaissance de visages
4 Aperçu global de l’approche bimodale 2D-3D de reconnaissance de visages
4.1 Introduction
4.2 Acquisition
4.3 Reconnaissance
4.4 Fusion
4.5 Conclusion
5 Reconstruction 3D du visage
5.1 Introduction
5.2 Reconstruction stéréoscopique basée sur la structure topologique du visage
5.2.1 Construction du modèle de disparité
5.2.2 Calcul de la carte de disparité
5.3 Post-traitement : débruitage de la carte de profondeur
5.3.1 Détection du bruit
5.3.2 Suppression du bruit
5.4 Conclusion
6 Reconnaissance bimodale 2D-3D
6.1 Introduction
6.2 Extraction des descripteurs 2D et 3D
6.3 Descripteur d’images de profondeur
6.3.1 Définition du DLBP
6.3.2 Stratégie multi-échelles
6.3.3 Calcul du seuil
6.3.4 Construction des histogrammes
6.4 Prédiction de l’identité par fusion
6.4.1 Fusion de descripteurs
6.4.2 Fusion de décisions
6.4.3 Fusion bi-niveaux
6.5 Conclusion
III Expérimentations, résultats et discussion
7 Élaboration d’une collection de tests
7.1 Contexte et besoins
7.2 Matériel utilisé
7.3 Méthodologie
7.4 Annotation
7.5 Discussion et conclusion
8 Évaluation de la méthode de reconstruction stéréoscopique de visages
8.1 Introduction
8.2 Détection du bruit
8.3 Estimation de la profondeur
8.3.1 Illustration des résultats de la méthode proposée
8.3.2 Comparaison aux méthodes stéréoscopiques
8.3.3 Comparaison aux autres méthodes de reconstruction
8.4 Conclusion
9 Évaluation de la méthode bimodale de reconnaissance de visages
9.1 Introduction
9.2 Collections de tests
9.3 Évaluation du descripteur DLBP
9.3.1 Étude des paramètres des DLBP
9.3.2 Comparaison avec les autres descripteurs
9.4 Évaluation de l’approche globale de reconnaissance bimodale
9.5 Conclusion
IV Conclusion générale
10 Conclusion
10.1 Synthèse des contributions
10.2 Perspectives
Bibliographie