Techniques d’acquisition des données squelettiques 3D

Capture directe de mouvement 3D

Les systèmes de capture de mouvement (Mocap) identifient et suivent les marqueurs qui sont attachés aux articulations ou aux parties du corps d’un sujet humain pour obtenir des informations sur le squelette 3D. Il existe deux catégories principales de systèmes MoCap : d’une part les systèmes basés sur des caméras et d’autre part les  systèmes basés sur des centrales inertielles. Les premiers emploient plusieurs caméras positionnées autour d’un sujet pour suivre, dans l’espace 3D, des marqueurs réfléchissants attachés au corps humain (Figure 2.5). Au contraire, dans les systèmes MoCap basés sur des capteurs inertiels, chaque capteur inertiel ayant 3 axes estime la rotation d’une partie du corps par rapport à un point fixe. Cette information est recueillie pour obtenir les données du squelette sans aucun dispositif optique autour d’un sujet. Les logiciels pour collecter des données squelettiques sont fournis avec des systèmes MoCap commerciaux, tels que Nexus pour Vicon [Vic18], Motive pour OptiTrack [Opt18], etc. Les systèmes MoCap, notamment basés sur plusieurs caméras, peuvent fournir des informations squelettiques 3D très précises à très haute vitesse. Néanmoins, de tels systèmes sont d’une part très coûteux et d’autre part nécessitent une certaine durée d’équipement du sujet.

Estimation de mouvement à partir d’images de profondeur

Grâce aux informations géométriques qu’une image de profondeur peut fournir, de nombreuses méthodes sont développées pour construire un modèle de squelette humain en 3D basé sur une seule image de profondeur ou une séquence de trames de profondeur. L’estimation des articulations humaines via la reconnaissance des parties du corps est une approche populaire pour construire le modèle du squelette [SSK+13, GSK+11, YJLSHDY15, SKS12, CE11, HOCB11, PGKT10, SMMN12]. En 2011, Shotton et al. [SSK+13] ont fourni un algorithme de construction de squelette extrêmement efficace, basé sur la reconnaissance des parties du corps et utilisable en temps réel. Une image de profondeur unique (indépendante des images précédentes) est classée par pixel au moyen de forêts d’arbres décisionnels. Chaque branche de la forêt est déterminée par une simple relation entre le pixel cible et plusieurs autres. Les pixels qui sont classés dans la même catégorie forment la partie du corps, et l’articulation est déduite par la méthode de décalage moyen d’une certaine partie du corps, en utilisant les données de profondeur pour les déplacer dans la silhouette. Alors que la formation des forêts de décision nécessite un grand nombre d’images (environ 1 million) et une puissance de calcul considérable, le fait que les branches dans la forêt soient très simples permet à cet algorithme de générer des modèles 3D de squelette humain en environ 5 ms. La caméra Kinect de Microsoft est un des systèmes de capture se basant sur l’algorithme proposé par Shotton et al. [SSK+13] (Figure 2.6).

Nous entamons à présent la description des approches suivant qu’elles utilisent les coordonnées cartésiennes (absolues ou relatives), les coordonnées angulaires (absolues ou relatives), les relations géométriques ou plusieurs modalités.

Coordonnées cartésiennes des articulations

Les coordonnées cartésiennes des articulations sont le type de données d’entrée le plus utilisé par les approches squelettiques de reconnaissance d’actions 3D. Ces données correspondent aux positions (x, y, z) des différentes articulations dans un repère cartésien souvent centré sur le système de capture. Ces positions permettent de reconstituer les trajectoires de chacune des articulations du squelette lors de la performance d’une action donnée. Ces trajectoires sont alors différemment exploitées pour modéliser une action tout en proposant de réduire au minimum la dépendance aux sujets ayant effectué l’action. En particulier, il est possible d’identifier deux sous-familles d’approches : celles utilisant les coordonnées absolues des articulations et celles basées sur leurs positions relatives.

Coordonnées cartésiennes absolues 

Plusieurs approches exploitent directement les positions cartésiennes absolues des articulations. Il s’agit en fait des données brutes telles que fournies par les systèmes de capture mais qui sont souvent transformées de ce repère à un repère centré sur le sujet ayant pour origine le centre articulaire de la hanche. Il existe plusieurs variétés de représentations qui exploitent les coordonnées cartésiennes absolues. Il est possible d’abord de citer les approches qui conçoivent une représentation sur la base des trajectoires issues des coordonnées cartésiennes absolues [WZZZ13b, GMLW14]. D’autres approches proposent un changement d’espace de représentation de manière à être plus robustes aux problèmes de variation d’angles de vue et des morphologies des sujets, tout en maintenant la structure intiale du squelette [VAC14, ESH14]. Les approches basées sur des procédures de comptage utilisent aussi les données absolues car plus informatives que les déplacements relatifs spatiaux ou temporels [HTGES13, COK+13]. Plus récemment, les représentations basées sur un apprentissage profond utilisent les positions squelettiques brutes où le modèle recherche automatiquement les relations spatio temporelles dans ces données, de la même façon que des techniques d’apprentissage profond extraient des caractéristiques sur des images de pixels bruts. Nous nous focalisons dans cette section sur les représentations autres que celles à base d’apprentissage profond vu qu’elles sont adressées de façon détaillée dans la section 2.3.3. D’abord, en ce qui concerne les approches qui utilisent les positions absolues des articulations pour former une trajectoire, un exemple est donné avec l’approche proposée par Wei et al. [WZZZ13b]. Cette approche reçoit en entrée une séquence de poses squelettiques 3D. Chaque pose comporte les coordonnées cartésiennes 3D de K articulations. Comme illustré sur la Figure 2.7, cette séquence permet alors de former K trajectoires, chacune rapportant la progression d’une articulation donnée. En considérant chacune des K trajectoires comme un signal tridimensionnel, les auteurs proposent de les décomposer au moyen de la transformée en ondelettes. Ceci consiste en fait à calculer l’ensemble des produits scalaires de chaque trajectoire 3D avec des fonctions prédéfinies, présentant certaines propriétés mathématiques comme être oscillantes et de moyenne nulle. Ces fonctions sont appelées des ondelettes, les nombres obtenus sont appelés coefficients d’ondelettes et l’opération de détermination de ces coefficients est dite transformée en ondelette. Pour constituer leur représentation, les auteurs proposent de ne retenir pour toute trajectoire k que les V premiers coefficients (V varie en fonction des datasets), donnant lieu au vecteur Hk. Ainsi, la représentation finale x de la séquence considérée (une action) est une concaténation des vecteurs Hk, c’est-à-dire x = [H1, H2, …, HK].

Un autre exemple important des représentations se basant sur les coordonnées cartésiennes brutes est celui proposé par Evangelidis et al. [ESH14]. Cette représentation, dénommée skeletal quad, est issue de l’extraction de descripteurs à partir de chaque quadruplet articulaire (par exemple le quadruplet formé par les articulations du bras gauche dans la Figure 2.8). L’extraction des descripteurs est en réalité opérée avec les nouvelles coordonnées du quadruple articulaire exprimées dans un repère local. En particulier, si on considère un quadruple articulaire J = [j1, j2, j3, j4] de telle sorte que (j1, j2) est la paire des articulations les plus éloignées du quadruple considéré, on définit un repère local tel que j1 en est l’origine et j2 est mappé sur [1, 1, 1]T . Le changement de repère associé peut alors être défini par une matrice de transformation P (une matrice de rotation, un vecteur de translation et un facteur d’échelle) dont les paramètres sont déterminés à travers les données absolues de j1 et j2 et les contraintes P(j1) = [0, 0, 0]T et P(j2) = [1, 1, 1]T .

Une autre approche intéressante proposée par Vemulapalli et al. [VAC14] et se basant sur les coordonnées cartésiennes brutes fait intervenir en même temps la notion de trajectoire et de changement d’espace de représentation. Comme illustrée dans la Figure 2.9, l’idée principale de cette approche est d’exprimer une séquence dans un nouvel espace, dit espace courbe, plus vaste que celui fourni par l’espace euclidien dans lequel une telle séquence est initialement exprimée. En particulier, l’espace courbe dans lequel est exprimée la nouvelle représentation de la séquence est dénommé le groupe de Lie (Lie group). L’avantage de ce nouvel espace est la possibilité de déterminer plusieurs types d’invariants qui permettent de caractériser la topologie des objets représentés. Pour ce qui est des approches comptabilisant les positions cartésiennes absolues, il est possible de citer la représentation Cov3DJ proposée par Hussein et al. [HTGES13].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction générale
2 État de l’art
2.1 Vue d’ensemble
2.2 Typologie des données d’entrée
2.2.1 Techniques d’acquisition des données squelettiques 3D
2.2.1.1 Capture directe de mouvement 3D
2.2.1.2 Estimation de mouvement à partir d’images de profondeur
2.2.2 Coordonnées cartésiennes des articulations
2.2.2.1 Coordonnées cartésiennes absolues
2.2.2.2 Coordonnées cartésiennes relatives
2.2.3 Angles articulaires
2.2.3.1 Angles articulaires absolus
2.2.3.2 Angles articulaires relatifs
2.2.4 Relations géométriques
2.2.5 Multimodalité
2.2.6 Discussion
2.3 Modélisation et classification des actions squelettiques 3D
2.3.1 Approches séquentielles
2.3.1.1 Modèle de Markov Caché
2.3.1.2 Comparaison élastique
2.3.2 Approches statistiques
2.3.2.1 Représentations brutes
2.3.2.2 Descripteurs haut-niveau
2.3.2.3 Dictionnaire de mots
2.3.3 Apprentissage profond
2.3.4 Discussion
2.4 Détection d’actions squelettiques 3D non segmentées
2.4.1 Recherche de postures de référence
2.4.2 Utilisation de fenêtres glissantes
2.5 Conclusion
3 Reconnaissance d’actions 3D pré-segmentées
3.1 Introduction
3.2 Transfert de la problématique de reconnaissance d’actions 3D à l’espace des motifs manuscrits 2D
3.2.1 Difficultés relevées pour la représentation d’actions 3D pré-segmentées
3.2.1.1 Comment faire face à la variabilité morphologique ?
3.2.1.2 Comment représenter les corrélations spatiales entre les différentes trajectoires des articulations ?
3.2.1.3 Comment représenter les dépendances temporelles intrinsèques à une action sous-tendue par plusieurs trajectoires ?
3.2.2 Approche 3DMM : 3D Multistroke Mapping
3.2.2.1 Réponse à la première question : prétraitement amorphologique
3.2.2.2 Réponse à la deuxième question : hypothèse multistrokes
3.2.2.3 Réponse à la troisième question : hiérarchie temporelle
3.3 Transfert d’un jeu de descripteurs 2D à l’espace de représentation d’actions 3D : jeu de descripteurs HIF3D
3.3.1 Notations
3.3.2 Premier sous-ensemble : les descripteurs étendus
3.3.3 Second sous-ensemble : les descripteurs inspirés
3.4 Résultats expérimentaux et discussion
3.4.1 Base de données M2S-dataset
3.4.2 Base de données UTKinect-Action
3.4.3 Base de données HDM05
3.5 Conclusion
4 Détection en-ligne d’actions 3D dans un flot non segmenté
4.1 Introduction
4.2 Détection en-ligne d’actions 3D : OAD
4.2.1 Difficultés relevées pour la détection en-ligne d’actions 3D
4.2.1.1 Comment adresser la variabilité temporelle ?
4.2.1.2 Comment adresser la variabilité spatiale inter-classes ?
4.2.1.3 Comment adresser la variabilité spatiale intra-classe ?
4.2.2 Approche de détection d’actions 3D basée sur le déplacement curviligne : CuDi3D
4.2.2.1 Segmentation curviligne
4.2.2.2 Classifieurs curvilignes
4.2.2.3 Processus de décision
4.3 Extension de l’approche CuDi3D à des problématiques connexes
4.3.1 Reconnaissance d’actions 3D pré-segmentées
4.3.2 Détection précoce d’actions 3D
4.4 Résultats expérimentaux et discussion
4.4.1 Résultats de l’approche CuDi3D
4.4.1.1 Base de données MSRC-12
4.4.1.2 Base de données G3D
4.4.1.3 Base de données MAD
4.4.2 Résultats de la reconnaissance d’actions pré-segmentées
4.4.3 Résultats de la détection précoce
4.5 Conclusion
5 Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *