Les grands domaines de l’analyse de gestes
L’analyse du mouvement s’est énormément développée ces dernières années, notamment grâce à l’essor de technologies de captation et de restitution du mouvement. En plus d’une ambition ludique, ce domaine de recherche vise également à simplifier et sécuriser nos actions quotidiennes. Les travaux de détection de mouvement et de reconnaissance de gestes se multiplient et s’appliquent aux jeux vidéo, à la surveillance, à la domotique ou encore au sport. L’analyse de gestes est en réalité un domaine vaste qui renferme beaucoup de problématiques bien distinctes.
Reconnaissance et analyse du geste
Le premier domaine, probablement le plus répandu, est la reconnaissance de gestes [11, 15, 16, 17, 18]. Dans ce contexte, il s’agit de gommer suffisamment les subtilités des mouvements afin de les résumer à leur essence sans pour autant perdre les saillances. De fait, l’espace est parfois partitionné, les trajectoires résumées ou simplifiées, l’utilisation d’un espace abstrait est largement employé. Reconnaître l’action d’un humain à un moment donné peut trouver des raisons multiples. Dans le domaine militaire par exemple, Dupont et al. [19] cherchent à automatiser la reconnaissance d’un certain nombre de signes de la main afin d’entraîner un robot mobile à agir en conséquence. Dans le domaine industriel, détecter le mouvement d’un humain peut permettre une sécurisation et une meilleure efficacité d’un procédé collaboratif humain-robot comme le montrent Coupeté et al. [20]. De façon plus générale, n’importe quelle interaction homme-machine nécessite de savoir quel geste est réalisé par l’humain à tout instant. En domotique, la connaissance d’une action peut permettre le contrôle automatique de différents appareils quotidiens comme le récapitule l’article [21]. D’autres applications de la reconnaissance d’actions peuvent être recensées, telles que la télésurveillance [22], la reconnaissance de la langue des signes [23], la détection de bagarre [24] ou l’aide à la personne [25]. Dans un cadre d’analyse de geste, leur étude permet par exemple de détecter des mouvements complexes tels qu’une feinte au rugby [26]. Dans ce cas particulier, les résultats obtenus mettent en évidence un enchaînement biomécanique complexe qui permettrait à un sportif, après un entraînement approprié, de détecter plus rapidement des feintes au rugby et d’y répondre le plus efficacement possible. Des résultats similaires existent en handball notamment [27, 28]. En sport également, certains chercheurs se focalisent sur la reconnaissance d’une action collective à partir du mouvement de chacun des joueurs sur un terrain de sport, comme en hockey sur gazon par exemple [29]. Dans le domaine médical, analyser un mouvement peut permettre d’objectiver une pathologie [30, 31].
Synthèse de gestes
Une seconde application est la synthèse de gestes. Il s’agit de créer de nouveaux mouvements à partir de mouvements existants. De nombreux travaux ont été menés sur ce sujet, notamment dans l’industrie du jeu vidéo ou en réalité virtuelle. Selon les études, on pourra par exemple synchroniser deux mouvements afin de les fusionner [32, 33], identifier les descripteurs de style du mouvement dans le domaine fréquentiel afin de générer des nouveaux mouvements de styles variables [34, 35], ou encore gérer l’effet d’un environnement variable sur un humanoïde [36]. Cassel et al. [37], dans un registre un peu différent mais toujours dans l’objectif de générer un geste, s’appuient sur des règles sémantiques simples du dialogue entre deux humains virtuels (intonation, expression faciale, mouvements de mains et de la tête) pour générer des gestes symboliques appropriés au contexte.
Segmentation de gestes
La segmentation de geste [38, 39, 40, 16] consiste quant à elle à subdiviser une séquence de mouvement en des gestes élémentaires. Ce procédé est souvent rendu complexe lorsque les séquences considérées ne présentent pas de pauses significatives permettant de les subdiviser. La segmentation est souvent un pré traitement utile à la reconnaissance ou à la synthèse. Certaines méthodes [15] permettent de réaliser en même temps la segmentation et la reconnaissance.
Évaluation de gestes
Plusieurs travaux ont déjà tenté d’évaluer un geste, qu’il soit sportif [17, 41, 42, 43] ou chirurgical [44, 45]. Il existe aussi quelques travaux à application plus artistique, qui évaluent la performance d’un potier [46] ou analysent le mouvement d’un violoniste au cours de son geste [47]. Nous reviendrons sur ces travaux d’évaluation dans le chapitre 4. Dans ces applications dont le contexte peut paraître proche de celui de la reconnaissance, l’élément distinctif est que la sémantique des gestes à évaluer est connue : il ne s’agira donc pas de simplifier le geste, mais de conserver toutes ses spécificités afin d’être capable de mesurer sa qualité à tout instant et d’en donner un retour pertinent (non abstrait). Ce retour se veut adapté et compréhensible pour l’athlète, l’entraîneur ou l’apprenti chirurgien auquel il est destiné. Dans le cadre de cette thèse, nous proposons de réaliser un entraîneur virtuel et donc, de s’intéresser au geste sportif.
Représentation du geste
Pour analyser un geste, il convient tout d’abord d’en extraire une information à traiter, c’est-à-dire un descripteur du mouvement.
Descripteurs pour résumer un geste
Ce type de descripteur forme un vecteur qui renseigne sur l’état du système. Selon l’enjeu et la problématique fixés, le codage est soit temporel (le signal est codé à chaque instant, ce qui amène à une chaîne temporelle), soit global (tout le geste est codé par un vecteur de caractéristiques). Le choix du descripteur est primordial et dépend du traitement qui en est fait. Nous allons distinguer trois grandes familles de descripteurs comme le récapitule la figure 2.1 :
• les descripteurs reposant sur un modèle du corps humain ;
• les descripteurs holistiques, qui utilisent la dynamique globale de l’objet (quelconque) en mouvement ;
• les descripteurs locaux, caractérisant les mouvements uniquement à partir de points d’intérêt isolés.
Pour chacune de ces familles, le codage peut être soit temporel, soit global. Dressons un bilan de ces différentes approches.
Les descripteurs reposant sur un modèle du corps humain
D’une façon générale, cette catégorie se fonde sur le résultat des études psychophysiques de Point Light Display initiées par Johansson en 1973 [48]. Celui-ci atteste que des points lumineux positionnés sur les articulations du corps humain en mouvement vus de profil suffisent au cerveau humain pour reconnaître un geste. À partir de ce postulat, de nombreux travaux exploitent l’évolution de la trajectoire des articulations du corps humain.
Les articulations sont alors extraites d’une image 2D, d’une carte de profondeur (issue d’une Kinect R par exemple), ou directement d’un système de capture 3D. Selon le dispositif de capture choisi, la procédure est plus ou moins complexe et le positionnement des articulations plus ou moins précis. Parmi les descripteurs reposant sur le corps humain, les descripteurs cinématiques et dynamiques sont dits de bas niveau, utilisant la trajectoire, la vitesse et l’accélération cartésiennes ou angulaires des différentes articulations formant le mouvement du corps humain. Ils sont rapidement très volumineux dès lors que beaucoup d’articulations sont prises en compte. Plusieurs travaux synthétisent ces données tridimensionnelles en considérant la courbure plutôt que la trajectoire [39, 49, 44].
|
Table des matières
1 Introduction
1.1 Problématique
1.2 Les captations du geste d’hier
1.3 … et d’aujourd’hui
1.4 Contexte
1.5 Contributions
1.6 Plan du document
2 Etat de l’Art
2.1 Les grands domaines de l’analyse de gestes
2.1.1 Reconnaissance et analyse du geste
2.1.2 Synthèse de gestes
2.1.3 Segmentation de gestes
2.1.4 Évaluation de gestes
2.2 Représentation du geste
2.2.1 Descripteurs pour résumer un geste
2.2.1.1 Les descripteurs reposant sur un modèle du corps humain
2.2.1.2 Les descripteurs holistiques
2.2.1.3 Les descripteurs locaux
2.2.2 Discrimination de l’informativité de différents descripteurs
2.3 Techniques d’apprentissage statistique
2.3.1 Méthodes reposant sur un codage temporel
2.3.1.1 Recherche des plus proches voisins
2.3.1.2 Mesures de similarité
2.3.1.3 Modèles Markoviens
2.3.2 Méthodes reposant sur un codage global
2.3.2.1 Machines à vecteurs de support (SVM)
2.3.2.2 Forêt d’arbres décisionnels
2.3.2.3 Réseaux de neurones
2.4 Bilan
3 Modélisation de séries temporelles
Introduction et contexte
3.1 État de l’art
3.1.1 Alignement de séries temporelles par DTW
3.1.2 Modélisation de séries temporelles
3.1.2.1 Moyennage de deux séries temporelles
3.1.2.2 Extension au moyennage d’un jeu de séries temporelles
3.1.3 Mise en évidence des chemins pathologiques
3.1.4 Le DTW contraint (CDTW)
3.1.4.1 Contraintes globales
3.1.4.2 Contraintes locales
3.2 Moyennage de séries temporelles : le DBA contraint .
3.3 Modélisation de la variabilité intraclasse : la tolérance
3.4 Bases de données utilisées pour la validation
3.4.1 Séries temporelles 1D : UCRTSArchive
3.4.2 Gestes : ArmGesturesM2S
3.5 Moyennage de séries temporelles
3.5.1 Procédure de classification
3.5.2 Résultats
3.6 Modélisation de la variabilité intraclasse
3.6.1 Procédure de classification
3.6.2 Résultats
3.7 Extension à la classification de gestes
3.7.1 Procédure de classification
3.7.2 Résultats
Conclusion
4 Mesure de qualité d’un geste sportif
Introduction
4.1 État de l’art
4.1.1 Évaluation de gestes chirurgicaux
4.1.2 Évaluation de gestes sportifs
4.2 Bases de données et codage du mouvement
4.2.1 Notations et codage du mouvement
4.2.2 Conditions expérimentales : bases de données
4.2.2.1 Le service de tennis
4.2.2.2 Le Zuki au karaté
4.3 Modélisation du mouvement expert
4.3.1 Mouvement nominal
4.3.2 Tolérance articulaire
4.4 Evaluation du mouvement d’un novice
4.4.1 Erreurs spatiales
4.4.2 Erreurs temporelles
4.5 Méthodolologie
4.5.1 Annotations
4.5.2 Procédure d’évaluation
4.6 Résultats
4.6.1 Reconnaissance de phases
4.6.2 Evaluation spatiale de la qualité d’un geste sportif
4.6.3 Evaluation temporelle de la qualité d’un geste sportif
Conclusion
5 Conclusion