Suivi tridimensionnel de la main et reconnaissance de gestes pour les Interfaces Homme Machine

Les gestes de la main

   Une réflexion sur les gestes à utiliser est nécessaire, afin que les utilisateurs puissent les réaliser intuitivement, ou avec une période d’apprentissage limitée. Quels gestes faut-il utiliser ? Sont-ils faciles à reproduire ? À quelles actions sont-ils intuitivement associés ? D’une manière générale, le geste est assimilé à tous les mouvements d’une partie du corps.Le geste de la main est à la fois un moyen d’action, de perception et de communication [17]. Les différentes fonctions du canal gestuel sont ici présentées succinctement. Pour plus de détails sur le sujet, nous renvoyons le lecteur aux thèses de Braffort [12] et de Martin [92], qui proposent des études détaillées du canal gestuel.
Les trois fonctions du geste humain Les gestes sont un des moyens de communication les plus riches que l’être humain possède. Ils permettent d’agir sur le monde physique, et servent aussi à communiquer. De plus, le geste permet à la fois d’émettre des informations, mais aussi d’en recevoir. Cadoz [17] définit trois fonctions principales de la main : la fonction ergotique : la main joue le rôle d’organe moteur et agit sur le monde physique pour le transformer. Elle applique aux objets des forces, pour les déplacer ou les déformer. la fonction épistémique : la main joue le rôle d’organe de perception. Le sens du toucher (sens tactilo-proprio-kinesthésique) donne des informations sur la forme, l’orientation, la distance, la grandeur, le poids, la température, les mouvements des objets, etc. la fonction sémiotique : la main joue le rôle d’organe d’expression pour l’émission d’informations visuelles. Cela comprend la langue des signes, le geste co-verbal, qui accompagne la parole, ou les gestes permettant une communication basique lorsqu’on ne peut pas utiliser la parole, comme dans un environnement bruité ou en plongée sous-marine. Dans le cadre de la reconnaissance de gestes pour les IHM, nous nous intéressons plus particulièrement à la fonction sémiotique. Cette fonction est la plus riche et la plus complexe. Elle peut être décomposée en plusieurs catégories, et différentes classifications ont été proposées.
Taxonomie des gestes de Quek Une classification bien adaptée au domaine de l’interaction homme-machine est la taxonomie de Quek [110], qui décompose les gestes en gestes manipulatifs, correspondant aux fonctions ergotique et épistémique; et en gestes communicatifs, correspondant à la fonction sémiotique. Les gestes communicatifs sont décomposés en gestes actifs et en gestes symboliques (figure 1.1). Les gestes symboliques ne sont pas compréhensibles directement, il faut être initié pour comprendre leur signification. Il s’agit par exemple des gestes des langues des signes. Ils sont décomposés en gestes référentiels, faisant directement référence à un objet ou à un concept (p. ex. le frottement du pouce et de l’index pour évoquer l’argent), et en gestes modélisants, qui modélisent un état ou une opinion et s’emploient souvent en addition à d’autres moyen de communication (p. ex. pour donner une idée de la taille d’un objet). Ces gestes peuvent avoir un sens différent selon la culture. Les gestes actifs sont directement liés à leur interprétation et sont utilisés en complément de la parole. Ils sont décomposés en gestes mimétiques, consistant à mimer une action, et en gestes déictiques, ou gestes de pointage. Les gestes déictiques sont très utilisés pour l’interaction homme-machine, car le doigt représente un dispositif de pointage naturel et très pratique.
Gestes statiques et dynamiques Il existe deux autres catégories de gestes : les gestes statiques, ou postures, et les gestes dynamiques (figure 1.2). Par ailleurs, il faut distinguer la position et la configuration de la main. En combinant ces deux aspects, on obtient la classification proposée par Harling et Edwards [54] :
– position statique, configuration statique (les postures) ;
– position statique, configuration dynamique ;
– position dynamique, configuration statique (p. ex. les gestes de pointage) ;
– position dynamique, configuration dynamique (p. ex. la langue des signes). Mais il est aussi possible de regrouper la position et la configuration de la main dans un vecteur de mesures à n dimensions. Ainsi, un geste est représenté par une trajectoire dans l’espace des mesures (Martin [92]). Pavlovic et al. [105] propose la définition suivante du geste : « Un geste de la main est un processus stochastique dans l’espace paramétrique des gestes sur un interval de temps déterminé. Deux réalisations d’un même geste ne donnent pas exactement le même vecteur de paramètres, mais les valeurs sont suffisamment proches pour que le geste soit identifiable.

Notre base de gestes

   La base de gestes de Triesch est un bon point de départ, mais elle présente plusieurs limitations : le nombre d’images est faible, l’angle de prise de vue, la taille et l’orientation de la main sont toujours les mêmes, les images sont en niveaux de gris et ne contiennent que la main. Ainsi, pour réaliser des tests plus réalistes et plus proches de notre configuration, nous avons constitué notre propre base de gestes. Notre base a été réalisée à partir de séquences vidéo monoscopiques. Les séquences vidéo ont ensuite été découpées en images, afin d’être traitées séparément. Les 11 gestes (figure 2.8) ont été choisis pour être facilement réalisables par un utilisateur quelconque. Ces gestes sont inspirés des 8 postures du Langage Parlé Complété (LPC) présentées par Caplier et al. [18]. Le LPC est un langage différent de la langue des signes, visant à faciliter la lecture sur les lèvres pour les personnes sourdes ou malentendantes. Toutefois, certains gestes ont été rajoutés afin de tester les performances de discrimination des descripteurs de formes. Certains gestes du LPC sont aussi très proches visuellement : c’est le cas des gestes 4 et 5, ainsi que des gestes 8 et 9. 18 personnes ont participé à la réalisation de cette base. La plupart d’entre elles ne sont pas familières avec la reconnaissance de gestes. En effet, tester la reconnaissance avec des personnes qui ne sont pas expertes dans le domaine constitue un aspect très important, afin d’évaluer si les gestes sont faciles à réaliser ou non, et comment leur réalisation peut varier d’une personne à l’autre. L’acquisition des images s’est déroulée dans les conditions suivantes :
– environnement intérieur, avec un éclairage par des néons,
– les gestes sont réalisés au-dessus d’un bureau,
– la caméra est une webcam positionnée au-dessus du bureau,
– la taille des images est 320×240,
– aucune supposition n’est faite sur le point d’entrée du bras dans la scène,
– les personnes portent des vêtements à manches longues afin de s’affranchir du problème de la détection du poignet pour séparer la main de l’avantbras. En effet, dans le cas où le bras des utilisateurs est nu, il faut séparer la main de l’avant-bras. Sinon, l’avant-bras est segmenté avec la main, et la forme utilisée pour la reconnaissance est alors trop différente des gestes du vocabulaire. Nous proposons une méthode pour détecter le poignet au paragraphe 4.3.2. Cependant, pour éviter que les résultats de la reconnaissance de postures ne soient faussés par une mauvaise détection du poignet, nous avons préféré demander aux personnes de porter un vêtement à manches longues pour l’acquisition des images de la base de données. L’objectif de notre base de données de gestes est de pouvoir tester et comparer les performances des descripteurs de forme concernant les invariances en translation, rotation et changement d’échelle. C’est pourquoi nous avons demandé aux utilisateurs de bouger leur main dans tout l’espace de travail, en incluant la profondeur pour les changements d’échelle. Nous avons ainsi obtenu environ 1 000 images par geste et par personne, soit un total d’environ 200 000 images. La figure 2.9 montre des exemples des images ainsi obtenues. La figure 2.9f illustre un cas difficile : la main est petite et représente peu de pixels par rapport à l’ensemble de l’image. Il est probable dans ce cas que la segmentation soit mauvaise et le contour peu représentatif de la forme. Dans le chapitre suivant, nous présentons le domaine de l’interaction homme machine gestuelle et nous réalisons un état de l’art de la reconnaissance visuelle de gestes et des problématiques associées.

Vers une interaction homme-machine gestuelle

   Cette section présente les différents dispositifs permettant d’interagir avec un ordinateur. Nous présentons ensuite les applications et les nouvelles possibilités d’interaction basées sur la reconnaissance des gestes de la main.
Dispositifs d’interaction La majorité des systèmes d’exploitation repose sur le paradigme WIMP, avec un dispositif de pointage, généralement la souris, qui permet d’interagir avec des éléments graphiques tels que des fenêtres, des icônes et des menus. Il existe aussi des interfaces haptiques, qui permettent un retour d’information à l’utilisateur, avec un retour de toucher ou un retour d’effort. La perception tactilokinesthésique, ou haptique, résulte de la stimulation de  la peau par le contact avec des objets. Cette section présente les différents dispositifs permettant une interaction avec l’ordinateur : les périphériques d’entrée (souris et autres dispositifs de pointage), les gants de données, les caméras vidéo et les écrans tactiles.
-Périphériques d’entrée :Pour interagir avec un ordinateur, la souris s’est imposée comme le périphérique d’entrée indispensable. Il existe aussi la boule de commande, ou « trackball »(figure 3.1a). Le pavé tactile ou « touchpad » est un dispositif de pointage spécifique aux ordinateurs portables, permettant de remplacer la souris. Il s’agit d’une surface sensible de faible dimension, utilisant la capacité électrique. Pour les jeux vidéo, le périphérique usuel est la manette ou « joystick ». Récemment, les constructeurs ont cherché à développer d’autres types d’interactions que les boutons, avec par exemple des vibrations pour le retour d’effort, ou des capteurs de mouvements. Ainsi, la Wiimote 1 (figure 3.1b) de Nintendo a marqué un tournant dans les périphériques de jeux vidéo. Cette manette est équipée de capteurs qui lui permettent de se repérer dans l’espace et de retranscrire les mouvements de l’utilisateur à l’écran.
-Les gants de données :Par rapport à la richesse de l’information véhiculée par des gestes de la main, les possibilités de communication avec les ordinateurs sont réduites avec la souris et le clavier. Des dispositifs spécialisés pour une application sont apparus. Ainsi, pour l’acquisition de données en trois dimensions, des périphériques d’entrée 3d fournissent à l’ordinateur des informations sur la position de la main, voire sur sa configuration pour les plus évolués. C’est le cas des gants de données (ou gant électronique, gant numérique), qui sont munis de capteurs fournissant la position de la main et les angles des articulations des doigts. Le CyberGlove  par exemple, qui peut être utilisé avec le système Polhemus  , et qui fournit toutes les informations sur la configuration de la main, ou le Dataglove  également très utilisé (figure 3.2). Les gants de données sont utilisés de longue date pour la reconnaissance de la langue des signes [12, 94, 125], car ils fournissent les positions précises et fiables des articulations de la main. Malheureusement, ces gants ont un coût élevé et sont encombrants, leur utilisation est contraignante pour l’utilisateur.
-Écrans tactiles :Les écrans tactiles combinent à la fois entrée et sortie, avec la visualisation sur un écran et un dispositif de pointage pour interagir directement avec l’information affichée à l’écran. Cette technologie est utilisée pour des écrans de la taille d’un moniteur d’ordinateur, par exemple pour les guichets de billetterie automatique ou pour les « assistants personnels digitaux » (PDA ) avec éventuellement l’utilisation complémentaire d’un stylet. Il existe différentes technologies pour les écrans tactiles : capacitive, résistive, infrarouge, à ondes de surface… De manière générale, les écrans tactiles souffrent de différents inconvénients : ils sont onéreux, limités en surface, sujet à l’usure et sensibles aux rayures (suivant la technologie employée). Les écrans tactiles permettent la reconnaissance de gestes simples, appelés gestes de dessins. Par exemple, Mertz et al. [95] utilisent les gestes de commande présentés sur la figure 3.3a. Il existe aussi des alphabets simplifiés pour les PDA.
-Les caméras vidéos :Contrairement aux systèmes précédents, les caméras vidéos captent les mouvements de la main sans que l’utilisateur ne soit contraint de porter un équipement particulier, ou d’utiliser un périphérique dédié. Toutefois, pour certains systèmes, des marqueurs ou un gant coloré sont utilisés pour faciliter la détection des différentes parties de la main. La difficulté de cette approche est de mettre au point des traitements robustes pour interpréter le flux vidéo et extraire l’information utile de la grande quantité d’information disponible. Par ailleurs, une caméra ne fournit qu’une information 2d. Pour obtenir des informations en 3d, il faut utiliser deux ou plusieurs caméras, ou une modélisation 3d. Par conséquent, les occultations sont un problème important, inhérent à la projection de l’espace 3d dans une image. Avec l’augmentation de la puissance des ordinateurs de bureau et l’apparition de caméras bon marché, il est désormais possible de développer des systèmes de reconnaissance de gestes fonctionnant en temps réel. C’est à cette problématique que nous nous intéressons dans le cadre de cette thèse. Les caractéristiques telles que le taux de rafraîchissement ou la résolution varient d’une caméra à l’autre. Des valeurs élevées de ces caractéristiques sont avantageuses pour avoir une mise à jour fréquente des images et un niveau de détail important. Toutefois, un compromis est nécessaire car des valeurs trop importantes augmentent la complexité et le temps de traitement des données. Par ailleurs, les caractéristiques du capteur (CCD ou CMOS) et de l’optique ont une influence primordiale sur la qualité de l’image obtenue et la sensibilité à l’éclairage.
Applications et nouvelles possibilités d’interaction Cette section présente différentes applications, et notamment les surfaces interactives, ainsi que quelques applications récentes destinées au grand public.
-Reconnaissance de la langue des signes :La reconnaissance de la langue des signes est une application naturelle de la reconnaissance de gestes. En effet, un système de traduction automatique des signes est particulièrement intéressant pour les sourds et muets. Braffort présente une étude détaillée de la Langue des Signes Française (LSF). Cette langue possède un vocabulaire et une syntaxe, et repose sur de nombreux paramètres :
*la configuration : pour représenter les objets ;
*le mouvement : pour représenter les actions ;
*l’emplacement : pour indiquer où sont effectuées les actions ;
*l’orientation : pour conjuguer certains verbes, ou préciser l’orientation des objets ;
*la mimique faciale : pour exprimer le mode du discours.
Ce bref aperçu révèle la richesse et la complexité de la LSF, et il en est de même pour les autres langues. C’est pourquoi la grande majorité des systèmes de reconnaissance de la langue des signes utilise des gants numériques (paragraphe 3.1.1.2), qui permettent d’obtenir des paramètres sur la configuration de la main plus facilement qu’avec la vision. Dans les travaux consacrés à la reconnaissance de la langue des signes en vision par ordinateur (Ong et Ranganath [102]), le vocabulaire est généralement restreint à un sous-ensemble de gestes.  La référence dans ce domaine est les travaux de Starner et Pentland [120][121], qui s’intéressent à la reconnaissance de la langue des signes américaine (ASL ), avec un vocabulaire de 40 mots. Ils obtiennent un excellent taux de reconnaissance de plus de 90%. La majorité des systèmes de reconnaissance, avec des gants numériques ou en vision par ordinateur, repose sur l’utilisation de Modèles de Markov Cachés (HMM , cf. section 3.6).
-Réalité virtuelle :La réalité virtuelle consiste à plonger l’utilisateur dans un environnement d’images de synthèse [63, 114]. Cette immersion dans un environnement virtuel peut se faire grâce à un casque, ou dans une pièce dédiée munie de plusieurs écrans ou d’un vidéo-projecteur. L’utilisateur est donc en immersion complète dans un environnement dans lequel il peut interagir, notamment par le biais de gestes.
-Réalité augmentée :La réalité augmentée mélange le monde physique et des informations virtuelles, en surimposant ces informations dans le champ de vision de l’utilisateur. Ce type de système est fondé sur une analyse par l’ordinateur du monde environnant l’utilisateur, au moyen d’un système de vision, de type caméra vidéo par exemple, ou de capteurs spécifiques. Des informations virtuelles sont alors projetées sur des éléments réels, par exemple par l’intermédiaire d’un vidéo-projecteur. Une des applications principales de la reconnaissance de gestes en réalité augmentée est de rendre une surface interactive : une table, un tableau ou un bureau, sur laquelle des images sont projetées. L’utilisateur peut alors interagir avec des objets réels ou virtuels. Ces systèmes permettent aussi une interaction multi-utilisateurs. Ils sont présentés plus en détails dans la section suivante. Un autre exemple d’application est proposé par Kolsch et al. [79], avec le système HandVu (figure 3.4), une interface gestuelle basée sur la vision. Ce système fonctionne avec un casque intégrant une caméra et un dispositif de visualisation ainsi qu’un microphone. Ce système démontre la faisabilité d’une interface gestuelle utilisant la vision.
-Surfaces d’interaction :Le tableau blanc conventionnel est toujours très utilisé, pour donner des enseignements, noter les choses à faire, mettre ses idées au clair, ou comme support de réunion pour le travail collectif. Toutefois, il souffre de certaines limitations, notamment pour la gestion de l’espace et la réorganisation des données, ou l’absence de sauvegarde. Des solutions électroniques permettent de résoudre ces problèmes, en offrant une surface interactive. Une étude réalisée par Lachenal [84] distingue les systèmes suivants :
*Les surfaces à électronique intégrée, ou tableaux électroniques : un dispositif matériel est intégré à la surface. Les tableaux peuvent être à projection arrière, tactiles ou fondés sur la technologie scanner.
*Les surfaces à électronique externalisée ou tableaux augmentés : un tableau blanc conventionnel est augmenté par des capteurs et des effecteurs, comme des instruments, par exemple un stylo avec un capteur de pression et qui émet des ultrasons, ou des caméras vidéo.
*Les surfaces pour un usage collectif : une surface pour le travail collectif, avec une gestion des utilisateurs. Intéressons-nous en détail au cas de la caméra vidéo jouant le rôle de capteur. La caméra peut être utilisée de plusieurs façons, plus ou moins complexes. La plus simple est de l’utiliser comme un scanner, permettant de numériser le contenu de la surface observée, et donc de l’éditer, de l’imprimer, ou de l’envoyer par voie électronique. La caméra peut aussi servir à interpréter des commandes écrites sur le tableau, voire à suivre des instruments et plus particulièrement le doigt. C’est le cas des tableaux augmentés par la vision que nous présentons dans le paragraphe suivant. les tableaux augmentés par la vision (figure 3.5a), et permettent de faire des « copier-coller » avec les doigts, et de mélanger informations réelles et virtuelles. De nombreux systèmes ont ensuite été développés, s’inspirant de ce prototype. L’EnhancedDesk (« Bureau Augmenté ») de Sato et al. [112][100] permet le suivi des doigts de plusieurs utilisateurs, et la reconnaissance de trajectoires 2d. Une caméra infrarouge est utilisée pour faciliter la segmentation.
DigitalDesk : c’est un espace de travail augmenté par l’apport de la vision par ordinateur. Le dispositif (figure 3.5b) est constitué d’un tableau blanc horizontal combiné avec une caméra numérique et un projecteur vidéo. Il permet de capturer des gestes et de projeter un retour d’information. Ce système permet de combiner la manipulation d’encre physique et d’encre virtuelle (projetée), en se fixant comme contrainte de maintenir l’utilisabilité des outils existants (feutres, brosse et doigts). Différentes technologies ont été développées ces dernières années, pour rendre une surface interactive. Ces technologies permettent d’étudier les possibilités de l’interaction gestuelle, les points intéressants, les limitations, et de voir ce qui peut être réalisable avec la vision par ordinateur. Han [51] a développé une technologie d’écran tactile reposant sur le renvoi de lumière diffusée, et qui permet une interaction multi-points. Un autre avantage est que cette technologie fonctionne pour de grandes surfaces. Une interface a ensuite été développée, et une vidéo de démonstration sur internet permet de visualiser les possibilités d’interaction qu’offre le système. La société Sensitive Object a pour sa part développé une technologie d’interaction gestuelle basée sur la reconnaissance des ondes acoustiques. Une des applications est de remplacer le clavier physique par un clavier dessiné sur le bureau. Ces exemples laissent envisager de nouvelles possibilités d’interaction avec la main. Les technologies dédiées aux surfaces interactives permettent de résoudre certains problèmes liés à la vision par ordinateur. Toutefois, elles sont limitées à un type d’application précis, alors que la vision permet une souplesse et une adaptation plus importantes.
-Applications grand public :Ces dernières années, plusieurs applications grand public ont émergé. Ces nouvelles possibilités d’interaction sont illustrées par le film Minority report , où l’on peut voir un acteur manipuler des données numériques avec les mains, sur un écran géant. Les technologies commercialisées visent à capter les mouvements de l’utilisateur pour le placer au centre d’un jeu vidéo, ou à permettre la manipulation de données numériques avec une interface interactive, éventuellement par plusieurs personnes simultanément. Par exemple, le système EyeToy  développé par Sony pour la console de jeu Playstation utilise une petite caméra USB pour capter les mouvements du corps humain, et pour modéliser la tête de l’utilisateur en 3d. Le système Surface 16 (figure 3.6) de Microsoft utilise des caméras pour détecter des gestes de la main, ou des objets. Le résultat est affiché sur une surface par rétro-projection. Ainsi, les utilisateurs peuvent utiliser leurs mains pour interagir avec leurs données numériques. Le système peut être utilisé simultanément par plusieurs personnes, qui peuvent se regrouper autour de la surface interactive. Il est aussi possible de placer des objets physiques sur la surface, par exemple pour transférer des données avec des appareils numériques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

abréviations
1 introduction 
1.1 Les gestes de la main 
1.2 Sujet de recherche 
1.3 Organisation du manuscrit 
2 contexte industriel et configuration expérimentale 
2.1 Contexte industriel de la thèse 
2.2 Configuration expérimentale 
2.3 Les caméras 
2.4 Gestes utilisés 
2.5 Données de test 
3 interprétation des gestes de la main 
3.1 Vers une interaction homme-machine gestuelle 
3.2 Interprétation visuelle des gestes de la main 
3.3 Gestes de pointage 
3.4 Modèles d’apparence 
3.5 Modèles 3d 
3.6 Gestes dynamiques
3.7 Résumé
4 détection et caractérisation morphologique de la main 
4.1 Introduction 
4.2 Segmentation de la main 
4.3 Extraction de caractéristiques morphologiques 
4.4 Résumé 
5 reconnaissance de postures de la main 
5.1 Introduction 
5.2 Caractéristiques de formes 
5.3 Classification 
5.4 Résultats et interprétation 
5.5 Amélioration de la reconnaissance
5.6 Résumé 
6 suivi tridimensionnel de la main 
6.1 Introduction 
6.2 Suivi tridimensionnel des doigts 
6.3 Suivi 2d avec un modèle squelettique 
6.4 Suivi 3d 
6.5 Résumé 
7 conclusion 

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *