Proposition de modèle pour la représentation du corps humain

Télécharger le fichier pdf d’un mémoire de fin d’études

Génération de langue des signes

L’animation d’un personnage virtuel, et à plus forte raison pour la langue des signes, est une discipline requérant deux types d’informations : un personnage à animer et une séquence de postures indiquant comment le personnage doit bouger dans le temps. Cette partie décrit dans un premier temps l’historique (2.1) et les principes fondamentaux de l’animation informatique (2.2). Nous présentons dans un second temps les modèles (2.3) et les techniques (2.4) utilisés pour la création d’animation de signeurs virtuel. Enfin, nous nous focalisons d’avantage sur la problématique de la langue des signes, en présentant les modèles linguistiques utilisés pour la génération d’animations en LSF (2.5).

Histoire de l’animation

L’animation en trois dimensions par informatique prend ses racines au début des années 1970. A cette époque, les séquences animées sont très courtes et en fil de fer. Les capacités et l’intérêt particulièrement limité de ces courtes séquences en font un objet de dérision appuyé par la réalisation de films médiocres. Cependant, la sortie de deux films employant les techniques d’animation par ordinateur en 1991 renversent cette tendance et encouragent l’industrie cinématographique à investir plus dans la recherche et le développement de telles techniques. Le premier de ces films est La Belle et la Bête, publié par les studios Walt Disney. Il permet une révolution dans la production de films d’animation en étant le premier succès du système CAPS (Computer Animation and Production System) développé en partenariat avec Pixar. Ce système est le premier à fournir aux animateurs des outils informatiques pour dessiner, encrer et animer entièrement leurs scènes.
Le second film est Terminator II : Le jugement dernier de John Cameron. Il reste dans les annales pour ses effets spéciaux révolutionnaires, animant un personnage « liquide » de manière réaliste et convaincante, mélangeant le jeu d’un véritable acteur avec des images de synthèse.
A partir de ce moment, l’utilisation de l’informatique pour la génération d’effets spéciaux et d’animations en trois dimensions prend un véritable essor. En 1995, Pixar et Disney produisent Toy Story le premier film entièrement généré informatiquement. Les années 2000 marquent un tournant pour les effets spéciaux au cinéma. Les animations générées par ordinateur deviennent alors les principales sources d’effets spéciaux reléguant leurs prédécesseurs (stop-motion2 et animatroniques) au rang d’antiquités. La technologie permet à cette époque de créer des doubles virtuels d’acteurs et de les intégrer dans les films de manière réaliste. Il s’agit des premiers personnages virtuels photoréalistes.

Principes de base de l’animation

L’animation d’une image sur un écran, qu’il s’agisse d’un film ou d’une vidéo quelconque, est un enchaînement à un rythme rapide d’images statiques. Au cinéma par exemple, les films sont projetés à une vitesse de 24 images par seconde. En Europe, le système PAL/SECAM correspond à 25 images par seconde alors qu’aux Etats-Unis et au Japon, la norme NTSC fixe la projection à 30 images par seconde.
Animer une vidéo informatiquement revient donc à créer une succession d’images statiques (frames) qui vont être enchaînées à une vitesse prédéfinie. Il en est de même pour la création d’animations avec un signeur virtuel. Le signeur sera traditionnellement placé dans une scène en trois dimensions. La scène est un espace virtuel disposant d’objets pouvant être des représentations matérielles (des personnages, des décors) ou virtuelles ayant une incidence sur la scène comme des sources de lumière ou une caméra. La caméra est une figuration abstraite représentant la position des yeux de l’observateur de la scène. Le procédé consistant à transformer une scène en image vue depuis la caméra est appelé rendu.

Principes de base de l’animation

L’animation d’une vidéo consiste donc à rendre successivement des images de la scène en faisant varier très légèrement la position, ou la configuration des objets. Il n’est cependant pas raisonnable de vouloir faire varier chaque paramètre à chaque image. Pour plusieurs heures d’animationn à 24 images par seconde, le travail serait particulièrement fastidieux. Il existe plusieurs façons d’accélérer le traitement. Par exemple, il est possible de définir des images clés (ou keyframes) pour l’animation. Ces images clés sont des instants particuliers où l’on définit la position et la configuration des objets de la scène. Puis à l’aide d’éditeurs de courbes, on indique au programme d’animation une interpolation pour effectuer automatiquement laa transition entre les différentes images clés (cf. Figure 4).
Considérant les objets virrtuels de la scène comme immuables (pas de changement de lumière ni de position de la caméra), les seuls paramètres susceptibles d’évoluer lors de la génération d’une animation en langue des signes sont ceux du signeur virttuel.
La section suivante déttaille le modèle de représentation du signeur virtuel en informatique ainsi que ses parramètres d’animation.

Animation de personnages virtuels

L’animation a défini au cours des années ses propres standards en termes de modèles de représentation. Majoritaires3 dans le domaine, les modèles à base de peau/squelette sont les plus simples à utiliser et conviennent à tous les types de figures animées, incluant les signeurs virtuels. Ils consistent en deux systèmes fonctionnant en parallèle : un squelette permettant le contrôle des articulations principales du personnage, et une peau permettant une visualisation du personnage. L’utilisation d’un tel modèle permet de distinguer clairement les deux caractéristiques principales du personnage virtuel : son visuel, et son interface de contrôle. Alors que les recherches sur la peau du personnage ont plutôt tendance à s’intéresser aux techniques de rendu et notamment de photoréalisme (Courgeon, Jacquemin, et al. 2008), les travaux sur le squelette sont en lien avec le contrôle de l’animation. Dans la suite de cet exposé, nous nous concentrerons sur le squelette du signeur.
L’objectif d’un modèle de squelette est de représenter l’objet à animer sous la forme d’un ensemble d’os articulés entre eux. Il est important de noter que la notion d’os et la mécanique interne du squelette du signeur virtuel sont très loin de coller au fonctionnement de leurs homologues biologiques. Il existe des modèles de squelette simulant précisément l’anatomie du corps humain, mais ces derniers sont généralement utilisés dans le domaine médical plutôt que dans celui de l’animation (Chao 2003). Les deux domaines ne considèrent pas les mêmes problématiques, la médecine a tendance à se concentrer sur la précision et le réalisme des modèles pour des applications telles que la simulation d’opérations ou l’apprentissage. Cette précision n’est pas nécessaire pour l’animation et peut même être une source de temps de calcul inutile.
Les os sont modélisés au sein du squelette comme étant des objets rectilignes (cf. Figure 4) connectés entre eux par des articulations. Chaque articulation permet une rotation selon un (e.g. une phalange), deux (e.g. le poignet) ou trois (e.g. l’épaule) axes ou degrés de liberté. Ces rotations permettent de positionner des articulations dans l’espace. Malheureusement, la représentation du squelette ne permet pas un positionnement direct d’un articulateur dans l’espace. Elle nécessite d’affecter à chaque articulation le bon jeu d’angles. Le processus permettant de calculer automatiquement les angles des articulations 3 A notre connaissance, l’utilisation efficace d’autres modèles implique une réelle spécificité de l’application. Par exemple pour la médecine. du squelette afin de positionner un effecteur dans l’espace est appelé cinématique inverse. La représentation précise du squelette, ainsi que les processus de cinématique directe et inverse sont présentés plus en détail dans la suite de cette thèse (chapitres II et III). La constitution d’une animation pour un personnage virtuel revient donc à affecter à chaque image une configuration du squelette. C’est-à-dire un jeu d’angles qui seront affectés aux articulations du personnage virtuel afin de le positionner dans une posture particulière.
Lorsque l’on considère la création d’animations dédiées à la langue des signes, le réalisme des animations constituées est particulièrement important. Afin de générer des vidéos réellement utilisables en situation, il est nécessaire de créer un mouvement à la fois fluide et réaliste afin de produire une animation rendant l’énoncé compréhensible par les sourds. Pour cela, l’animation d’un personnage virtuel nécessite l’apport d’informations supplémentaires. La prochaine section s’attache à décrire puis comparer trois méthodes de génération d’animations pouvant être utilisées pour la synthèse de langue des signes.

Approches pour la génération d’animations

Il existe diverses méthodes permettant la génération d’animations pour signeurs virtuels. On peut citer les techniques requérant l’intervention d’un animateur professionnel. Celles-ci nécessitent une aide et sont dites manuelles selon le degré d’intervention de l’animateur dans le processus de génération et sur la finalisation de l’animation. Il existe deux méthodes principales de génération manuelle : la rotoscopie et la capture de mouvement, présentées respectivement en sections 2.4.1 et 2.4.2. En dehors de ces deux techniques, il existe aussi des méthodes de génération automatique d’animations pour signeurs virtuels. Celles-ci seront détaillées dans la section 2.4.3. Enfin, la section 2.4.4 établit un comparatif des différentes méthodes et synthétise l’approche.

Rotoscopie

La rotoscopie est une technique d’animation brevetée en 1915 par les frères Fleischer. A l’époque, technique de dessin à base de photographie, le rotoscope est une table à dessin sur laquelle sont projetées des images (cf. Figure 5). L’artiste peut ainsi dessiner par-dessus la projection comme s’il s’agissait d’un calque. Le principe est par la suite utilisé pour projeter les images successives d’une pellicule vidéo et permettre la création de dessins animés.
Cette méthode est désormmais utilisée en infographie pour créer des animations réalistes de personnages à partir de vidéos d’acteurs. L’application de ce conceept à la génération d’animations pour signeurs virtuels permet la création de mouvementts particulièrement réalistes du point de vue de leur dynamique (Braffort et al. 2011). Bien évidemment, les techniques informatiques perrmettent désormais de s’abstraire du dispoositif du rotoscope. Des prises de vues d’un signeuur source sont réalisées au moyen de caméraas placées face à lui et sur un des côtés (gauche s’il est gaucher, droit s’il est droitier). Ces prises de vues sont ensuite synchronisées et affichées sur des plans dans un logiciel de modélisation et d’animation en 3D (tels que Maya, 3DSMax ou encore Motion Builder). L’’animateur place le signeur virtuel au centre de la scène, et calque les mouvements du perssonnage de façon à recouvrir ceux du film (cf. Figure 8). Pour cela, il choisit les images cllés significatives et calque la posture du personnage (de son squelette) sur celle du signeur source. L’animateur doit aussi calibrer la dynamiqque du mouvement de façon à ce que les trransitions entre les images clés se fassent de laa manière la plus naturelle et réaliste posssible. Les logiciels d’animation fournissent les outils nécessaires à l’animateur pour qu’il puisse s’assurer de la qualité de l’animation finale.

Approches pour la géénération d’animations

Malgré des résultats d’unee qualité remarquable, la rotoscopie n’a mallheureusement que peu de succès pour la généération d’animations en langue des signess. Les causes sont multiples. Premièrement, la technique calque l’animation du signeuur sur celle d’une véritable personne. Bien quee le signeur soit généralement un personnage virtuel dont le physique ne ressemble que peu à celui du locuteur de la vidéo source, la dynamique et la façon de signer peut être recconnue et attribuée au locuteur sourd filméé. La rotoscopie ne permet donc pas de pallier inttégralement les problèmes d’anonymisation.
Comme nous venons de le mentionner, la physionomie du signeur est généralement différente de celle de la perssonne dont on va copier les mouvements. Cela demande une adaptation des animations à la morphologie du signeur. Les signeurs virtuuels, pour répondre au critère d’anonymisation, sont choisis de manière à être « neutres » physiquement, par exemple d’une taille et d’une corpulence moyenne. L’animation doitt être adaptée de manière à prendre en compte les variations physionomiques du signeur soource.
Cette adaptation ainsi que le choix des images clés à définir dans l’animation nécessite une connaissance approfondie de l’animation, du mouvement et de laa dynamique, ainsi qu’un réel talent artistique (l’uutilisation de la rotoscopie pour l’animation de signeurs virtuels nécessite non seulement de l’expérience et du talent, mais aussi une connaissance approfondie de la langue des signes. Très peu de personnes possèdent cette double expertise). Il est important dee noter aussi que la génération d’une animation par rotoscopie est un processus coûteux en temps. Pour ces raisons, l’animation par rootoscopie n’est que peu utilisée à l’heure actuelle dans les domaines de recherche tels que la génération d’énoncés à parties variables. Elle reste tout de même très prisée dans certains domaines de production de vidéos de lanngue des signes, telles que la narration d’histoires4, ou les applications éducatives.

Capture de mouvement

La capture de mouvement est une autre technique de génération d’animation manuelle. A l’origine créée pour des applications médicales (Furniss 1999), la capture de mouvement a vu son plein potentiel exploité dans l’acquisition de mouvements pour la création d’animations. Désormais très largement répandu au cinéma et dans les jeux vidéo, elle permet l’acquisition de volumes de données importants en un temps plus raisonnable que la rotoscopie.
Le terme « capture de mouvement » désigne toutes les techniques d’acquisition du mouvement, et à plus forte raison du mouvement humain. Elle permet, de manière générale, de recopier automatiquement le mouvement d’un acteur sur celui d’un personnage virtuel. Usuellement, ces techniques utilisent des caméras pour suivre le mouvement de marqueurs dans une scène en trois dimensions. On dispose les marqueurs sur le corps de l’acteur de façon à permettre la reconstitution informatique de son squelette. Ils sont donc placés sur ses articulations et sur différents points facilement identifiables du squelette.
Pour cela, l’acteur est placé au centre d’une scène constituée de multiples caméras. Ces dernières vont suivre des marqueurs disposés sur le corps de l’acteur (cf. Figure 7) et reconstituer informatiquement leur position en trois dimensions. Les marqueurs sont disposés judicieusement de façon à reproduire la position des articulations du personnage (épaules, coude, poignet, colonne vertébrale, etc.). Ainsi l’ordinateur enregistre des séquences de postures du squelette reconstitué de l’acteur. L’animation ainsi constituée est ensuite transférée au personnage virtuel.

Approches pour la génération d’animations

La capture de mouvement permet la génération d’animations particulièrement réalistes puisqu’elles sont calquées sur les mouvements d’un véritable acteur. En revanche, ces technologies sont généralement très coûteuses pour obtenir des résultats corrects (nous verrons par la suite pourquoi). On retrouve de la génération de langue des signes par capture de mouvement au sein de plusieurs équipes et projets de recherche tels que SignCom (Duarte et al. 2010), ATLAS (Lombardo et al. 2010) ou encore pour la génération automatique d’ASL6 (Lu et al. 2009). Cependant, son utilisation se limite généralement à des domaines très restreints au lexique parfaitement contrôlé (Cox et al. 2002)(Duarte et al. 2011). Se placer dans une approche générale de la langue des signes (capacité à générer n’importe quel signe du lexique de la LSF) nécessite d’avoir stocké une animation de chaque signe existant. Par ailleurs, cette technique est loin d’être modulaire. Par exemple, elle ne permet pas directement de relocaliser un signe dans l’espace, phénomène particulièrement courant en LSF. Une telle transformation nécessite l’utilisation de techniques additionnelles particulièrement coûteuses et difficiles à mettre en place (Gleicher 1998).
Notons aussi parmi les inconvénients de la capture de mouvement la nécessité de retravailler chaque animation générée sur des articulateurs fins comme les mains. Nous avons déjà insisté sur l’importance de la composante manuelle dans la langue des signes. Une génération de piètre qualité sur les mains entrave grandement la compréhension des signes générés. Les animations générées par capture de mouvement nécessitent de ce fait un long travail de calibration (Lu et al. 2009) ainsi que d’être retravaillées en post-production afin d’être nettoyées des erreurs liées aux capteurs. Ces erreurs varient en fonction de la qualité du matériel utilisé. Le bruit qui en découle doit être nettoyé au moyen d’algorithmes et/ou manuellement. Un tel nettoyage est coûteux en temps ce qui contrebalance la rapidité de l’acquisition de données.
Notons aussi que l’acquisition de données par ce moyen ne peut être faite par n’importe qui. La mise en place d’un système de capture de mouvement nécessite de disposer d’un studio et du matériel de capture. L’acquisition de nouvelles données nécessite obligatoirement la présence d’un signeur natif comme acteur, ainsi qu’une compatibilité des données enregistrées (définition du squelette, placement précis des marqueurs, etc.).

Génération automatique

La troisième et dernière catégorie de génération que nous présentons est automatique. Elle regroupe tous les systèmes permettant l’animation du signeur virtuel par des moyens algorithmiques. Il est important de noter que les techniques de rotoscopie et de capture de mouvement sont populaires dans le domaine de l’animation en général. Ce n’est pas le cas des méthodes de génération automatique qui sont employées quasi-exclusivement dans le domaine de génération de langue des signes et de geste co-verbaux.
Ces méthodes nécessitent en entrée des modèles représentant l’information à générer. Cette représentation peut être de deux natures différentes : linguistique et anatomiques. Les modèles linguistiques permettent de fournir des informations sur le contenu à générer. Il s’agit principalement de la description formelle des signes ainsi que de leur organisation au sein d’un énoncé. Ces modèles seront présentés plus en détail dans la section 2.5. Les modèles anatomiques, quant à eux, ajoutent une information n’ayant pas sa place au sein des modèles linguistiques. Etant au cœur de cette thèse, ces descriptions seront approfondies dans la section 3.
La qualité de l’animation générée peut être résumée à deux facteurs : le niveau de détail des modèles utilisés et la précision des algorithmes de génération. Ces derniers sont en effet responsables du calcul des postures du signeur virtuel. Ils doivent notamment prendre en compte la génération de poses statiques permettant la constitution des images clés de l’animation, ainsi que la dynamique du mouvement permettant l’enchaînement des images de manière cohérente et compréhensible par la personne réceptrice du message. A l’heure actuelle, les différents modules de génération automatique d’animation existants donnent des résultats encore très robotiques (R. Elliott et al. 2008) et peu naturels (Fotineas et al. 2008). La génération automatique permet une adaptation instantanée au contexte car elle n’est pas basée sur une réalisation spécifique comme la capture de mouvement ou la rotoscopie. En revanche, une telle méthode de génération nécessite beaucoup d’informations complémentaires (modèles linguistiques, modèles anatomiques, gestion de l’information non-manuelle). Ces modèles complémentaires sont directement responsables de la qualité du signe et leur qualité trop simpliste à l’heure actuelle font de la génération automatique une des méthodes de génération les moins réalistes, mais les plus ouvertes aux développements futurs.

Approches pour la génération d’animations

Cette thèse propose de contribuer à l’enrichissement des méthodes de génération automatique par l’apport d’un modèle anatomique, détaillé dans le prochain chapitre.

Comparatif des méthodes de génération

Le choix d’une méthode de génération d’animation se doit d’être adapté à l’usage que l’on en fait. Chacune des méthodes présentées dans les sections précédentes dispose d’avantages et d’inconvénients qui leur sont propres et il est nécessaire de s’interroger sur les objectifs finaux du système avant de décider quelle méthode choisir. Ces avantages et inconvénients sont résumés dans le Tableau 1. Six critères principaux sont utilisés pour évaluer ces méthodes de génération :
• Le réalisme quantifie la qualité finale de l’animation, en termes de naturel et de compréhensibilité des signes. C’est un aspect primordial de la génération de langue des signes puisque l’objectif, in fine, est de faire passer un message.
• La dépendance au matériel indique si le système nécessite la mise en place d’un équipement particulier ou s’il peut être utilisé sur n’importe quelle configuration. Idéalement, un système disposant du moins de dépendances possibles sera utilisables dans un plus grand nombre de situations.
• Pré/Post-Traitement indique si les données ont besoin d’être préparées ou retravaillées avant d’être utilisables.
• La modularité est la capacité du système à adapter un signe particulier à son contexte. Il n’est pas rare que la LSF nécessite de réaliser des signes à des emplacements précis de l’espace de signation. Le signe reste globalement le même, mais sa réalisation se fait à un endroit différent de cet espace.
• Le temps de génération exprime la vitesse à laquelle les données sont acquises et rendues utilisables. Ce critère va de pair avec la modularité. Si un système est à la fois modulaire et rapide, alors l’adaptation des énoncés et la construction de phrases complexes peut être fait rapidement pour subvenir aisément aux besoins de l’utilisation.
• Enfin, les dépendances annexes indiquent si le système de génération nécessite d’autres apports de données ou se suffit à lui-même.
Un comparatif des méthodes utilisées par les différentes équipes générant de la langue des signes peut être trouvé en Annexe 4. Il recense par ailleurs les équipes utilisant des configurations prédéfinies pour la main, et les équipes utilisant des modèles anatomiques comme celui que nous définissons dans cette thèse.

Modèles anatomiques pour personnages virtuels

Cette partie présente l’utilisation de modèles anatomiques pour la génération de postures et d’animation. Elle détaille la problématique générale de cette thèse, établit un cahier des charges des zones d’ombres de la recherche et liste les problèmes que nous avons choisis de traiter dans nos travaux.

Qu’est ce qu’un modèle anatomique ?

Les modèles anatomiques sont des représentations informatiques du fonctionnement du personnage virtuel. Ils ne sont nullement réservés au domaine de l’animation et sont, par exemple, particulièrement prisés dans des champs d’application tels que la médecine ou la biomécanique. Ces modèles regroupent toute forme de contrôle du squelette liée de près ou de loin à un fonctionnement biologique.
Il existe un grand nombre de représentations valides de tout ou partie du corps humain. Chaque modèle se place à un niveau de granularité qui lui est propre : les modèles appliqués à la médecine ou la biomécanique sont généralement bien plus fournis que les modèles plus simples pour l’animation ou le jeu vidéo. Il n’existe à l’heure actuelle aucun standard de représentation du squelette en informatique, et ce malgré quelques tentatives plus ou moins réussies telles qu’H-Anim8 dans le domaine de l’animation sur Internet. De même, l’absence de convention déterminant le type de modèle à utiliser en fonction de l’application pousse généralement les développeurs et les chercheurs à établir leurs propres modèles.
Lorsque l’on s’intéresse à l’animation, les modèles sont généralement simplistes, se contentant de l’information hiérarchique des os. Cet état de fait est principalement dû à leur utilisation : la grande majorité des modèles de représentations utilisés en animation sont destinés au cinéma ou au jeu vidéo. Ils ne sont pas véritablement sujets à un contrôle automatique comme nous souhaitons le faire avec la génération automatique de langue des signes. De ce fait, très peu d’information est requise en supplément de la hiérarchie car la quasi-totalité du squelette est contrôlée par l’animateur. Il convient de tempérer cette affirmation en indiquant que certains modèles utilisés par des animateurs incluent des informations additionnelles afin d’aider l’animateur à contrôler plus rapidement et plus simplement le personnage virtuel (Mcdonald et al. 2002).
En considérant les modèles anatomiques comme une source d’information complémentaire aux modèles linguistiques, on peut s’interroger sur l’apport que l’on souhaite avoir de leur part : quelles informations vont nous permettre de combler le manque de réalisme de la génération automatique. Les prochaines sections établissent une liste non exhaustive des apports possibles de modèles anatomiques à l’animation de manière générale et à la génération automatique de langue des signes plus spécifiquement.

Anthropométrie

L’anthropométrie est définie dans le Trésor de la Langue Française 9comme les « Mesures pratiquées sur l’homme en vue de déterminer quantitativement ses caractères morphologiques, soit individuels, soit de groupes, et suivant le sexe, l’âge, le lieu, l’époque, etc. ». La constitution de bases de données d’anthropométrie permet la mise à disposition de larges quantités d’informations mesurées sur des humains. En pratique, elles permettent la calibration des os du squelette du signeur virtuel à une taille standard pour un humain. De nombreuses sources d’information sont disponibles pour la taille moyenne du buste, ainsi que pour les longueurs des membres. La suite de cette thèse se base sur les mesures publiées dans le corpus anthropométrique de la NASA10 et sur des mesures propres faites pour les valeurs manquantes comme la longueur moyenne des doigts de la main (cf. section 3 du chapitre II). Les bases de données d’anthropométrie mesurent dans une certaine limite les amplitudes de mouvement ou ROM (Ranges of motion) des articulations du corps. Les amplitudes de mouvement sont représentées informatiquement par un couple de valeurs : le minimum et le maximum de l’angle. Nous nous basons sur ces mesures pour les plus simples telles que l’amplitude de rotation sur la colonne vertébrale ou sur le coude.

Le problème des limitations angulaires

Le manque de réalisme et de naturel de la génération automatique est issu comme nous l’avons dit précédemment d’une approche géométrique de la synthèse. Ajoutons à cela que cette synthèse n’est pas pilotée par un enregistrement réel à l’origine (comme le serait la MoCap ou la rotoscopie). Il est donc tout à fait possible au signeur virtuel de réaliser des mouvements qu’un humain ne pourrait pas faire. C’est-à-dire qu’en l’absence d’informations anatomiques, la hiérarchie articulée des os du squelette ne suit aucune règle. Le signeur virtuel peut donc se « casser une articulation » pour atteindre une posture demandée (cf. Figure 9). L’apport de modèles anatomiques permet d’estomper voir de supprimer ces effets en créant des limites articulatoires. La nature de ces limitations varie selon la représentation utilisée et le niveau de granularité souhaité. Elles peuvent être statiques : un simple ROM qui n’évoluera pas dans le temps ; ou dynamiques : les valeurs des ROM de l’articulation sont interdépendantes et évoluent en fonction de la valeur des angles des autres degrés de liberté.
Les ROM suffisent à limiter le mouvement des articulations dont le comportement est le plus aisément modélisable telles que le coude ou les articulations de la colonne vertébrale. Cependant les complexes articulatoires tels que ceux de l’épaule ou de la main requièrent une modélisation plus fine si l’on veut obtenir des résultats de génération plus réalistes et plus précis.

Limitations articulatoires de la main

La modélisation des mains bute généralement sur deux problèmes principaux : la modélisation de l’opposabilité du pouce et celle de l’interdépendance des doigts.
Le premier, lié à la complexité des articulations du complexe carpo-métacarpien11 n’est pas modélisable en termes d’articulations simples à trois degrés de liberté. Les résultats d’une modélisation simple (Losson 2000) n’apportent que peu de satisfaction quant à la crédibilité des configurations générées. (Chang et al. 2008) et (Hollister et al. 1992) donnent des pistes de recherche sur la modélisation de l’axe de rotation permettant l’opposabilité du pouce. Cependant, ces méthoodes développées pour la création de modèles anatomiques et parfois informatiques de la main mènent généralement à des modèles dont la complexité coûte particulièrement cher en temps de calcul. Leur utilisation dans le domaine de la simulation médicale ne semble néanmoins pas justifier une réelle pertinence en termes d’animation (comme indiqué en section 2.3). Une modélisation trop coomplexe amène les algorithmes de génération à résoudre des problèmes de complexité trèès élevée pour une plus-value moindre. (Van Nierrop et al. 2007) présente un modèle de mainn naturelle dont les résultats semblent prometteuurs pour l’animation. Malheureusement, le système, se bornant à des configurations simples de la main, ne permet pas la génération de configurations complexes telles que la lettre [T] (cf. Figure 10). En marge, (McDonald et al. 2001) présente une approche différente pour la définition interactive de configurations de la main à partir d’un modèle paramétrique du pouce. Cette approche modélise la main par une surcouche au dessus du niveau des os, contrôlant la configuration de la main grâce à un ensemble de paramètres tels que la « flexion de l’index ». Elle nécessite l’intervention d’un humain, mais ce modèle peut être envisagé pour une automatisation ultérieure permettant une utilisation au sein de méthodes de générration automatique.
L’interdépendance des dooigts est un problème désormais connu et bien couvert par la littérature. Il est dit que les ROM de certains degrés de liberté dess doigts covarient. Considérons par exemple la fllexion de l’index : la flexion d’une phalange proximale entraine nécessairement une limitatioon de l’extension des phalanges intermédiaaires et distales. La très forte interdépendance dees doigts rend la modélisation fine de la mainn difficile de par les nombreuses forces en action et la complexité des systèmes dynamiques à résoudre. Tout comme l’opposabilité du poucce, les modèles les plus complexes tels que présentés par(Tsang et al. 2005) proposent des soolutions efficaces mais coûteuses. (Losson 2000) et (Lee et al. 1995) présentent quant à eux des systèmes d’équations simples permettant une limitation dynamique des ROM de la maain.

Le problème des limitations angulaires

Limitations articulatoires de l’épaule

La modélisation de l’épaule pose les mêmes problèmes que ceux de la main. L’épaule est le siège de mouvements complexes qu’une simple combinaison de six rotations (trois pour la clavicule, trois pour l’épaule) ne suffit pas à modéliser. Du fait de sa géométrie et de son fonctionnement, les modèles biomécaniques de l’épaule se contentent généralement de décrire certaines mécanismes spécifiques tels que l’articulation gléno-humérale (Wuelker et al. 1995), la réponse des articulations de l’épaule aux charges (Niemi et al. 1996) ou encore la force des articulations lors de mouvements sur le plan scapulaire (Makhsous et al. 1999).
Certains modèles cinématiques développés pour l’animation permettent la simulation simplifiée de l’épaule. (Klopcar et al. 2007) propose un modèle cinématique à six degrés de liberté simulant le comportement général de l’articulation scapulo-humérale afin d’évaluer la portée du bras humain. (Badler et al. 1999) dans son livre « Simulating Humans » consacre une section entière à la modélisation de l’épaule humaine et aux dépendances angulaires entre la clavicule et l’épaule. Il n’existe pas à notre connaissance de modèles d’animation permettant une simulation précise de tous les mouvements de l’épaule. Cette absence est globalement due à la très forte interdépendance des degrés de liberté de l’épaule. La modélisation du complexe de l’épaule par un système standard à six degrés de liberté nécessite une adaptation dynamique des ROM. Les limitations en jeu n’ont pas été formalisées à l’heure actuelle et ne sont donc pas intégrables à un modèle de l’épaule, contraignant la synthèse automatique de langue des signes à reposer sur des modèles à la complexité trop élevée ou trop simplifiés.

Limitations articulatoires du coude et de la colonne vertébrale

Les limitations d’articulations « simples » (par comparaison avec les articulations de la main et de l’épaule) sont décrites exhaustivement dans la littérature. Bien qu’encore une fois, il y ait une très forte variabilité entre les individus, des valeurs moyennes ont été extrapolées de bases de données d’anthropométrie comme indiqué en section 3.2. Pour ces articulations plus triviales de simples ROM suffisent à présenter un comportement suffisamment précis pour générer des animations en langue des signes.
Toutes ces limitations laissent tout de même une marge de manœuvre aux algorithmes de génération leur permettant d’exploiter toutes les postures possibles dans ces intervalles. Il convient de créer un lien encore plus fort entre les algorithmes de génération et les modèles anatomiques de façon à ce que l’ensemble des « postures possibles » se transforme en ensemble des « postures probables »12.

Solutions multiples

La résolution d’un jeu de contraintes fournies par le modèle linguistique peut mener à trois cas : aucune solution possible (par exemple lorsqu’on demande au signeur d’atteindre avec son bras un point hors de portée), une solution unique, ou une infinité de solutions. Ce dernier cas est très courant lors de l’utilisation de techniques de cinématique inverse (cf. Figure 11).
La prise d’une posture en particulier sur cet ensemble infini est a priori arbitraire et il n’existe pas dans la littérature de moyen précis de quantifier la qualité d’une solution par rapport à une autre. (Mcdonald et al. 2002) utilise cette propriété à son avantage pour la définition de contacts entre le doigt du signeur et un point du visage. Le doigt est placé sur la zone de contact et un animateur peut calibrer à sa guise la position du poignet. Cette méthode requiert cependant l’intervention d’un humain dans la génération, ce dont nous souhaitons nous affranchir.

Décomposition des problématiques et propositions préliminaires de solutions

Les quatre problématiques énoncées en 3.8 du chapitre I ne sont pas toutes du même ordre de difficulté. Ajoutons que chacun de ces points peut dépendre du niveau de détail du modèle linguistique utilisé. Il convient donc d’analyser en détail chacun des problèmes pour les redécouper en tâches aisées à résoudre.

Mesures anthropométriques et représentation du squelette

Dans l’optique de créer un signeur virtuel crédible, nous choisissons de représenter le signeur virtuel comme un personnage à l’aspect moyen, sans caractéristique physique particulière. Le processus de conception du signeur se passe en deux temps : d’abord le squelette est élaboré ; ensuite le graphiste conçoit une peau pouvant être contrôlée par ce squelette. Bien que les questions d’ordre esthétique (dont fait partie celle des proportions du corps humain) tiennent plus du graphisme que de la recherche, il est nécessaire d’établir un modèle permettant la modification aisée de la structure et de la forme du squelette du signeur afin de l’adapter au personnage qui sera créé par le graphiste.
Par ailleurs notons que les systèmes de contrôle de l’animation faisant intervenir le processus de cinématique inverse mentionné en section 2.4 du chapitre I vont permettre de placer des éléments du corps dans l’espace. Connaître uniquement la structure du squelette du signeur ne permet pas un contrôle efficace. Pour illustrer cet aspect, prenons l’exemple d’un signe comme [MALADE] (cf. Figure 14).

Multiplicité des solutions

La multiplicité des solutiions est un problème récurrent et malheureusement très mal couvert de la cinématique inverse. Du fait du nombre élevé de degrés de liberté du squelette et du nombre (généralement restreint) de contraintes qu’on essaie dee lui appliquer, les problèmes posés sont généraalement sous-spécifiés ce qui mène à une innfinité de solutions (cf. Figure 15).
La section 6 présente le prroblème de multiplicité des solutions en introoduisant au sein du modèle une définition de coonfort de posture. Cette notion de confort nous permet de quantifier à quel point une solution particulière est naturelle ou non. Ellle permet donc de discriminer entre plusieurs soolutions et de faire un choix. Tout comme poour la formation du squelette, l’utilisation de ce modèle nécessite une intégration particulière au système de génération. Cette intégrationn, présentée dans le chapitre III, consiste en une approche différente pour la cinématique inverse. Commençons par détailleer une nouvelle représentation du squelette permettant un contrôle plus efficace.

Blocs fonctionnels

Représentation du squelette

Le squelette est un élément primordial de la structure du signeur virtuel. Il permet le contrôle de sa posture et plus généralement de ses mouvements. En amont de la recherche de nouvelles techniques d’animation, il nous semble prioritaire de considérer les approches standards pour la représentation du squelette. Ces approches doivent être questionnées et corrigées dans le cas où elles seraient insuffisantes. Cette section décrit dans une première partie une nouvelle approche de représentation du squelette dite en blocs fonctionnels. Dans un second temps nous définissons la notion de sites corporels en tant qu’éléments additionnels à cette représentation pour le placement précis d’éléments du corps lors de la résolution de postures. Enfin, en troisième partie, nous présentons le squelette précis que nous utilisons dans la suite de cette thèse.

Blocs fonctionnels

Approche et problématique des blocs fonctionnels

La représentation usuelle d’un squelette articulé se fait au moyen d’arbres. Les normes tentant de définir les squelettes telles que H-Anim16 ou encore le bipède de 3DSmax utilisent généralement le bassin du personnage virtuel comme racine de l’arbre et décrivent chaque articulation comme un nœud de cet arbre (cf. Figure 16). L’orientation et la position d’un os dépendent donc de l’état de ses parents, notion intuitive lorsqu’il s’agit par exemple de parler de la colonne vertébrale. L’ensemble des vertèbres créé une chaîne articulatoire dont l’état d’un os dépend de tous ceux qui le précèdent.

Mesures anthropométriques des bras et de la main

L’utilisation d’un squelette bien formé est la première étape de la construction d’un signeur virtuel. Nous adoptons le parti pris d’avoir un personnage neutre visuellement.

De la nécessité de mesures anthropométriques

La question que traite cette section est la suivante : « est-il possible d’obtenir des mesures permettant l’élaboration d’un personnage moyen ? ». Par moyen, nous entendons représentant une moyenne de la taille des membres d’un humain. Bien évidemment, il n’est pas ici question de la peau du personnage virtuel. Ce point est entièrement destiné aux graphistes qui devront rendre le signeur neutre sur certains points et distinctifs sur certains autres (comme l’appartenance à l’organisme pour lequel les messages sont transmis dans le cas d’applications réelles pour le grand public).
Les mesures anthropométriques sont utilisées dans des domaines autres que l’animation. La conception de vêtements et de tenues nécessite la prise de mesures et l’élaboration de statistiques permettant de déterminer quelles quantités seront, en moyenne, les plus utilisées. L’anthropométrie est de même particulièrement utilisée en médecine. Malheureusement, les études de la NASA18 ou encore du projet DINBelg19 proposent généralement l’élaboration de mesures sur la peau plutôt que sur les os. Comment rendre compte alors de valeurs moyennes permettant de rendre naturel notre personnage virtuel et de le piloter de manière plus efficace ?
Les études déjà effectuées donnent des mesures assez précises pour la colonne vertébrale, le complexe de l’épaule et les bras. Le réel problème se pose généralement pour les mains dont les mesures ne permettent pas une évaluation précise des tailles respectives des phalanges. Si la définition des normes du squelette peut être laissée aux bon jugement des graphistes responsables de la peau il reste tout de même intéressant d’étudier les normes des éléments de la main de manière à proposer un ensemble de mesures cohérent avec les données anthropométriques recueillies jusqu’ici. L’absence de mesures dans ce domaine est principalement due à la haute variabilité inter-individu et inter-os. La variabilité de la taille des bras ou des avant-bras englobe généralement la mesure de la taille des phalanges et il est nécessaire de présenter les données sous un autre angle. Les sections suivantes présentent une ét ude anthropométrique de la longueur des os constituants la main, relativement à la longueeur de l’avant bras du personnage.

Méthodologie de conception des mesures

La méthodologie que noous proposons permet d’établir une longueeur normalisée des doigts par rapport à la taille de l’avant bras. La méthode se veut applicab le aisément et non invasive. Elle ne donne qu’une information approchée, il n’est pas question de mesurer précisément la longueur des os, mais de faire un rapport pertinent entrre différents points d’insertion articulatoires. Cettte méthode a nécessite la participation d’un panel de sujets.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre I : Contexte et élaboration de la problématique
1. Langue des signes
1.1. Surdité en France
1.2. Langue des Signes Française
1.3. Affichage de LSF dans les lieux publics
1.4. Aspects linguistiques de la LSF
2. Génération de langue des signes
2.1. Histoire de l’animation
2.2. Principes de base de l’animation
2.3. Animation de personnages virtuels
2.4. Approches pour la génération d’animations
2.5. Modèles linguistiques pour la génération
3. Modèles anatomiques pour personnages virtuels
3.1. Qu’est ce qu’un modèle anatomique ?
3.2. Anthropométrie
3.3. Le problème des limitations angulaires
3.4. Solutions multiples
3.5. Gestion des collisions
3.6. Dynamique du mouvement
3.7. Expressions faciales
3.8. Résumé et élaboration du cahier des charges
Chapitre II : Proposition de modèle pour la représentation du corps humain
1. Décomposition des problématiques et propositions préliminaires de solutions
1.1. Mesures anthropométriques et représentation du squelette
1.2. Articulations, limites et naturel des postures
2. Représentation du squelette
2.1. Blocs fonctionnels
2.2. Sites corporels
2.3. Définition et nomenclature du squelette utilisé
3. Mesures anthropométriques des bras et de la main
3.1. De la nécessité de mesures anthropométriques
3.2. Méthodologie de conception des mesures
3.3. Résultats de l’étude
3.4. Conclusion de l’étude anthropométrique
4. Dépendances articulatoires
4.1. Dépendances simples
4.2. Dépendances dynamiques
4.3. Dépendances distributives
4.4. Résultats de l’utilisation de dépendances
5. Complexe carpo-métacarpien
5.1. Main humaine vs. main virtuelle
5.2. Chaîne articulatoire du pouce
5.3. Modélisation du complexe carpo-métacarpien
5.4. Création d’un axe de rotation pour l’opposition
5.5. Limitations articulatoires
6. Modèle de confort
6.1. Définitions de l’effort et du confort
6.2. Elaboration d’un protocole
6.3. Corpus d’étude
6.4. Extraction du modèle
7. Conclusion du chapitre
Chapitre III : Intégration au système de génération automatique
1. Approches de cinématique inverse
1.1. Exemple
1.2. Méthodes basées sur la Jacobienne
1.3. Descente de Coordonnées Cycliques (CCD)
1.4. Exploration par Monte-Carlo
1.5. Descente de gradient
1.6. Autres méthodes et méthodes hybrides
2. Problématiques liées à la génération automatique de langue des signes
2.1. Placements relatifs et absolus
2.2. Dépendance de contraintes
2.3. Résolution multiple
3. Elaboration d’une méthode de cinématique inverse adaptée
3.1. Définition des cibles
3.2. Phase exploratoire
3.3. Optimisation locale des solutions
3.4. Sélection du résultat par le modèle de confort
3.5. Limites de l’approche
4. Ingénierie des modèles
4.1. Bibliothèque de squelette
4.2. Bibliothèque de séquences
4.3. Système de génération
4.4. Gestionnaire et connexion à l’environnement du LIMSI
5. Conclusion du chapitre
Chapitre IV : Résultats et discussions
1. Modèle de pouce opposable
1.1. Résultats
1.2. Apports
1.3. Perspectives
2. Système de génération et modèle de confort
2.1. Etude préliminaire
2.2. Protocole
2.1. Pertinence du modèle de confort
2.2. Résultats de génération
2.3. Résultats du confort
2.4. Apports
2.5. Perspectives
3. Conclusion du chapitre
Chapitre V : Perspectives générales et conclusion
1. Perspectives
1.1. Extension du modèle aux expressions faciales
1.2. Animation du signeur
1.3. Gestion des collisions
1.4. Evolutions du modèle en rapport avec la peau
1.5. Mouvement ambiants
1.6. Application à la reconnaissance de langue des signes
1.7. Applications à d’autres domaines
2. Résumé et conclusion
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *