Télécharger le fichier pdf d’un mémoire de fin d’études
Qu’est-ce que la Langue des Signes Française ?
Les LS sont des langues naturelles pratiquées au sein des communautés de Sourds et donc la LSF est celle utilisée en France. Cette section présente la LS selon trois aspects, respectivement physiologique (section 2.1.1.1), historique (section 2.1.1.2) et linguistique (section 2.1.1.3).
Aspect physiologique
La LSF est une langue gestuelle qui utilise tous les articulateurs de la partie supérieure du corps : Le buste, les épaules, les bras, les mains, la tête, le visage et les yeux. Chaque unité gestuelle est produite en associant la position, la configuration et l’orientation de la main et des doigts avec son emplacement, son mouvement, ainsi que des gestes et des mouvements réalisés par les articulateurs non manuels.
La LS est une langue visuelle, où le cerveau traite les informations linguistiques captés par les yeux. Ce qui implique que les expressions du visage et les mouvements du corps jouent un rôle important pour transmettre les informations.
Ainsi, les LS sont des langues visio-gestuelles qui permettent de véhiculer plusieurs informations simultanément par l’intermédiaires d’un ensemble d’articulateurs qui se déploient dans l’espace.
Aspect historique
La LSF a une histoire un peu particulière, elle a été reconnue comme une langue à part entière en 2005.
Durant l’Antiquité, Aristote pensait que quelqu’un qui ne parle pas, ne pense pas. De ce fait, les sourds n’ont bénéficié d’aucune éducation. A partir du16ème siècle, des éducateurs ont commencé à l’exercer. En Espagne, des enfants sourds issus des familles nobles ont été instruits par des précepteurs. Pedro Ponce de León est l’un d’entre eux, il est souvent considéré comme le premier professeur pour les sourds (Daniels, 1997).
En 1760, le prêtre français Charles-Michel de L’Épée, appelé l’abbé de L’Épée a créé la première école pour les sourds à Paris. De plus, il est le premier entendant qui s’est intéressé à la communication des sourds (Berthier, 1852; Bézagu-Deluy, 1990; PRESNEAU, 1998). En 1779, Pierre Desloges a publié le premier livre écrit par un sourd (Desloges, 1779). Dans ce livre, Desloges recommandait d’utiliser une langue signée pour l’éducation des enfants sourds.
En 1880, le congrès international sur l’éducation des sourds qui s’est tenu à Milan, a conclu à des résolutions affirmant que la « méthode orale » doit être préférée à la « méthode gestuelle ». À la suite de ce congrès, le gouvernement français a décidé de faire appliquer ces résolutions sur tout le territoire : désormais la langue des signes n’est plus utilisée dans les écoles pour sourds, ce sont la parole et la lecture sur les lèvres qui sont principalement enseignées. Ce congrès apparaît comme une mascarade pour la LS, tant par le choix du lieu du congrès, les Italiens qui étaient défenseurs de l’oral, ainsi que des personnes invitées pour mener les débats et voter (seuls trois sourds étaient présents) (Encrevé, 2008). Cette interdiction a continué jusqu’à la fin du 20ème siècle.
À partir des années 1970, on a assisté au « réveil sourd » : les sourds ont milité pour une reconnaissance de la langue des signes, notamment pour l’éducation des jeunes sourds. Progressivement, cette langue retrouve sa place, avec le linguiste William Stokoe, qui prouve que la LS est une véritable langue. D’autres chercheurs en linguistique et en sociologie tels que Christian Cuxac et Bernard Mottez poursuivent ce travail.
Enfin, en 2005 la LSF est devenue une langue à part entière dans le cadre de la loi sur l’handicap du 11 février 2005. Cette loi impose aussi aux lieux publics de rendre les informations accessibles, quel que soit le type de l’handicap. Depuis, les recherches linguistiques se multiplient, ainsi que les formations universitaires et professionnelles menant aux métiers d’enseignant de la LSF, interprète en LS, etc.
Aspect linguistique
Les LS sont des langues visuo-gestuelles et leur système linguistique exploite des canaux spécifiques : de nombreuses informations sont exprimées simultanément et s’organisent dans l’espace, et l’iconicité joue un rôle central.
La composante manuelle est la source d’une grande part de l’information émise, mais elle n’est pas la seule, car les expressions faciales et le regard ont un rôle déterminant dans la désambiguïsation de certains signes, et pour d’autres fonctions linguistiques telle que la qualification (gros, petit, etc.). Le mouvement possède aussi de nombreux rôles linguistiques.
L’iconicité est une particularité dans la LSF, elle permet de représenter des signes et des situations de manière iconique (Cuxac, 1996, 2000). Cette particularité permet d’exprimer des idées complexes sans recourir au lexique standard.
Une autre particularité de la LSF est de placer des éléments du discours dans des endroits spécifiques dans l’espace de signation. Pour rappeler ces éléments ultérieurement, il suffit de désigner leur position avec le regard ou avec un pointage.
Selon les théories linguistiques, la notion de signe est très variable. Pour notre étude, nous considérons toutes les unités gestuelles manuelles porteuses de sens sans restriction, qu’elles correspondent à des unités lexicales (équivalentes à des mots des langues vocales) ou à des unités à visées illustratives telles que définies par Christian Cuxac. Ces unités illustratives permettent par exemple de décrire la taille ou la forme des relations des entités du discours (i.e. figure 2-2).
Qu’est-ce que le contrôle moteur ?
Cette partie présente le contrôle moteur, en commençant par donner des définitions (section 2.1.2.1), expliciter la notion de degré de liberté (section 2.1.2.2), puis les notions de synergies ou primitives motrices (section 2.1.2.3)
La notion de degré de liberté
Le problème des degrés de liberté (DDL) est central dans le contrôle moteur. Il indique qu’il y a plusieurs façons pour les êtres humains et les animaux d’effectuer un mouvement en vue d’atteindre un même objectif. En d’autres termes, dans des circonstances normales, aucune correspondance simple et encore moins unique n’existe entre un problème moteur (ou tâche motrice) et sa solution. Selon le neurophysiologiste russe Nikolai Bernstein, il est clair que les difficultés de base pour la coordination des différents segments corporels proviennent précisément de l’extrême abondance des degrés de liberté, que le SNC ne gère sans doute pas indépendamment et individuellement (Bernstein, 1967).
Le corps humain a des DDL anatomiques redondants (il y a plusieurs trajectoires articulaires et activités musculaires pour effectuer un même signe en LS), des DDL cinématiques redondants (les mouvements peuvent avoir des trajectoires, des durées, des vitesses et des accélérations différentes pour réaliser un signe donné ; cela peut d’ailleurs varier d’un signe à l’autre et entre différents signeurs), et des DDL neurophysiologiques redondants (plusieurs motoneurones ont des synapses sur le même muscle)2 (Bernstein, 1967; Scott, 2004). Comment le SNC choisit un sous-ensemble de ces DDLs quasi-infinis est une question cruciale dans la compréhension globale du contrôle moteur et son développement à travers l’évolution ou au cours de la vie d’un individu.
Les synergies ou primitives motrices
Afin de saisir, utiliser et manipuler des objets ou bien réaliser certains signes comme dans notre cas, la main est chargée de créer une multitude de postures dans la vie quotidienne (Jerde, Soechting, & Flanders, 2003; Tyrone & Mauk, 2012). La main dispose de plus de 25 DDL pour accomplir ces tâches (MacKenzie & Iberall, 1994). Comment le cerveau contrôle les nombreux DDL du corps reste l’un des problèmes fondamentaux du contrôle moteur (e.g., Bernstein, 1967; Latash, 2008; Turvey, 2007). Il est souvent supposé que le système nerveux central appelle quelques modèles de mouvements clés lors du contrôle de la main, cette hypothèse a été soutenue par des études neuronales (Saleh, Takahashi, & Hatsopoulos, 2012), musculaires (d’Avella, Portone, Fernandez, & Lacquaniti, 2006; d’Avella, Saltiel, & Bizzi, 2003) et cinématiques (Santello, Flanders, & Soechting, 2002; Vinjamuri et al., 2010; Vinjamuri, Mao, Sclabassi, & Sun, 2007) sur les mouvements d’atteinte et de saisie d’un objet (Santello, Baud-Bovy, & Jörntell, 2013).
Les concepts de synergie et de « contrôle de la synergie » ont suscité un intérêt considérable dans le contrôle moteur au cours des dernières années comme une solution possible à ce problème des dégrés de liberté. Le concept a d’ailleurs été étendu aux mouvements des membres supérieurs et inférieurs, que ce soit au niveau cinématique (Berret, Bonnetblanc, Papaxanthis, & Pozzo, 2009) ou musculaire (d’Avella et al., 2003). Selon Turvey (Turvey, 2007), une synergie est « une collection de degrés de liberté relativement indépendants qui se comportent comme une seule unité fonctionnelle, ce qui signifie que les degrés de liberté internes prennent soin d’eux-mêmes, s’adaptant à leurs fluctuations mutuelles et aux fluctuations du champ de force externe, et le font d’une manière qui préserve l’intégrité de la fonction de la collection ». En d’autres termes, la synergie est une sorte de regroupement de plusieurs éléments du système qui agit comme une seule unité à travers quelques motifs de coordination pour exécuter une tâche. L’intérêt des synergies, ou primitives motrices, serait de créer des mouvements de manière simplifiée en se basant sur des patterns qui peuvent être combinés afin d’en créer de nouveaux, un peu à la manière des lettres de l’alphabet qui permettent de créer des mots puis des phrases par association. La structure de la LS diffère cependant de la langue écrite dont les termes primitives et synergies sont à entendre dans le domaine du contrôle moteur. Un certain nombre de principes ou lois du mouvement humain ont été identifiés par ailleurs, et nous reviendrons dessus en section II.2. Pour étudier la structure et les caractéristiques des mouvements produits en LS (et en dehors), mesurer le mouvement humain est alors un point essentiel qui est abordé ci-dessous.
Qu’est-ce que la cognition motrice et le couplage perception/action?
Selon Sommerville et Decety, le concept de cognition motrice saisit l’idée que la cognition est incarnée dans l’action et que le système moteur participe à ce qui est généralement considéré comme des processus cognitifs, y compris ceux impliqués dans l’interaction sociale (Sommerville & Decety, 2006).
L’action une série de mouvements produit en réaction à un événement significatif dans les environnements physiques et sociaux ou pour satisfaire une intention vers un but moteur spécifique. Elle est l’unité fondamentale du paradigme de la cognition motrice.
La cognition motrice prend en compte la préparation et la production des actions, ainsi que les processus impliqués dans la reconnaissance, la prédiction, l’imitation et la compréhension du comportement d’autrui.
Selon Sperry, la perception est un moyen d’action et l’action est un moyen de perception. Autrement dit, Les processus de perception et d’action sont en effet fondamentalement imbriqués (Sperry, 1952). En effet, une fonction essentielle de cerveau est de transformer les modèles de la perception sensorielle en modèles de coordination motrice.
Plus récemment, Prinz a démontré que la perception et l’action partagent des codes de calcul communs et des architectures neuronales sous-jacentes (Prinz, 1997). Il repose sur l’hypothèse qu’une action est codée par le biais d’effets perceptibles. En d’autres termes, le modèle d’une action se fait à partir d’un modèle de perception sensorielle.
L’habilité à percevoir le mouvement biologique, c’est-à-dire les mouvements produits par des humains ou des animaux semble une capacité innée. Cette capacité a été vérifiée chez des nourrissons, où il a été montré que les nouveau-nés sont capables de différencier les cinématiques biologiques et non biologiques (Méary, Kitromilides, Mazens, Graff, & Gentaz, 2007). Cependant, pour permettre une identification précise des actions perçues, la perception et la reconnaissance visuelle des mouvements humains se construisent au cours de la vie et nécessitent des représentations sensori-motrices.
Qu’est-ce que la capture de mouvement ?
Cette section présente la capture du mouvement, sa mise en oeuvre (section 2.1.4.1), avec les différentes méthodes de capture (section 2.1.4.2), ainsi que son utilisation (section 2.1.4.3)
La motion capture (mocap), ou capture de mouvement en français, est une technologie qui permet d’enregistrer des mouvements d’une personne ou d’un objet (figure 2-4). Les données mocap enregistrées sont transformées en un format numérique pour des analyses et des traitements ultérieurs ou pour en contrôler une contrepartie virtuelle sur ordinateur (caméra, modèle 3D, ou avatar). L’enregistrement fournit les coordonnées de déplacements comme une matrice numérique qui peut être utilisée comme source de données pour analyser les mouvements des parties du corps à partir d’un point de vue cinématique. La mocap a été inventée à la fin du 19e siècle où Étienne-Jules Marey et Eadweard Muybridge ont présenté une chronophotographie pour enquêter scientifiquement sur les mouvements d’animaux et d’humains. Les premiers essais ont été faits à travers l’étude des mouvements d’un cheval au galop avant d’être projetés sur écran, c’est ce qui a permis de créer le cinéma. A la base la mocap a été conçue dans les années 70 pour l’armée et la recherche scientifique. Cette nouvelle technologie a grandement contribué à étudier les mouvements humains, et elle a permis de bien progresser dans les domaines de la santé et de l’anatomie. Pour des systèmes complexes comme le corps humain avec un grand nombre de marqueurs (ce sont de petites boules recouvertes d’une matière blanche, réfléchissante), la mocap reste un exercice difficile et qui requiert une grande expertise, certaines entreprises étant d’ailleurs spécialisées en mocap au service de l’industrie du cinéma ou des jeux vidéo voire de la recherche académique comme en LS (cf. Mocaplab3 par exemple).
Caméras infrarouges et marqueurs passifs réfléchissants
Pour cette technique, les sujets, en général, sont vêtus d’une combinaison noire, sur laquelle on dispose, à des points stratégiques (souvent les articulations) des marqueurs (voir figure 2-4). Les caméras envoient un rayonnement infrarouge qui est alors réfléchi par la surface des marqueurs, vers ces mêmes caméras. Les images filmées sont en noir et blanc, sur 2 bits (1 pour chaque couleur).
Un objet avec des marqueurs attachés à des positions connues est utilisé pour calibrer les caméras et obtenir leurs positions, et la distorsion de l’objectif de chaque caméra est mesurée. Si deux caméras calibrées voient un marqueur, l’emplacement de ce marqueur en trois dimensions peut être obtenue.
Le problème principal de cette méthode, c’est sa sensibilité aux obstacles entre les capteurs et les caméras, les rayons infrarouges ne pourront pas traverser l’obstacle et donc ne seront pas réfléchis par les capteurs. Cela peut se produire par exemple lorsque les mains d’un sujet se trouvent toutes deux sur le même axe vis-à-vis des caméras.
Cellules photosensibles et marqueurs actifs
Cette technique est similaire à celle d’avant, la différence est que les marqueurs sont actifs. Le principe de fonctionnement est donc celui « d’émetteur-récepteur » : les marqueurs actifs émettent directement un signal infrarouge captés par les cellules photosensibles. Celles-ci ne sont sensibles qu’à un type de longueur d’onde et identifient les marqueurs actifs en temps réel grâce à une séquence d’émission multi-complexe. Ces marqueurs sont donc identifiés automatiquement et immédiatement en temps réel comme étant des points dynamiques avec des coordonnées 3D dans l’espace virtuel.
Caméras sans marqueurs (la technologie Kinect)
Cette technique utilise une seule caméra Kinect, cette caméra permettant de filmer en 3D. Par le biais de la caméra, une trame de lumière infrarouge est projetée sur les objets, qui, en la réfléchissant, permettent de définir une capture de profondeur. Cette technologie avait à l’origine été conçue pour la Xbox en septembre 2008, et elle a très vite été détournée de son utilisation première.
Capture par centrale inertielle
Le principe de ce système est le même que pour la méthode de la capture optique avec marqueurs, mais les capteurs sont remplacés par des capteurs gyroscopiques, des accéléromètres et magnétomètres et il n’y a pas de caméras. Ils permettent de capter en temps réel l’orientation, la vitesse angulaire et l’accélération linéaire de la partie du corps où ils sont positionnés. Un émetteur relié à l’ordinateur transmet l’information. Le point positif de cette méthode est qu’il n’y a pas de problème d’obstacle, mais le point négatif est que cela reste moins précis que la capture optique même si ces technologies progressent très vite.
Capture mécanique
Cette méthode fonctionne grâce à un exosquelette construit autour de l’élément à capter (voir figure 2-5). L’exosquelette est une structure dont les articulations sont des capteurs angulaires. Ces articulations sont reliées par des fils à un ordinateur. Chaque capteur connait sa position par rapport aux autres, ce qui permet à l’ordinateur de reconstituer les mouvements de l’ensemble de la structure. Cette méthode est très précise et calcule rapidement les données enregistrées par les capteurs. La contrainte de cette méthode est la nécessité d’être relié par des fils à l’ordinateur, ce qui réduit le rayon d’action, et impose des contraintes mécaniques.
Corpus 3D
Les corpus captés à l’aide de mocap sont utilisés pour des analyses linguistiques et pour le traitement automatique, ainsi que pour l’analyse des mouvements. Même si ces corpus fournissent des données 3D et nécessitent moins de traitement que les corpus vidéo, il y a encore peu de corpus 3D. La raison principale pourrait être la disponibilité et l’accessibilité des systèmes mocap qui restent chers pour les laboratoires de recherche, ainsi que sa complexité d’utilisation pour enregistrer la LS. Dans cette partie, nous listons les corpus 3D de LS qui existent et le matériel utilisé pour leur capture.
En ce qui concerne l’ASL il existe trois corpus 3D. Le premier corpus CUNY qui a été utilisé dans plusieurs études (Huenerfauth & Lu, 2010; Lu & Huenerfauth, 2010, 2011, 2012, 2014). Il a été enregistré par le système Animazoo IGS-190 pour capturer le mouvement des bras et du torse, et le système Intersense IS-900 pour capturer le mouvement de la tête, en plus deux gants Immersion Cyber et un eye tracker pour capturer respectivement les mouvements des mains et des yeux. Le corpus a été enregistré avec 9 sujets sourds et sa durée totale est 215 minutes. Tandis que le deuxième corpus (Malaia et al., 2008) est relativement petit. Il a été enregistré avec le système Gypsy 3.0. Un sujet bilingue natif a été enregistré, qui produit un groupe de 50 signes. Tyrone et ses collaborateurs ont enregistré aussi des données 3D de l’ASL (Tyrone, Nam, Saltzman, Mathur, & Goldstein, 2010). Ces données ont été enregistrées à l’aide de six caméras du système de capture de mouvement optique Vicon, avec une fréquence de 100Hz.
Un petit corpus 3D de la LS finlandaise (FinSL) a été constitué (Jantunen, Burger, Weerdt, Seilola, & Wainio, 2012). Il se compose d’un monologue et d’un dialogue, il a été enregistré en utilisant huit caméras de capture de mouvement optique (Qualisys ProReflex MCU120), avec une fréquence de 120Hz. Ce corpus est très court, il dure environ 2,5 minutes.
Pour la LSF, il existe le corpus 3D (Duarte & Gibet, 2010) qui a été créé dans le cadre du projet SignCom9. Il a été enregistré à l’aide de douze caméras du système de capture de mouvement optique (Vicon MX), avec une fréquence d’enregistrement de 100Hz. Il n’est malheureusement pas disponible pour la communauté scientifique. Un autre corpus 3D a été créé dans le cadre du projet MarqSpat10, en plus de la LSF il contient aussi la ASL, et de la langue des signes québécoise (LSQ). Ce corpus non plus n’est pas disponible pour la communauté scientifique. Le dernier corpus 3D de LSF a été constitué dans le cadre du projet CIGALE11 à l’aide du système Vicon et une fréquence d’enregistrement de 120 Hz (Catteau, Blondel, Vincent, Guyot, & Boutet, 2016). Ce dernier n’est pas encore disponible et les données n’ont pas encore été nettoyées.
Les expressions faciales sont importantes pour transmettre des informations grammaticales et prosodiques dans la LS, leur présence ou absence a un impact sur la compréhensibilité et la qualité perçue des animations de la LS. Huenerfauth et ses collaborateurs ont évalué expérimentalement les animations de la ASL avec et sans différents types d’expressions faciales et ont constaté que leur inclusion mène à des avantages mesurables pour la compréhensibilité et la qualité perçue des animations (Huenerfauth, Lu, & Rosenberg, 2011). D’autres études ont montré l’importance des expressions faciales dans la LS où ils se sont focalisés sur les mouvements des sourcils dans des questions interrogatives (Schnepp, Wolfe, McDonald, & Toro, 2013; Wolfe, Cook, McDonald, & Schnepp, 2011).
Loi des asymétries verticales
L’accélération gravitationnelle est omniprésente dans nos actions de la vie de tous les jours et joue un rôle important dans plusieurs fonctions. Par exemple, l’action permanente sur les organes otolithes du système vestibulaire fournit au SNC des informations précieuses sur l’orientation spatiale, la perception visuelle, et le contrôle de l’équilibre (Lackner & DiZio, 2000; Pozzo, Papaxanthis, Stapley, & Berthoz, 1998). La gravité influe également sur l’élaboration de mouvement. Des études ont montré que le SNC profite de la force de gravité d’une manière optimale pendant les mouvements du bras ou du corps entier (Berret et al., 2008; Berret, Chiovetto, Nori, & Pozzo, 2011; Crevecoeur, Thonnard, & Lefèvre, 2009; Papaxanthis, Dubost, & Pozzo, 2003), différenciant ainsi le plan moteur d’un mouvement dirigé vers le haut de celui d’un mouvement dirigé vers le bas. En outre, il a été rapporté que le SNC utilise un modèle interne de la gravité pour compléter l’information sensorielle lors de l’estimation du temps de contact avec un objet approchant (Indovina et al., 2005; McIntyre, Zago, Berthoz, & Lacquaniti, 2001). Ainsi, il a été montré que le SNC met en oeuvre des solutions optimales selon le contexte dynamique de l’action (Gaveau et al., 2014; Gaveau, Paizis, Berret, Pozzo, & Papaxanthis, 2011).
L’exécution des mouvements que l’on maitrise nécessite la représentation interne de l’interaction du corps avec le monde extérieur. L’étude des mouvements verticaux du bras offre un paradigme intéressant pour comprendre comment le système moteur se comporte avec la force de gravité et quels critères sont appliqués lors de l’élaboration d’un mouvement. Par exemple, si les trajectoires de la main (le chemin de la trajectoire ou le profil de vitesse) sont équivalentes pendant les mouvements ascendants et descendants (c.à.d., sous divers effets de la gravité), cela peut indiquer un plan moteur purement cinématique qui intègre précisément les couples de gravité pour préserver la cinématique du bras.
D’autre part, des changements significatifs dans la cinématique du bras selon la direction du mouvement peuvent indiquer l’existence d’un processus de planification dynamique qui profite des forces externes agissant sur le membre au détriment de l’invariance de la trajectoire de la main. En effet, des études ont rapporté que la cinématique différait entre les mouvements ascendants et descendants, argumentant ainsi en faveur d’un plan dynamique. Plus précisément, pour divers mouvements de durée et d’amplitude équivalentes (pointage, atteindre une cible, dessin etc.) la durée d’accélération est supérieure pendant les mouvements descendants comparée aux mouvements ascendants (Gentili, Cahouet, & Papaxanthis, 2007; Papaxanthis, Dubost, et al., 2003; Papaxanthis, Pozzo, & Schieppati, 2003; Papaxanthis, Pozzo, & Stapley, 1998; Papaxanthis, Pozzo, Vinter, & Grishin, 1998).
L’étude de Papaxanthis et ses collaborateurs sur le mouvement de pointage (Papaxanthis, Pozzo, & Stapley, 1998) a montré que le temps de mouvement était approximativement équivalent dans les deux directions (ascendant et descendant) et dans des conditions de charges et de vitesse différentes (figure 2-7).
La caractéristique la plus importante de la cinématique de cette étude était que les temps d’accélération et de décélération étaient inégaux, indiquant une asymétrie de la production de mouvement (voir figure 2-7). La figure 2-8 illustre qualitativement les effets de la direction du mouvement sur les profils de vitesse des doigts, en moyenne pour tous les sujets.
La Langue de Signes et les informations pertinentes pour la compréhension
Cette section présente la perception de la LS Après avoir présenté la prise d’information en LS, la privation et la compréhension (section 2.2.4.1), nous présentons la perception des signeurs virtuels (section 2.2.4.2).
Prise d’information en Langue des Signes, privation et compréhension
Chez l’Homme, la capacité du système visuel à traiter les informations en provenance de l’environnement à chaque moment dans le temps serait limitée (Broadbent, 1958). Ainsi, la prise d’information d’un individu dans l’environnement peut nécessiter une focalisation de son attention sur un ou quelques points particuliers. Il est alors fait appel à des mécanismes d’attention visuelle sélective de manière à sélectionner, « filtrer » et « extraire » du flot d’informations visuelles, les stimuli pertinents du point de vue de l’individu. Hauthal et les autres auteurs ont mené une étude pour tester les capacités d’attention visuelle chez des individus sourds et non-sourds (Hauthal, Neumann, & Schweinberger, 2012). Les participants devaient évaluer si le symbole « cible » (i.e., une silhouette) était « masculin ou féminin », dans des situations mettant en jeu plus ou moins de distracteurs (e.g., un visage masculin ou féminin, un objet à connotation masculine ou féminine) et de symboles sans signification (i.e., « remplisseurs »). Leurs résultats semblent montrer que les capacités d’attention visuelle en situation de charge perceptuelle élevée sont plus importantes pour des individus sourds que pour des individus non-sourds. Pour ces auteurs, ce serait la privation d’un sens qui pourrait amener ces capacités. La production de la LS implique une grande partie du corps de l’individu : le visage, les yeux, les bras, les mains, les doigts, le buste deviennent des moyens de communiquer une information. Ainsi la nécessité de focaliser son attention visuelle sur des éléments particuliers et ne pas être distrait par d’autres devient primordial pour les personnes pratiquant la LS.
Comprendre quels sont les éléments perçus et retenus lors de l’observation de la LS semble donc intéressant notamment pour l’apprentissage de cette langue mais aussi pour la création des signeurs virtuels compréhensibles par un large public.
L’utilisation des systèmes d’oculométrie (Eye tracking), mesurant l’orientation du regard d’un individu observant une scène, a permis d’acquérir des informations sur le placement du regard lors de l’observation d’un discours signé (Emmorey, Thompson, & Colvin, 2009; Muir & Richardson, 2005; Watanabe, Matsuda, Nishioka, & Namatame, 2011). Les résultats de ces études convergent vers l’idée que l’attention visuelle d’un observateur ayant une expérience en LS orienterait davantage son regard au niveau des yeux et de la bouche que ce soit lors de l’observation d’une personne qui signe ou de l’évaluation d’une émotion sur un visage statique. Les individus débutant la LS fixeraient également 80% du temps la tête du signeur avec une plus grande attention vers la bouche (Emmorey et al., 2009). Cependant, il faut savoir que certaines LS emploient plus que d’autres la labialisation, qui consiste à articuler avec la bouche les mots de la langue parlée correspondant au signe effectué. Il s’avèrerait également que les individus entendants orienteraient également leur regard vers ces mêmes zones du visage pour l’évaluation d’une émotion.
Le déplacement du regard vers les mains de la personne observée semble se faire uniquement lorsque le narrateur regarde lui-même ses mains pour les individus pratiquant la LS. Il apparaît donc des stratégies particulières dans la prise d’informations lors de l’observation de la LS par des personnes sourdes. Ainsi, un maintien de l’attention visuelle au niveau du visage semble être plus important chez des individus sourds par rapport à des individus entendants lors de l’observation de la LS (Heimler et al., 2015)
Des études sur la perception de points lumineux directement associées à une action motrice humaine ont montré que l’Homme présentait une capacité spécifique (car automatique et rapide) à détecter un mouvement biologique (Johansson, 1973; Neri, Morrone, & Burr, 1998; Poom & Olsson, 2002). Des études antérieures ont montré que l’Homme était même capable de reconnaître un grand nombre de caractéristiques sociales par le biais de ces quelques points, telles que : le sexe (Catharine D. Barclay, James E. Cutting, 1978), les intentions (Runeson & Frykholm, 1983), les émotions (Atkinson, Dittrich, Gemmell, & Young, 2004), etc.
Impact des informations liées au mouvement
Dans une étude utilisant l’oculomètre (Kacorri, Harper, & Huenerfauth, 2013), les auteurs ont analysé, chez des individus nés sourds, la perception d’une vidéo en ASL. L’étude s’est déroulée dans deux conditions : une dans laquelle une personne réelle signe et une seconde dans laquelle un signeur virtuel signe. Leurs résultats semblent montrer que la visualisation de la personne réelle, comparée à l’avatar, entraîne un temps de fixation du visage plus important et moins de déplacement du regard entre le visage et le corps chez les observateurs signeurs. De 0 plus, il semble exister une corrélation significative entre les patterns de mouvements des yeux de l’observateur sourd et les scores subjectifs (ex. difficulté grammaticale, compréhensibilité) qu’il a lui-même assigné aux animations et aux vidéos. Ainsi, plus la qualité de la vidéo semble élevée (la meilleure étant la vidéo de l’individu réel), plus la quantité de déplacement du regard est faible (« Time Normalized Total Trail Length »).
Impact des informations liées à la forme
Dans une expérimentation en ligne (figure 2-11), les auteurs ont essayé de comprendre quel pouvait être l’impact de l’apparence de l’avatar sur la compréhension et la perception des usagers (Adamo-Villani, Wilbur, Eccarius, & Abe-Harris, 2009). Ainsi deux modèles d’avatars ont été testés dans cette étude. Leurs résultats indiquent qu’un avatar “segmenté” (figure 2-11A) semble pouvoir être utilisé pour la reconnaissance de signes linguistiques simples, c’est-à-dire ne sollicitant que des mouvements des mains. Cependant lorsque les mains produisent des signes plus complexes, il semblerait que la présence de déformations organiques (e.g., pliure de la peau) puisse augmenter la compréhension, ce qui semble être le cas avec le modèle « homogène » (figure 2-11B).
|
Table des matières
Liste des symboles et acronymes
1 Introduction générale
1.1 Les enjeux sociétaux liés à la surdité
1.2 Le mouvement 3D en LSF
1.3 Création et étude d’un corpus 3D de LSF
1.4 Organisation du manuscrit
2 La Langue des Signes Française, le Contrôle Moteur, et la Perception du mouvement humain
2.1 Définitions
2.1.1 Qu’est-ce que la Langue des Signes Française ?
2.1.2 Qu’est-ce que le contrôle moteur ?
2.1.3 Qu’est-ce que la cognition motrice et le couplage perception/action?
2.1.4 Qu’est-ce que la capture de mouvement ?
2.2 Etat de l’art
2.2.1 Langue des Signes
2.2.2 Contrôle moteur
2.2.3 Le mouvement et la LS
2.2.4 La Langue de Signes et les informations pertinentes pour la compréhension
2.2.5 Conclusion
3 Création et annotation du corpus de la Langue des Signes Française
3.1 Création du Corpus MOCAP1
3.1.1 Contenu du corpus
3.1.2 Matériel utilisé
3.1.3 Les Marqueurs
3.1.4 Disposition des caméras
3.1.5 Calibration
3.1.6 Enregistrement des données (corpus)
3.1.7 Post-traitement
3.1.8 Export des données
3.2 Annotation du Corpus
3.2.1 Le logiciel ANVIL
3.2.2 Création des fichiers BVH
3.2.3 Structure de l’annotation
3.2.4 La procédure d’annotation
3.2.5 L’export de l’annotation
3.3 Conclusion
4 Méthode et analyse des données
4.1 Méthode de traitement automatique des données
4.1.1 L’organisation des données
4.1.2 Les opérations sur le mouvement
4.2 Résultats et discussions
4.2.1 Principe d’isochronie et relation distance-durée
4.2.2 La loi des asymétries verticales et horizontales
4.2.3 La loi de puissance 2/3
4.3 Conclusion
5 Perception du mouvement sur un signeur virtuel en LSF
5.1 Méthodologie
5.1.1 Participants
5.1.2 Contenu
5.1.3 Procédure
5.2 Résultats
5.2.1 Effet du type de vidéo sur la performance
5.2.2 Effet principal du Groupe sur la performance
5.2.3 Interaction Groupe*Type de vidéo sur la performance
5.2.4 Effet de la catégorie et des Scènes décrites sur la performance
5.2.5 Effet principal du groupe sur la performance en Condition Avatar
5.2.6 Effet de la vidéo sur la performance en CA pour l’ensemble des participants
5.2.7 Effet d’interaction Vidéo*Groupe en condition Avatar
5.2.8 Analyse descriptive et apports linguistiques
5.3 Discussion
5.4 Conclusion
6 Conclusion générale
6.1 Contributions de la thèse
6.2 Limites de cette thèse et perspectives
7 Bibliographie
Télécharger le rapport complet