Agents interactifs temps reel
Cette partie est consacree `a l’introduction de méthodes ayant pour but de renforcer les capacies d’interaction des humanoïdes virtuels. Dans un premier temps, nous presentons quelques techniques utilisées en environnement virtuel pour l’interaction d’agents, puis dans un dernier temps, on quitte le monde virtuel pour la robotique en ´etudiant l’emergence de synchronicites entre deux robots grˆace `a deux oscillateurs couples.
Interaction et adaptation chez les humano¨ıdes virtuels
La realisation de modeles permettant `a un humano¨ıde virtuel de beneficier d’autonomie et de capacit´es d’interaction prend en compte les concepts de perception, de decision et d’action. Les mod`eles que nous allons présenter ici sont des architectures construites sur plusieurs niveaux. Chacune d’entre elles reprend les concepts ci-dessus, meme s’ils ne sont pas necessairement aussi explicites. La figure 1.2 illustre le cycle de perception–decision–action
Les PaT-Nets sont des automates paralleles surveillant la boucle SCA et adaptent le comportement de l’agent suivant ses buts et sa perception de l’environnement. Ils sont compos´es d’´etats repr´esentant une action `a realiser et de transitions permettant le passage d’un ´etat `a un autre.
La planification permet de pr´evoir la prochaine action `a realiser dans la r´ealisation d’une tˆache. La planification depend surtout de ce que l’on souhaite faire faire aux agents du systeme.
Un exemple de systeme `a base de planification et de PaT-Nets est le systeme Gesture Jack (Cassell et coll., 1994). Ce systeme consiste en deux agents conversationnels : l’un `a un but `a atteindre tandis que l’autre doit l’aider `a y parvenir. Ici le planificateur gere la generation des dialogues selon une base de faits contenant des informations sur le monde, les buts des agents, les croyances des agents (`a la fois qu’ils ont du monde et qu’ils ont l’un de l’autre). Les PaT-Nets sont utilises pour la synchronisation du dialogue et de la gestuelle des agents (mains et regards).
Il y a dans le systeme deux types de PaT-Nets : un pour la gestuelle, l’autre pour le regard. Les mouvements sont alors prevus selon le contexte. Introduction de comportements reactifs dans l’architecture SAIBA SAIBA (Bevacqua et coll., 2009) est une architecture pour la generation de comportements, mod´elis´ee sur trois niveaux (figure 1.3)
Emergence de synchronicit´es chez des robots
Le turn-taking est caracteristique de la communication entre humains. Ce phenomene consiste en un ´echange (de parole par exemple) entre deux personnes (ou plus) alternativement. Prepin et Revel (2007) exploitent cette caract´eristique dans le domaine de la robotique. Leur modele
est bas´e sur deux oscillateurs coupl´es desquels va ´emerger une synchronisation entre les agents :la provoquation de synchronisation chez les robots revient `a faire en sorte d’une part que chaque robot soit sensible au comportement de l’autre et d’autre part qu’il puisse influencer l’autre robot par son propre comportement. Bien qu’appartenant au domaine de la robotique, ce modele et ses ´esultats se rapprochent le plus de la problematique soulevee dans le cadre de ce travail, ` a savoir l’´emergence de comportement adaptatif `a l’aide de syst`emes dynamiques.
Le syst`eme est constitue de deux robots. Chacun d’entre eux est equipe d’un bras avec une articulation (une ´epaule). Un bras est pilot´e par un oscillateur constitue de trois neurones ayant la capacit´e de s’inhiber. Lorsque l’oscillateur est ≪ haut ≫, il provoque un mouvement du bras. S’il est ≪ bas ≫, le bras s’immobilise. Si une perturbation survient dans l’oscillateur, celui-ci va conserver la phase induite par la perturbation et sa frequence revient `a la frequence d’origine `a l’arrˆet de la perturbation (figure 1.5).
Les robots sont egalement munis d’une camera, chacun voyant l’autre. De cette maniere, si l’un voit que l’autre est en mouvement, il va inhiber sont propre oscillateur : il se produira ainsi des alternances de mouvements et de periodes d’attente.
Dynamique du comportement en psychologie cognitive
Le domaine de la psychologie cognitive a mis en avant un certain nombre d’approches pour modeliser les comportements, comme vu dans la section 1.1. Le mod`ele propos´e par Warren (2006) est bas´e sur les syst`emes dynamiques et met en avant la notion de perception et d’action dans le cadre des interactions agent–environnement. Apr`es une introduction aux syst`emes dynamiques, le mod`ele de Warren est pr´esent´e. Nous verrons ´egalement comment l’´emergence de comportement a lieu avec un tel mod`ele, et quelles sont les limites de cette approche.
Emergence de comportements
L’usage de syst`emes dynamiques permet l’´emergence de comportements r´esultants du couplage entre l’agent et l’environnement. L’interaction de ces deux composants cr´ee un champ de vecteurs dont les attracteurs correspondent `a des solutions stables de la tˆache. L’≪ exploration ≫ du champ de vecteurs (autrement dit la recherche d’une solution) par l’agent lui permet de percevoir le r´esultat de ces actions, conduisant ainsi `a un retour permettant d’affiner la recherche d’un comportement stable.
Warren ´evoque trois niveaux auxquels la dynamicit´e d’une tˆache doit ˆetre envisag´ee :
– La dynamique du graphe correspondant aux relations fonctionnelles dans les composants du syst`eme et d´eterminant un r´egime dynamique (autrement dit la fonction d´efinissant le syst`eme dynamique).
– La dynamique des param`etres correspondant aux changements dans les param`etres de cette fonction : les attracteurs peuvent alors changer de place dans l’espace ou encore faire faire une bifurcation au syst`eme.
– La dynamique d’´etat correspondant `a l’´evolution du syst`eme depuis ces conditions initiales jusqu’`a un attracteur.
L’apprentissage d’un comportement par un agent passe par l’obtention d’un r´egime dynamique qui d´epend du but `a atteindre. Par exemple, lors d’une tˆ ache consistant `a faire rebondir une balle sur une raquette, le r´egime dynamique correspond `a un r´ egime oscillatoire qui est atteint par l’agent grˆace aux contraintes physiques de la tˆache.
La modification des param`etres (tel que la hauteur du rebond) du syst`eme permet de faire ´evoluer ce dernier afin d’en d´ecouvrir les ´etats stables et instables. L’agent proc`ede donc `a l’exploration d’espaces de variables de contrˆole et d’information lui permettant ainsi de d´eterminer la loi dynamique de la tˆache :
1. L’obtention d’un r´egime dynamique limite la dimensionnalit´e de l’espace des variables de contrˆole, permettant ainsi `a l’agent d’identifier rapidement les variables utiles (c’est-`a-dire les variables dont les changements sont imm´ediatement r´epercut´ es sur la stabilit´e de la tˆache). Un exemple de variable de contrˆole est la phase oscillatoire de la raquette.
2. La dimension de l’espace des variables informationelles est limit´ ee par les contraintes impo ´ees par la tˆache. Une telle variable est par exemple la trajectoire de la balle dans le cas du rebond de balle.
L’´emergence de comportement est donc r´ealis´ee par l’exploration des espaces de variables de contrˆole et d’information, dont les dimensions sont r´eduites du fait de la sp´ecificit´e de la tˆache `a accomplir. De plus, la perception de la stabilit´e ou de l’instabilit´e dans le champ de vecteur permet l’´etablissement de la loi dynamique de la tˆache. Mod´eliser le comportement avec cette approche requiert d’identifier avec soin les variables utiles pour l’ex´ecution d’une tˆache, de d´eduire les ´equations du syst`eme, mais rencontre aussi des limites en termes de but et d’informations disponibles : Warren a ´etudi´e ces limitations et
´emis des hypoth`eses pour chacune d’elles.
Limitations de la dynamique comportementale
S´equences d’actions La r´ealisation d’une tˆache passe souvent par la r´ealisation de s´equences d’actions (sous-tˆaches). Warren illustre bien ce probl`eme avec une tˆache pourtant tr`es simple : faire un sandwich au beurre de cacahu`ete : il faut rassembler les ingr´edients, disposer une tranche de pain, ouvrir le pot, etc. De plus, ces actions peuvent ˆetre li´ees entre elles par des d´ependances (ouvrir le pot avant de pouvoir se servir).
De tels comportements seraient hi´erarchis´es par une repr´esentation interne pr´e-existante de la s´equence d’actions. Mais la variabilit´e observ´ee par les psychologues peut ´egalement laisser penser que les s´equences sont r´ealis´ees dynamiquement lors de la tˆache.
Une approche propos´ee par Keijzer (1998) est l’´etude des changements des r´egimes dynamiques au cours du temps. Pour cela, l’utilisation de syst`emes dynamiques multi-´echelles coupl´es permettent de mod´eliser des interactions entre agent et environnement se d´eroulant sur plusieurs ´echelles de temps. Coupl´es `a des r´eseaux de neurones, les syst`emes sur une courte ´echelle de temps sont ensuite coupl´es `a des syst`emes dont l’´echelle est plus grande. Le comportement global modifie les r´eseaux de neurones afin de permettre un apprentissage.
Toutefois, les comportements s´equentiels restent encore `a ´etudier et une piste int´eressante pour poursuivre dans cette voie serait l’utilisation de r´eseaux de neurones r´ecurrents.
Comportements anticipatifs Warren d´efinit les comportements anticipatifs comme ´etant des actions ne d´ependant pas seulement des informations actuelles, mais ´egalement d’un but ≪ distant ≫. Aussi, on retrouve dans ce cas de figure la notion de multi-´echelles propos´ee par Keijzer. Il faut parvenir `a faire ´emerger une trajectoire `a long terme dans l’espace d’´etat `a partir des interactions agent/environnement `a court terme.
Les param`etres de contrˆole de la dynamique `a court terme permettent d’aller vers des trajectoires `a plus long terme, et `a l’inverse, la dynamique `a long terme permet de modifier les interactions `a court terme grˆace `a la disponibilit´e de nouvelles informations par exemple.
Comportements pr´edictifs Le comportement pr´edictif est lui d´efinit par des actions d´ependant de propri´et´es cach´ees de l’environnement, telles que la masse d’un objet, sa fragilit´e, etc. Dans ce cas, l’id´ee est que l’agent doit avoir une repr´esentation interne des objets comprenant ´egalement leurs propri´et´es. L’agent utiliserait donc ces repr´esentations internes avec d’autres informations disponibles (visuelles par exemple) afin de pr´edire l’´evolution des entites avec lesquelles il interagit.
Une modification des propri´et´es d’un objet impliquerait une adaptation de l’agent. L’apprentissage des liens entre un objet et ses propri´et´es cach´ees doit se faire par l’exp´erience pass´ee de l’agent de fa¸con `a pouvoir les incorporer dans une loi dynamique par exemple.
De nouveau, il ressort donc des comportements pr´edictif la notion d’interactions entre agent et environnement sur plusieurs echelles.
Comportements strategiques Le dernier type de comportement etudie par Warren est le comportement strategique : lors de ses interactions avec l’environnement, l’agent peut ˆetre amene a prendre en compte l’historique de cet environnement ou encore des statistiques sur les evenements. L’apprentissage de ces faits est possible lors des interactions entre l’agent et l’environnement et, encore une fois, a une influence sur la dynamique a plusieurs echelles.
Synthèse
Depuis plusieurs ann´ees, des mod`eles ont ´et´e ´elabor´es afin de r´epondre aux probl´ematiques de l’interaction d’agents virtuels autonomes. Bˆaties sur la boucle de perception–d´ecision–action, ces mod`eles explorent diff´erentes voies pour d´evelopper la cr´edibilit´e des interactions, comme l’utilisation de pr´ecicats (Multon et coll., 2001) ou les automates parall` eles (Badler et Webber, 1995). Ces mod`eles utilisent des couches, des symboles, de la planification ; cependant ils ne se focalisent pas en priorit´e sur la dynamique ´emergeant de l’interaction.
En revanche, cette ´emergence apparaˆıt dans le domaine de la robotique : l’approche utilis´ee par Prepin et Revel (2007) a montr´e que le couplage de syst`emes dynamiques (ici deux oscillateurs) permet l’´emergence d’une interaction entre les deux agents du syst`eme. Ce syst`eme n’a pas ´ecessit´e l’utilisation de couches pour g´erer les comportements des agents, et n’est pas non plus bas´e sur la planification d’actions : la dynamique de l’interaction ´emerge sans que les comportements aient ´et´e explicit´es, mˆeme dynamiquement.
En psychologie cognitive, une hypoth`ese concernant les interactions agent/environnement est que l’humain est adaptatif et utilise les propri´et´es de stabilit´e de la tˆache dans sa recherche d’efficacit´e. La r´ealisation d’une tˆache sp´ecifique n´ecessite l’identification des variables essentielles du syst`eme pour atteindre une solution stable. Une telle tˆache doit donc avoir fait l’objet d’´etudes en psychologie cognitive pour que nous puissions la mod´eliser dans un environnement virtuel. Nous avons choisi de porter notre mod´elisation sur la tˆache consistant `a faire rebondir une balle sur une raquette de mani`ere rhytmique. Bien que cette tˆache n’implique la pr´esence que d’un agent dans l’environnement, elle a fait l’objet de nombreuses ´ etudes et est donc adapt´ee `a une mod´elisation en environnement virtuel permettant l’´evaluation de l’approche par couplage de syst`emes dynamique dans l’optique de renforcer le r´ealisme des interactions entre agents.
Cas d’´etude : le rebond de balle
Cette partie donne la description des systemes en jeu dans le cas du rebond de balle ainsi que les clefs pour realiser le couplage entres ces systemes.
Generalites
Faire rebondir une balle sur une raquette dans une dimension (verticale) est un cas d’´etude simple pour appr´ehender la dynamique comportementale et est bas´e sur le cycle de perceptionaction suivant : la force appliqu´ee par la raquette sur la balle influe sur l’´etat de l’environnement (la balle en particulier). Cela g´en`ere des perturbations donnant lieu `a de nouvelles informations sur la trajectoire de la balle. Ainsi, une modification de la force appliqu´ee par la raquette permet de modifier la dynamique de la balle, et en retour le cycle de la raquette. On retrouve bien ici le cycle de perception/action explicit´e par Warren (2006) et illustr´ e sur la figure 1.7 page 10.
Les ´etudes de psychologie cognitive ´ecologique ont pour objet de comprendre comment un acteur r´ealisant cette tˆache exploite les contraintes de l’environnement afin de r´ealiser ladite tˆache ; ces contraintes peuvent ˆetre physiques ou encore informationnelles et doivent permettre `a l’acteur de se stabiliser dans un rebond stable, c’est-`a-dire de frapper rhytmiquement la balle de fa¸con `a ce que la hauteur de celle-ci soit stable.
Il existe deux types majeurs de contrˆole : l’un est passif, autrement dit le syst`eme peut se trouver dans un ´etat stable sans qu’il soit n´ecessaire de percevoir les informations de l’environnement. L’autre est actif : dans ce cas, l’analyse cognitive des informations per¸cues permet de mener le syst`eme dans un ´etat stable. Rebond passivement stable Schaal et coll. (1996) ont montr´e que le rebond de balle peut etre passivement stable, c’est-`a-dire que le rebond a lieu ind´efiniment et peut compenser de petites perturbations pouvant parvenir dans le syst`eme sans contrˆ ole actif de la raquette. Ces perturbations peuvent ˆetre de diff´erentes natures, comme la modification de l’acc´el´eration de la pesanteur, obtenue grˆace `a un syst`eme de r´ealit´e virtuelle.
La capacit´e `a maintenir un rebond stable sans contrˆole actif d´epend tr`es fortement des valeurs initiales des param`etres du syst`eme : le coefficient de restitution, la gravit´e, la p´eriode et l’amplitude de la raquette, la position et la vitesse de la balle.
Les notions de rebond passif et actif ne sont pas exclusives l’une par rapport `a l’autre. En effet, selon Sternad et coll. (2001), les acteurs exploitent cette stabilit´e passive afin de r´ealiser la tˆache, mais ils stabilisent ´egalement activement le rebond grˆace aux informations per¸cues depuis l’environnement (Morice et coll., 2007).
Contrˆole perceptuel Les informations per¸cues depuis l’environnement peuvent ˆetre de nature visuelle (trajectoire de la balle), haptique (moment et force de l’impact courant) et acoustique (moment et force de l’impact ´egalement). Les variables essentielles sont exploit´ees par les acteurs dans leur recherche de stabilit´e. La question est de savoir, parmi les informations cit´ees, quelles sont celles consid´er´ees comme essentielles car permettant de stabiliser le rebond.
Cycles de la balle et de la raquette La figure 2.1 p.16 illustre les cycles respectifs de la balle et de la raquette.
Le cycle de la balle est caract´eris´ee par sa p´eriode, mesur´ee comme ´etant le temps entre deux impacts successifs. Les informations concernant la balle sont sa vitesse initiale (mesur´ee imm´ediatement apr`es l’impact), la hauteur maximale du rebond h b . L’erreur au rebond ǫ est calcul´ee comme ´etant la diff´erence entre h b et la hauteur cible `a atteindre h t . Les variables t up et t down repr´esentent respectivement la demi-p´eriode ascendante et la demi-p´eriode descendante de la balle.
La trajectoire de la raquette est repr´esent´e par des oscillations harmoniques. Son cycle est caract´eris´e par sa p´eriode Pr , mesur´ee comme ´etant le temps s’´ecoulant entre deux positions de hauteur maximale successives. L’amplitude correspond `a la distance s´eparant les positions maximale et minimale de la raquette. Le cycle de la raquette peut ˆetre d´ecoup´e en quatre quartiers correspondant `a des phases d’acc´el´eration et de d´ec´el´eration ; est la phase de la raquette au moment de l’impact.
Modes de controle
Si de nombreuses ´etudes ont port´es sur le rebond de balle, et notamment sur les crit`eres permettant de d´eterminer comment est d´efinie la stabilit´e passive, peu d’´etudes proposent des hypoth`eses concernant le contrˆole de la raquette entre deux impacts.
Bien que la tˆache du rebond de balle soit r´ealisable en r´egime passivement stable, il est egalement possible d’inclure dans un mod`ele un contrˆole perceptuel. Le syst`eme, d´ej`a perturbable en r´egime passivement stable, doit permettre d’offrir une robustesse accrue face aux perturbations pouvant survenir dans l’environnement. Siegler et coll. (2010) ont avanc´e l’existence de quatres modes de contrˆoles. Le premier est le contrˆole purement passif. Dans ce cas, aucun contrˆole n’est exerc´e sur la raquette pour compenser sa trajectoire ; seules de petites perturbations peuvent ˆetre compens´ees. Le contrˆole purement actif est un mode dans lequel un contrˆole est exerc´e `a chaque cycle mais dans lequel la propri´et´e de stabilit´e passive du syst`eme n’est pas prise en compte. On peut citer l’algorithme miroir de Buehler et coll. (1994) qui calque la vitesse de la raquette sur celle de la balle : les impacts ont dans ce cas lieu avec une acc´el´eration positive.
Le contrˆole hybride prend en compte la propri´et´e de stabilit´e passive de la tˆache : les petites perturbations sont compens´ees grˆace `a cette propri´et´e et les perturbations plus grandes sont compens´ees activement. De Rugy et coll. (2003) ont utilis´e ce mode de contrˆole dans leur mod`ele : le rebond devant avoir lieu `a une hauteur constante, pass´e un certain seuil d’erreur, la p´eriode de la raquette est r´e-ajust´ee suivant la p´eriode de la balle afin de compenser les perturbations de l’environnement (dans ce cas, des modifications du coefficient de restitution).
Enfin, le dernier mode de contrˆole est le contrˆole mixte. Dans ce cas ´egalement, la propri´et´e de stabilit´e passive de la tˆache est prise en compte. Un contrˆole perceptuel est exerc´e `a chaque cycle, ayant pour effet non seulement de compenser les perturbations de l’environnement, mais aussi de maintenir/ramener le syst`eme dans son ´etat passivement stable. Selon Siegler et coll. (2010), le contrˆole mixte est utilis´e par les acteurs lors de la r´ealisation de la tˆache. Ce mode de contrˆole doit permettre de r´eduire les ajustements ainsi que le temps de relaxation du syst`eme, menant ainsi `a une plus grande stabilit´e par rapport aux autres modes de contrˆoles.
Contrˆole actif de la raquette
Dans le cadre de l’approche de la dynamique de la perception et de l’action mise en avant par Warren (2006), la mise en place d’un contrˆole actif dans un mod`ele informatique revient `a ´ealiser un couplage entre les syst`emes repr´esentant respectivement l’agent et son environnement. Le couplage de ces deux syst`emes est r´ealis´e par le couplage les variables propres `a chaque syst`eme, bas´e sur les observations r´ealis´ees en psychologie cognitive ´ecologique sur une tˆache donn´ee – en l’occurence faire rebondir une balle sur une raquette.
Le couplage r´ealis´e donne lieu `a un contrˆole actif mixte, duquel on doit voir ´emerger la propri´et´e de stabilit´e passive de la tˆache r´ealis´ee, c’est-`a-dire une acc´el´eration `a l’impact ´egative, dont la valeur se situe dans l’intervalle pr´esent´e `a la relation (2.1).
Un certain nombre de variables sont suceptibles d’ˆetre extraites de l’environnement. Il convient de distinguer les variables essentielles de celles qui ne le sont pas, c’est `a dire les variables effectivement utilis´ees par un acteur r´ealisant cette tˆache. Informations disponibles depuis l’environnement L’´etude de Siegler et coll.
|
Table des matières
Résumé
Introduction
1 Etat de l’art
1.1 Contexte
1.2 Agents interactifs temps réel
1.2.1 Interaction et adaptation chez les humanoïdes virtuels
1.2.2 Émergence de synchronicités chez des robots
1.3 Dynamique du comportement en psychologie cognitive
1.3.1 Introduction aux systèmes dynamiques
1.3.2 Dynamique comportementale (Warren, 2006)
1.3.3 Limitations de la dynamique comportementale
1.4 Synthèse
2 Cas d’etude : le rebond de balle
2.1 Géneralites
2.2 Modes de contrôle
2.2.1 Contrôle actif de la raquette
2.3 Le système balle/raquette
3 Modélisation du système balle/raquette
3.1 Environnement de simulation
3.2 Oscillateur et pilotage de la raquette
3.3 Algorithme de contrôle
3.3.1 Modulation de période
3.3.2 Modulation d’amplitude
4 Résultats & Discussion
4.1 Rebond passif
4.1.1 Méthode
4.1.2 Conditions environnementales constantes
4.1.3 Conditions environnementales variables au cours d’une même simulation
4.1.4 Synthèse
4.2 Rebond avec contrôle actif
4.2.1 Méthode
4.2.2 Caractérisation
4.2.3 Conditions environnementales constantes au cours d’une même simulation
4.2.4 Conditions environnementales variables au cours d’une même simulation
4.2.5 Synthèse
Conclusion et perspectives
Références
Télécharger le rapport complet