Télécharger le fichier pdf d’un mémoire de fin d’études
Différentes stratégies, différentes structures nerveuses
Ces moyens divers d’orientation dont les animaux disposent ont été abondamment étudiés en neuroscience. De très nombreuses expériences montrent la capacité des mammifères, particuliè-rement étudiée chez le rat, à pouvoir utiliser plusieurs types de navigation pour rejoindre un but. Les taxonomies les plus courantes de ces différentes « stratégies » les classent en fonction des informations qu’elles utilisent (idiothétiques, i.e., générées par le mouvement propre de l’ani-mal, et/ou allothétiques, i.e., générées par des éléments extérieurs à l’animal), de leurs cadres de référence (égocentré, dont les mouvements sont centrés sur la position de l’animal ou allo-centré, dont les mouvements sont centrés sur la position d’un élément du monde extérieur), des caractéristiques de leurs apprentissages (lent ou rapide, flexible ou non au changement de tâche) (Trullier et al, 1997; Franz et Mallot, 2000; Arleo et Rondi-Reig, 2007).
Des expériences d’inactivation ont impliqué différentes structures nerveuses dans l’apprentissage et l’exécution de ces différents stratégies, notamment le striatum dorsolatéral (DLS) pour celles plutôt peu flexibles et égocentrées, et le système hippocampique, parahippocampique et le cortex medial préfrontal pour d’autres, plus flexibles et allocentrées (e.g., White, 2004, 2005).
Cette possibilité d’utiliser des stratégies diverses renforcerait la robustesse de la navigation des rats, leur donnant l’opportunité de rejoindre un but visible ou non, indicé ou non indicé par différents éléments caractéristiques de l’environnement plus ou moins proches de ce but (amers proximaux et distaux). Selon ces conditions environnementales et la disponibilité correspondante des informations allothétiques ou idiothétiques, les animaux semblent capables de choisir les stratégies les plus adéquates, d’en changer lorsque la disponibilité de l’une ou l’autre de ces informations change, ou de gérer les conflits qu’elles peuvent générer (e.g., Tamara et al, 2010). Des structures nerveuses auraient été aussi impliquées dans ces choix (e.g., Ragozzino et al, 1999; Rich et Shapiro, 2009). C’est cette capacité à sélectionner entre différents moyens de rejoindre un but qui est cruciale pour expliquer l’autonomie des mammifères dans la navigation.
Un débat ancien mais toujours vif
Alors que la nature des informations environnementales ou internes disponibles, des cadres de référence utilisés et des principales structures nerveuses impliquées dans les stratégies de na-vigation suscitent encore des investigations mais pas de contestations aiguës, il n’en est pas de même de la nature des mécanismes attribués aux apprentissages de ces stratégies. Les prémisses de ce débat remontent à un siècle (e.g., Skinner, 1938; Tolman, 1948), mais il s’avère toujours actuel (e.g., Pearce, 2009; Leising et Blaisdell, 2009). Il met en présence, d’un côté, les partisans d’un apprentissage spatial répondant aux même lois que celles du conditionnement opérant, sous la dépendance d’un mécanisme général fondé sur une compétition d’amers (théorie associative), de l’autre les partisans d’un apprentissage spatial capable aussi de se fonder sur une intégra-tion coopérative des amers disponibles (cognitive mapping theory, que nous nommerons théorie cognitive). En d’autres termes, l’apprentissage spatial ne serait dépendant que d’un système de mémoire procédural (i.e., encoder « comment faire » pour rejoindre un but de façon stéréotypée) ou pourrait aussi dépendre d’un système de mémoire déclaratif (i.e., encoder « quoi faire » pour rejoindre un but, indépendamment de ce but).
Certaines expériences, apportant des démonstrations convaincantes, contribuent à renforcer la première hypothèse (e.g., Chamizo, 2003; Leising et Blaisdell, 2009; Stahlman et Blaisdell, 2009) tandis que d’autres appuient la seconde (e.g., Tolman, 1948; Steele et Morris, 1999). Les princi-paux points d’achoppement portent sur l’existence d’une carte « cognitive », représentation spa-tiale dont les règles d’apprentissage sont contraires à la compétition d’amer (e.g., O’Keefe et Nadel, 1978) et, plus récemment, d’un module géométrique, dont l’utilisation est dépendante de la géométrie de l’environnement, qui serait « impénétrable » pour certains aux effets compétitifs (e.g., Cheng, 1986; Pearce et al, 2006; Redhead et Hamilton, 2007).
Si ces expériences comportementales n’ont jusqu’à maintenant pas réussi à clore définitive-ment ce débat, elles ont néanmoins fourni un nombre très conséquent d’informations sur les différentes natures possibles de l’apprentissage spatial.
Un modèle computationnel modulaire de sélection de stratégies
Notre objectif est donc de proposer un modèle computationnel bio-inspiré – en accord avec la fonction de structures nerveuses impliquées dans la navigation spatiale –, qui pourrait gérer une sélection de diverses stratégies sous-tendues par des apprentissages de même nature ou non, de type procédural ou déclaratif, en fonction des informations disponibles dans l’environnement. Suivant les propositions de certains neurobiologistes (e.g., White, 2004, 2005) et s’inspirant d’un modèle déjà validé (Chavarriaga et al, 2005), il met en œuvre différents « experts » gérant l’apprentissage de différentes stratégies, ainsi qu’un module de sélection séparé qui estime à tout moment l’adéquation de chaque expert en fonction des conditions environnementales. Ce module de sélection, qui suit une règle associative, est capable d’estimer la validité ou l’efficacité de stratégies qui, elles, sont acquises selon un mode procédural ou déclaratif. Cela a nécessité la recherche non triviale d’une « monnaie commune » permettant la comparaison des différentes stratégies, quels que soient leurs modes d’acquisition.
En d’autres termes, ce modèle tente donc de concilier les résultats émanant de ces deux écoles et parfois contradictoires par une gestion modulaire de la navigation, permettant des apprentis-sages différenciés et parallèles de plusieurs stratégies, et dont le mécanisme de sélection pourrait favoriser soit les compétitions entre amers, soit la nécessité de leur intégration. Ce travail ne pré-tend évidemment pas apporter de réponse définitive au débat sur l’apprentissage spatial, mais vise à y apporter une première contribution.
Cadre de son application
Le domaine à explorer étant très vaste, nous le restreignons à certaines conditions. Nous ne nous intéresserons qu’aux expériences de navigation ne comportant qu’un seul but à atteindre, dépendantes d’une seule motivation. L’environnement modélisé sera la piscine de Morris (Mor-ris, 1981) : cet environnement présente l’avantage d’avoir été utilisé de façon intensive dans les expériences de navigation depuis une trentaine d’années, de permettre un contrôle non né-gligeable sur l’influence des amers (la présence d’eau empêche notamment les indices olfactifs indésirables d’interférer) et n’est pas basée sur une déplétion énergétique des animaux, restrei-gnant là encore l’éventuel rôle de diverses motivations sur la navigation (D’Hooge et De Deyn, 2001; Carillo-Mora et al, 2009).
Nos simulations se limiteront également aux interactions entre stratégies dites de guidage vi-suel (utilisant directement différents amers visuels) et de lieu (utilisant une intégration d’amers visuels). Les stratégies utilisant des informations purement idiothétiques ou dépendantes d’une configuration géométrique seront évoquées dans l’état de l’art mais ne seront pas prises en compte dans les simulations (ces dernières étant notamment au cœur d’un débat concernant l’existence d’un module géométrique dédié, e.g., Sheynikhovich et al, 2009).
Plan du mémoire
Nous aborderons dans les deux chapitres suivants (Chapitres 2 et 3) les états de l’art respectifs des données biologiques et des modèles computationnels liés à la problématique évoquée ci-dessus.
Dans les Chapitres 4 et 5 nous détaillerons la conception du modèle de sélection de stratégie de navigation ainsi que la méthodologie générale appliquée à l’analyse des résultats.
Les Chapitres 6 à 8 présenteront les résultats quant aux analyses d’interactions de stratégies dans des expériences émargeant ou non à l’une des deux théories associative ou cognitive :
(i) en présence d’un type d’amers seulement (soit proximaux, soit distaux : deux expériences simulées, puis expériences de McGregor et al, 2004a; Morris et al, 1982; Steele et Morris, 1999).
(ii) en présence des deux types d’amers (proximaux et distaux), dans des conditions faisant apparaître ou non des effets de l’apprentissage associatif (Rodrigo et al, 2006; Roberts et Pearce, 1999; McGregor et al, 2004a).
(iii) pour finir par deux expériences où les deux types de stratégies de guidage et de lieu sont mises délibérément en conflit (Devan et White, 1999; Pearce et al, 1998).
Le Chapitre 9 discutera des contributions et limitations du modèle quant aux hypothèses sur l’apprentissage spatial. Enfin le Chapitre 10 conclura sur le travail effectué et apportera des perspectives, notamment en matière d’implémentation de ce modèle sur un robot réel, le robot-rat Psikharpax.
Les différents types d’informations disponibles
Nous introduisons dans cette section les notions qui sont intervenues dans les classifications classiques des différentes stratégies de navigation, soit le type d’informations disponibles et leur cadre de référence. Nous débattrons de leur type d’apprentissage dans une section suivante. Les animaux utilisent les informations provenant de leur propre déplacement (informations idiothétiques) et des indices environnementaux (informations allothétiques) pour se localiser et retrouver un but. Elles sont utilisées de façon complémentaire par l’animal, comme le montrent les études manipulant respectivement les deux types d’informations (Stuchlik, 2002).
Informations idiothétiques
Les informations idiothétiques sont générées par l’animal lui-même et le renseignent sur son état interne pendant la navigation. Elles sont fournies par ses capteurs proprioceptifs, vesti-bulaires et kinesthésiques ou le flux optique (e.g., Watson, 1907; Barlow, 1964). Elles peuvent donc être présentes en dehors de tout indice environnemental particulier. Ces informations per-mettent à l’animal d’estimer son orientation et la distance parcourue par son mouvement propre (Etienne et Jeffery, 2004).
Informations allothétiques
Les informations allothétiques sont fournies par le milieu environnemental et consistent en des indices de différentes modalités sensorielles (visuelles, olfactives, auditives, etc., e.g., Lavenex et Schenk, 1998) qui renseignent l’animal sur l’état de l’environnement. Ce sont les indices visuels qui sont le plus fréquemment étudiés. Ces repères existent bien évidemment dans un environnement naturel, mais nous les classerons ici en fonction de leur disposition à l’intérieur ou à l’extérieur du dispositif expérimental.
Les amers proximaux. Ce sont des repères discrets qui sont disposés sur ou à côté du but et permettent à l’animal de s’en approcher et de tourner autour. Ils fournissent ainsi un aspect en 3D à l’animal (Save et al, 2008).
En fonction de la proximité du but, Gould et al (2010) distinguent :
(i) la balise (beacon) : lorsque l’amer est situé sur le but ; il suffit alors pour l’animal de s’en approcher pour atteindre le but.
(ii) l’amer proximal (à proprement parler) : lorsque l’indice est situé à une distance raison-nable du but (< 1 m). De par sa position, l’animal peut interagir avec l’amer (i.e., tourner autour de lui), et estimer sa position par rapport à lui.
La configuration géométrique du dispositif. Des amers discrets ne sont toutefois pas les seuls indices permettant de trouver le but. Certaines expériences ont mis en évidence la possibilité pour les animaux de repérer le but à l’aide de la géométrie du dispositif, en se basant prioritairement sur les différents angles aigus ou obtus de cet environnement, tout en excluant les propriétés non géométriques (couleur, luminosité, etc., Cheng, 1986).
Les bords du dispositif. D’autres expériences ont également mis en évidence l’importance des bords d’un dispositif, repères non discrets aussi, sans forcément que ces bords forment un modèle géométrique bien défini : par exemple, les parois circulaires de la piscine de Morris ne permettent pas explicitement de différencier les lieux (e.g., Hamilton et al, 2008).
Indices ne faisant pas partie du dispositif expérimental : les amers distaux.
Selon Gould et al (2010), les amers distaux peuvent être à plusieurs mètres et cet éloignement les rendent plus stables pour l’animal que les amers proximaux. Ce sont des indices qui sont dis-posés dans la pièce où se trouve le dispositif ou sur des rideaux qui entourent le dispositif et sur lesquels sont accrochés différents repères. Ils ne peuvent pas être approchés par l’animal et ne lui fournissent donc qu’un aspect en 2D (Save et al, 2008).
Il faut noter toutefois que la distinction entre indices situés dans et en dehors du dispositif ne correspond pas toujours très clairement avec la distinction entre amers proximaux et distaux. Par exemple, des amers situés sur la paroi d’une piscine de Morris ont un statut particulier : ils appartiennent au dispositif mais ne peuvent pas être contournés par l’animal (e.g., Chamizo et Rodrigo, 2004). Il en est de même pour la configuration géométrique.
Le cadre de référence de ces informations
Les informations idiothétiques et allothétiques utilisées par les animaux pour l’apprentissage spatial peuvent être encodées dans deux types de référentiels (Berthoz, 1991; Klatzky, 1998, Figure 2.2). Un référentiel est dit égocentrique lorsque l’animal est son propre point de référence. La position des objets de son environnement est donc estimée par rapport aux propres position et orientation de l’animal (e.g., à droite, devant, etc).
Un référentiel allocentrique, en revanche, nécessite de l’animal l’utilisation d’un système de coordonnées indépendant de sa position et de son orientation. Il s’ancre sur un objet ou une direction cardinale pour orienter ses mouvements.
Une même information, idiothétique ou allothétique, peut-être encodée dans un référentiel égo-centrique ou allocentrique (Burguière, 2006).
Les stratégies de navigation utilisant ces informations et cadres de référence
Nous avons choisi de distinguer dans cette section les stratégies avec lesquelles l’animal rejoint une position relative du but (lorsque le but est fixe et que le dispositif est déplacé, l’animal positionne le but à son emplacement supposé déplacé) et d’autres, avec lesquelles l’animal rejoint une position absolue du but (lorsque le but est fixe et que le dispositif est déplacé, l’animal positionne le but à son emplacement réel, Figure 2.3). Par simplification, nous nommerons les premières « stratégies de guidage » (bien que ce terme soit souvent associé à ce que nous nommons guidance dans le paragraphe suivant) et les secondes « stratégies de lieu ». D’autres choix de taxonomies sont disponibles dans la littérature (e.g., Trullier et al, 1997; Squire et al, 2004; Sutherland et Hamilton, 2004; Arleo et Rondi-Reig, 2007).
Stratégies de guidage, associées à la position relative d’un but
Praxis. La praxis est une stratégie égocentrée qui correspond à une suite ordonnée de mou-vements de l’animal exécutés sur la base de ses informations idiothétiques. Ces informations consistent en une estimation de la vitesse de déplacement et de rotation. Elles permettent à l’animal d’estimer la distance parcourue depuis le point de départ pour connaitre le prochain mouvement à effectuer. Une très ancienne expérience testant des rats sans vision, audition, odo-rat ni toucher dans un labyrinthe complexe, a prouvé qu’ils pouvaient réussir à retrouver de la nourriture (Watson, 1907). Le retour au nid (Maaswinkel et Whishaw, 1999, Figure 2.4 a) est un exemple de praxis, qui peut s’appuyer aussi sur des informations allothétiques : les ani-maux peuvent atteindre un but donné en suivant une trajectoire alambiquée (par exemple, en explorant l’environnement), mais reviennent à leur point de départ en ligne droite.
Cette stratégie a été citée aussi pour le parcours d’un T-Maze (Packard et McGaugh, 1996, Figure 2.4 b), où un rat apprenait à toujours réaliser le même virage. Après beaucoup d’essais, le rat continuait ce comportement, même en l’absence de but. Cependant il est possible que l’animal se soit fixé sur des éléments géométriques du dispositif (coins, etc.).
Taxon (approche d’objet). Lorsque le but est visible ou signalé par une balise ou un amer proximal, les rats peuvent effectuer une stratégie d’approche d’objet, qui consiste à s’orienter en direction du but par des informations allothétiques et d’avancer jusqu’à l’atteindre (Figure 2.5 a, Collett et al, 1986; Biegler et Morris, 1993; Redhead et al, 1997; Timberlake et al, 2007; Waller et Lippa, 2007). Lorsque l’amer n’est pas une balise, l’animal atteint le but par exploration. Cette stratégie est exécutée dans un référentiel égocentrique, l’animal ayant juste à estimer sa position par rapport au but.
Guidance (nommé souvent guidage). Lorsqu’un ou des amers se trouvent moins proches d’un but caché, mais que ce but est situé en relation constante avec une configuration de ces amers, il est possible pour l’animal de le repérer grâce à la relation qu’il tient avec ces amers. L’animal pourra mémoriser la vue locale d’alors – un snapshot – et se déplacer de manière à minimiser la différence entre la vue courante et celle du snapshot obtenu à proximité du but (e.g., Collett, 1992, chez les insectes). Il atteint le but sans recherche exploratoire. Cette vue est égocentrique : l’animal doit se retrouver avec la même orientation par rapport au but pour que les deux snapshots correspondent (Figure 2.5b).
Direction Dans les mêmes circonstances que précédemment, l’animal peut mémoriser la di-rection générale à prendre pour rejoindre un but non visible en fonction de la position d’un ou de plusieurs amers proximaux ou distaux. A l’inverse de la stratégie Taxon, il ne recherche pas le but autour de l’amer par exploration, mais l’atteint relativement précisément. C’est l’équipe d’Hamilton et al (2008) qui a mis l’accent sur cette stratégie, qui semble être fréquemment utili-sée par les rats. Pearce et al (1998) évoquent aussi la contribution d’informations idiothétiques, comme la notion de direction de la tête de l’animal (Heading vector). Elle serait utilisée dans un référentiel allocentrique. Ainsi l’animal apprend qu’un but est situé au nord d’un amer, ou à telle direction entre deux amers, quelle que soit son orientation (Pearce et al, 1998; Hamilton et al, 2008; Doeller et Burgess, 2008, Figure 2.5 c).
Stratégie géométrique et stratégie de bord. L’existence d’une stratégie de navigation basée sur la géométrie a été découverte par Cheng (1986). D’après Cheng (1986) et Gallistel (1990), l’animal extrait de la vision de l’environnement les informations purement géométriques, en excluant les autres informations (telles que couleur, luminosité, etc.). Ainsi l’emplacement du but est mémorisé par un petit nombre de paramètres, tels les principaux axes de l’environnement, et rejoindre le but consisterait à minimiser la différence entre les paramètres couramment extraits et ceux mémorisés.
Une stratégie encore mal investiguée, mais qui serait utilisée fréquemment, est celle qui consiste pour l’animal à positionner le but par rapport à une certaine distance des parois du dispositif (Hamilton et al, 2008). Elle s’appuierait donc sur des éléments non discrets du dispositif.
Stratégies de lieux, associées à la position absolue d’un but
Ces stratégies ont été établies par l’observation d’animaux capables de rejoindre un but caché situé dans un dispositif même lorsque celui-ci (mais pas le but) est déplacé.
Stratégie topologique. Contrairement à la stratégie Direction, une stratégie de lieu permet de localiser de façon absolue l’emplacement d’un but (i.e., par rapport à l’environnement général où se trouve l’animal) surtout grâce aux amers situés en dehors du dispositif (O’Keefe et Nadel, 1978). Cette stratégie est donc allocentrique.
L’animal pourrait acquérir une notion topologique de l’environnement, c’est-à-dire en ayant associé les transitions possibles entre différents lieux de l’environnement, sans pour autant avoir une notion précise de la distance entre ces lieux. Il pourra dans ce cas rejoindre le but par différents trajets, prendre des raccourcis ou contourner des obstacles par des chemins qu’il aura déjà explorés (e.g., Tolman, 1948; Morris, 1981).
Stratégie métrique. Une autre stratégie de lieu est une extension de la précédente, qui consiste à estimer la distance précise entre les lieux. Elle permettrait alors d’inférer des trajets nouveaux non encore explorés. Si cette stratégie a été avérée chez les humains et aussi chez les chiens (Chapuis, 1987; Thinus-Blanc, 1996), elle n’aurait pas encore été véritablement établie chez les rats (Poucet, 1993).
Stratégies de routes
Cette catégorie concerne les stratégies de guidage et de lieu, puisqu’il peut s’agir d’enchaî-nements séquentiels de stratégies de guidage ou de stratégies de lieu (Mittelstaedt et al, 1982; Rondi-Reig et al, 2006).
Deux conceptions de l’apprentissage spatial
Le débat déjà ancien (Skinner, 1938; Tolman, 1948) de la question de la nature de l’appren-tissage de ces stratégies est toujours vif aujourd’hui (e.g., Kelly et Gibson, 2007; Leising et Blaisdell, 2009). Il opposent les partisans de mécanismes d’acquisition ne se distinguant pas de ceux sous-tendant les conditionnements classiques et opérants, à d’autres, qui évoquent un ap-prentissage spécifique au domaine spatial, dont les mécanismes seraient différents des précédents. Les premiers émargent à la théorie dite associative, les seconds à la théorie dite cognitive map-ping, que nous nommons pour simplifier théorie cognitive. Le cas d’une conception consensuelle entre ces deux points de vue sera vue dans la prochaine section.
Théorie associative et apprentissage spatial
Une compétition entre les amers
Selon les partisans de cette théorie, l’apprentissage spatial serait sous la dépendance d’un seul type de mécanisme par lequel une nouvelle réponse est acquise par l’association d’un sti-mulus et d’une récompense (Hull, 1943). La caractéristique de cet apprentissage est qu’il se pratique incrémentalement, par essais et erreurs (Thorndike, 1911). Les mécanismes de ce type d’apprentissage ont été abondamment étudiés dans le cadre de conditionnements classique et opérant (Pavlov, 1927; Skinner, 1938; Watson, 1948). L’animal apprend donc, par exemple, l’em-placement d’un but en associant un amer (stimulus conditionné) avec le déplacement à effectuer (réponse) pour avoir une récompense.
Les mécanismes d’un tel apprentissage ont notamment été formalisés par Rescorla et Wagner (1972). La formulation mathématique de la règle correspondante sera développée plus précisé-ment dans le Chapitre 3. L’idée sous-tendant cette règle est que les stimuli peuvent acquérir une force de prédiction de la récompense. Cette force est partagée entre tous les stimuli, si bien que lorsque l’un d’eux devient plus prédictif que d’autres, ces derniers ne peuvent obtenir qu’une force de prédiction moins importante. Mackintosh (1975) nuancera toutefois cette vision en proposant plutôt que les associations entre stimuli sont indépendantes entre elles, mais que seule la plus forte d’entre elles est sélectionnée par un mécanisme d’attention pour diriger le comportement.
En d’autres termes, une des conséquences de cet apprentissage est que les différents stimuli ou groupes de stimuli disponibles dans l’environnement entrent en compétition pour contrôler le comportement de navigation de l’animal. Ceux qui ne sont pas favorisés par cette compétition ne vont pas contribuer à l’atteinte du but. Parmi les conséquences de cette compétition les plus étudiées sont les phénomènes dits de « blocage » (blocking) et d’ »occultation » (overshadowing) (Kamin, 1969; Mackintosh, 1975).
Le blocage peut apparaître lorsque des stimuli sont appris successivement. Le blocage d’un sti-mulus B par rapport à un stimulus A s’observe lorsque l’animal est entraîné avec un premier stimulus A conditionné, qui est suivi d’une récompense inattendue, puis en présence de A et B, toujours suivi d’une récompense. L’animal va alors apprendre la réponse conditionnée par rap-port à A, mais très peu, voire pas du tout, par rapport à B, ce que l’on peut tester avec une troisième étape en présence de B seulement, dans laquelle l’animal n’exprimera pas la réponse attendue (Figure 2.6 a).
L’occultation peut apparaître lorsque des stimuli sont appris simultanément. L’occultation du stimulus B par le stimulus A se produit lorsque les deux stimuli simultanément présents ne produisent pas la même association avec la réponse : le seul stimulus A, qui prédit mieux la récompense que B, prend le contrôle du comportement aux dépends du stimulus B. Si A est brusquement absent, la réponse ne peut être obtenue (Figure 2.6 b).
Expériences de navigation animale démontrant des effets « associatifs »
De nombreuses expériences comportementales soutiennent ces effets d’un apprentissage as-sociatif, nous ne citerons que quelques exemples.
Gradient de distance au but. Certaines expériences semblent démontrer que la force d’as-sociation entre un amer et la réponse de l’animal dépend de sa distance au but. Plus un amer est proche du but, plus il contrôle le comportement de l’animal.
Rodrigo et al (2006) comparent la valeur prédictive de deux amers, un distal situé en dehors d’une piscine de Morris et un proximal situé sur la plateforme cachée. Après un entraînement en présence des deux amers, l’amer proximal est déplacé successivement à des distances de plus en plus éloignées de l’amer distal. Les rats expriment un gradient d’occupation de la zone autour de la balise proportionnel à la distance entre les deux amers. Les auteurs constatent également que ce gradient ne concerne pas la zone proche de l’amer distal, qui n’est plus que très peu occupée pendant les déplacements de l’amer proximal, ce qui montre que la balise a été plus influente que l’amer distal (qui a donc été occulté).
Avec trois amers proximaux, un situé au-dessus de la plateforme et deux situés sur la paroi de la piscine – l’un étant plus près du but que l’autre–, Chamizo et Rodrigo (2004) montrent également qu’il y a une préférence graduelle croissante pour l’amer le plus proche du but. Redhead et Hamilton (2007) démontrent également que, dans une piscine de Morris virtuelle dans laquelle est située une plateforme fixe, les humains accordent une valeur associative hié-rarchiquement décroissante à une balise, à une configuration géométrique, puis à un amer distal (un mur coloré, cf. aussi Waller et Lippa, 2007).
Blocages et occultations entre amers de même type. Les phénomènes de blocages entre amers de même catégorie (entre amers proximaux ou entre amers distaux) sont curieusement les moins nombreux à avoir été étudiés. Stahlman et Blaisdell (2009) rapportent un cas de blocage d’un amer proximal par un autre (des formes colorées), dans un appareil constitué de coupelles où se trouve de la nourriture dans l’une d’entre elles. Ils ont facilement obtenu un blocage de l’un des amers, dans une procédure semblable à celle de la Figure 2.6 a.
Rodrigo et al (1997) et Biegler et Morris (1999) ont eu plus de difficulté à obtenir un blocage entre deux amers proximaux, ayant à réaliser un pré-entrainement en présence d’une configura-tion de plusieurs autres amers avant d’obtenir un blocage d’un nouvel amer, l’entraînement avec un seul n’ayant pas suffit.
Blocages et occultations entre amers proximaux et distaux. De nombreuses expé-riences montrent la capacité des indices proximaux à bloquer ou occulter les indices distaux. La première d’entre elle est celle de Chamizo et al (1983) qui montre un effet d’occultation entre un but visible et les amers distaux situés autour de la piscine de Morris. Redhead et al (1997) dé-montrent aussi que les amers distaux ne sont pas bloqués si les amers proximaux ne permettent pas de retrouver le but. Roberts et Pearce (1999) précisent les conditions dans lesquelles ce blocage intervient : diffé-rents groupes doivent apprendre à rejoindre un but, mais celui-ci sera déplacé plus ou moins rapidement, et un amer différent pourra lui être substitué dans certains groupes. Les résultats montrent que le blocage n’intervient que lorsque les amers distaux sont disqualifiés dès le début de l’expérience (e.g., lorsque la plateforme est déplacée tous les essais) et que l’amer est le même du début à la fin de l’expérience. Ils en déduisent alors qu’un processus attentionnel dirige les animaux vers l’amer proximal, les conduisant à progressivement ignorer les amers distaux. Les mêmes conclusions sont retrouvées par Timberlake et al (2007) qui observent un blocage de l’ap-prentissage des amers distaux par l’amer proximal lorsque ce dernier est situé sur la plateforme, tandis qu’il disparait lorsque l’amer proximal est situé à coté de la plateforme.
Pour Gibson et Shettleworth (2003), dans un labyrinthe « sec » (dry maze) et Gibson et Shettle-worth (2005), dans un labyrinthe radial, le blocage des amers distaux serait plutôt dû à l’ap-prentissage progressif d’une « non pertinence » de ces amers (learned irrelevance lorsque d’autres prédisent correctement un but.
Théorie cognitive et apprentissage spatial
Expériences de navigation animale démontrant des effets non « associatifs »
De nombreuses expériences indiquent donc qu’indéniablement certains amers gagnent par compétition une saillance particulière par rapport à d’autres, dans un apprentissage spatial. Cependant on a vu que ces effets sont parfois difficiles à obtenir. Dans quelques expériences ils ont même été impossibles à mettre en évidence.
Absences de blocage et d’occultation. Brown et Bowman (2002) ne trouvent pas d’occul-tation entre amers distaux et/ou proximaux dans une expérience où les rats sont uniquement entraînés avec des amers proximaux (des plots marqués parmi d’autres plots non marqués dans un labyrinthe « sec ») mais réussissent à retrouver la nourriture pendant des tests avec tous les plots non marqués. De même McGregor et al (2004a), lors d’une tentative de démonstration d’occultation par des amers distaux de deux amers proximaux déterminant un angle équilaté-ral avec la plateforme d’une piscine de Morris, n’ont pas réussi à empêcher les rats d’utiliser ces deux amers en l’absence des amers distaux. De nombreuses expériences démontrent égale-ment l’absence d’effets associatifs entre des amers discrets et la configuration géométrique du dispositif (pour une revue, Pearce, 2009).
Potentiation entre amers. Pearce (2009) reconnait que beaucoup de tentatives de son équipe à chercher des effets de blocage et d’occultation ont révélé plutôt des phénomènes de facilitation entre amers. Par exemple Pearce et al (2001), en étudiant les interactions entre un amer proximal et la forme de la piscine de Morris, ont démontré que l’apprentissage du but s’en trouve renforcé. L’équipe de Pearce a aussi prouvé par beaucoup de protocoles que la couleur des murs, avec la configuration géométrique, pouvaient faciliter l’apprentissage de la position de la plateforme dans une piscine de Morris (revue dans Pearce, 2009).
Une intégration d’amers
Des expériences historiques. Même si ces expériences ont été critiquées par la suite, Blod-gett (1929) et Tolman et Honzik (1930) ont émis l’hypothèse que les rats peuvent choisir sans essais et erreurs les trajets les plus performants dans un labyrinthe et qu’ils peuvent apprendre sans récompense particulière (par apprentissage « latent ») comment s’orienter dans un environ-nement. Lorsqu’un but y est disposé, ils peuvent en effet le rejoindre aussi rapidement, et sans essais préalables, que des animaux qui auraient pu pratiquer l’environnement avec récompense. Les caractéristiques de cet apprentissage sont donc à l’opposé de celles d’un apprentissage asso-ciatif.
Morris et al (1982) montrent de même la capacité des rats à retrouver rapidement dans une piscine circulaire la plateforme cachée, sur la seule présence d’amers distaux.
Ces expériences historiques ont ouvert la voie à l’hypothèse d’une représentation interne de l’environnement, supposée être acquise non incrémentalement, par apprentissage latent et être utilisée comme une carte pour choisir « mentalement » un trajet à exécuter pour rejoindre un but (e.g., Tolman, 1948).
L’apprentissage spatial ne se ferait pas dans ce cas par associations stimulus conditionné-réponse-récompense, mais par associations entre stimuli (S-S), i.e., tous les indices environne-mentaux. En d’autres termes, prenant l’exemple d’une piscine de Morris, l’animal n’aurait pas appris quel trajet il doit faire entre un certain amer et la plateforme, mais les caractéristiques des lieux, compte tenu de la configuration de stimuli environnante. Lorsqu’il positionnera pour la première fois la plateforme, le but s’intègrera à sa représentation – il n’aura donc pas be-soin d’entraînement par essais et erreurs – et il pourra la rejoindre de façon flexible par divers trajets. Cet apprentissage ne relève donc pas d’une « procédure », comme l’apprentissage asso-ciatif, il est dit « déclaratif » : l’animal a appris « quoi faire » et non « comment faire ». Tolman et Honzik (1930) supposaient que des contiguïtés spatiales de stimuli seraient à l’origine de cette association : lorsque l’animal perçoit un lieu, en se déplaçant il « s’attend » à percevoir un lieu voi-sin. De proche en proche, de vastes configurations topologiques se construisent pour représenter l’environnement.
Les caractéristiques d’un apprentissage spatial déclaratif.
Ce type d’apprentissage est dit flexible, parce qu’il est rapide. Quelques minutes suffisent pour qu’un rat ait une représentation spatiale relativement fiable de son environnement (Morris, 1981). Cela a été démontré expérimentalement par Steele et Morris (1999), qui ont mis en évidence le fait que les rats rejoignent, après un seul essai exploratoire, un but caché déplacé régulièrement tous les 4 essais. La représentation ayant été apprise indépendamment d’une récompense, ils n’ont donc pas besoin de réapprendre plus longuement un nouveau trajet vers le but.
Son cadre de référence est allocentrique, car l’animal peut rejoindre un but caché de n’importe quel point de départ.
Il est dit « cognitif », parce que l’animal semble pouvoir choisir entre plusieurs réponses possibles avant d’effectuer réellement le trajet vers le but. C’est ce qui correspond à la capacité de planification. Elle a été avancée par Tolman (1948) chez les rats, dans une expérience classique de détours. Dans un labyrinthe qui contient trois chemins possibles vers le but, chacun de longueur différente, des obstacles sont ajoutés, bloquant successivement les chemins les plus courts. Dès qu’un tel obstacle est rencontré, les rats entraînés choisissent rapidement le chemin le plus court restant. Cette capacité de détour, démontrée chez d’autres mammifères (Thinus-Blanc, 1996), se restreindrait chez les rats aux zones de l’environnement déjà explorées.
Il serait « coûteux ». En effet, Whishaw (1998) teste des rats dans un labyrinthe circulaire où se trouvent disposées 8 coupelles le long du mur et une ouverture vers leur nid. Dans chaque coupelle, une lourde boulette est disposée de façon à ce que les rats doivent la rapporter au nid. L’auteur démontre que certains rats utilisent une stratégie procédurale (au sortir du nid, ils parcourent circulairement et systématiquement les coupelles pour trouver la coupelle pleine) et d’autres vont tout droit vers une coupelle non encore explorée. Cette dernière stratégie est plus performante en terme de temps plus court passé hors du nid, mais est moins rapide que l’autre en terme de vitesse de locomotion. Les auteurs remarquent en effet que si le premier groupe va « au galop » chercher de la nourriture, les animaux du second s’arrêtent fréquemment « en inspectant l’environnement de leur tête », comme pour vérifier mentalement leur trajet. Ce temps de « réflexion » serait donc un coût attribué à une stratégie qui semble malgré tout plus optimale que la précédente, par exemple dans une situation de prédation.
Un appui par des bases neurobiologiques. L’existence chez les animaux d’une telle re-présentation mentale dite « carte cognitive » a suscité et suscite encore des controverses. Elle a été néanmoins confortée par la découverte de neurones sensibles à la position du rat dans son environnement, situés dans la région hippocampique (voir section 2.4) : les cellules de lieu hip-pocampiques, dont les activations sont corrélées à l’emplacement allocentrique de l’animal dans son environnement (O’Keefe et Nadel, 1978), seraient construites par intégration des amers en-vironnants et avec des informations idiothétiques (Sharp et al, 1995; Whishaw, 1998). Les amers seraient donc intégrés de manière non compétitive : si un amer est ajouté à l’ensemble après un premier apprentissage, il sera intégré aussi à la carte et ne sera pas bloqué (O’Keefe et Nadel, 1978; Poucet et Save, 2009).
Plus récemment, des cellules de direction de la tête – qui donnent une notion d’orientation –, et de grille – qui donnent une notion de distance–, découvertes dans des zones connectées à l’hippocampe, ont complété les bases neurobiologiques de la navigation chez le rat (Ranck, 1984; Taube et al, 1990; Hafting et al, 2005; Wiener et Taube, 2005).
|
Table des matières
I Problématique
1 Introduction
1.1 Cadre et objectif général
1.2 L’approche animat
1.3 La navigation autonome
1.3.1 Différentes stratégies, différentes structures nerveuses
1.3.2 Un débat ancien mais toujours vif
1.3.3 Contribution des modèles computationnels
1.4 Objectif spécifique de ce travail
1.4.1 Un modèle computationnel modulaire de sélection de stratégies
1.4.2 Cadre de son application
1.5 Plan du mémoire
II États de l’art
2 Données biologiques
2.1 Les différents types d’informations disponibles
2.1.1 Informations idiothétiques
2.1.2 Informations allothétiques
2.1.3 Le cadre de référence de ces informations
2.2 Les stratégies de navigation utilisant ces informations et cadres de référence
2.2.1 Exploration
2.2.2 Stratégies de guidage, associées à la position relative d’un but
2.2.3 Stratégies de lieux, associées à la position absolue d’un but
2.2.4 Stratégies de routes
2.3 Deux conceptions de l’apprentissage spatial
2.3.1 Théorie associative et apprentissage spatial
2.3.2 Théorie cognitive et apprentissage spatial
2.4 Un apprentissage spatial dépendant de systèmes neuraux distincts
2.4.1 Des changements de stratégies.
2.4.2 Des fonctions différentes entre systèmes neuraux.
2.5 Interactions entre systèmes neuraux
2.5.1 Systèmes neuraux apprenant en parallèle, mais pas indépendants
2.5.2 Sélection entre systèmes
2.5.3 Nature compétitive et coopérative des interactions
2.6 Conclusion du chapitre
3 Modèles computationnels
3.1 Modèles d’interactions entre amers
3.1.1 Règle de Rescorla-Wagner (Rescorla et Wagner, 1972)
3.1.2 L’hypothèse du comparateur (Miller et Matzel, 1988)
3.1.3 Règle de sélection bayésienne
3.1.4 Avantages et limites des modèles d’interactions entre amers
3.2 Modèles de systèmes parallèles
3.2.1 Les différents apprentissages mis en oeuvre
3.2.2 Modélisation computationnelle des stratégies
3.2.3 Modèles de sélection entre stratégies
3.2.4 Avantages et limites des modèles de sélection de stratégies
3.3 Conclusion du chapitre : vers un nouveau modèle de sélection de stratégies de navigation
III Méthode
4 Description du modèle
4.1 Codage des experts
4.1.1 Deux experts de guidage procéduraux : les experts Taxon et Direction .
4.1.2 Un expert de lieu procédural : l’expert Local
4.1.3 Un expert de lieu « déclaratif » : l’expert Planification
4.1.4 Expert Exploration
4.1.5 Apprentissages réciproques des stratégies
4.2 Module de sélection des experts
4.2.1 Critère de sélection
4.2.2 Modularité de la sélection
4.3 Analyse des données
IV Résultats : Simulations de l’influence d’amers proximaux et/ou distaux sur l’apprentissage spatial
5 Présence d’un seul type d’amer
5.1 Présence des seuls amers proximaux
5.1.1 But visible fixe ou balisé (EXP1)
5.1.2 Un seul amer à côté d’un but invisible (EXP2)
5.1.3 Présence de deux amers à côté du but (McGregor et al, 2004a)
5.1.4 Bilan de la présence des seuls amers proximaux
5.2 Présence des seuls amers distaux
5.2.1 But invisible et fixe : expérience inspirée de celle de Morris et al (1982) .
5.2.2 But invisible déplacé : expérience inspirée de celle de Steele et Morris (1999)
5.2.3 Bilan de la présence des seuls amers distaux
5.3 Conclusion du chapitre
6 Interactions entre amers proximaux ou/et distaux
6.1 Effet de gradient associatif du à la distance entre un amer proximal et un amer distal (Rodrigo et al, 2006)
6.1.1 Protocole et résultats observés
6.1.2 Protocole et résultats simulés
6.1.3 Discussion partielle
6.2 Effet de blocage d’amers distaux par un amer proximal dans l’expérience de Roberts et Pearce (1999)
6.2.1 Protocole et résultats observés
6.2.2 Protocole et résultats simulés
6.2.3 Discussion partielle
6.3 Absence d’occultation d’amers proximaux par les amers distaux (McGregor et al, 2004a)
6.3.1 Protocole et résultats observés
6.3.2 Protocole et résultats simulés
6.3.3 Discussion partielle
6.4 Conclusion du chapitre
7 Interactions entre systèmes de guidage et de lieu en situations de conflit
7.1 Compétition ponctuelle (Devan et White, 1999)
7.1.1 Protocole et résultats observés
7.1.2 Protocole et résultats simulés
7.1.3 Discussion partielle
7.2 Compétition graduelle (Pearce et al, 1998)
7.2.1 Protocole et résultats observés
7.2.2 Protocole et résultats simulés
7.2.3 Discussion partielle
7.3 Conclusion du chapitre
V Discussion et conclusion
8 Discussion générale
8.1 Principes essentiels de l’architecture du modèle
8.2 Contribution des principes de la modélisation aux résultats acquis
8.2.1 Des experts variés et complémentaires
8.2.2 Apprentissages réciproques
8.2.3 Sélection associative adaptative
8.3 Contributions du modèle aux hypothèses relatives à l’apprentissage spatial
8.3.1 Apports généraux
8.3.2 Apports plus spécifiques du modèle pour les protocoles reproduits
8.4 Eléments limitants du modèle
8.4.1 Traitement sensoriel des amers
8.4.2 Mécanismes d’apprentissage simplifiés
8.4.3 Contraintes dans le réseau de sélection
8.5 Assignation de structures nerveuses aux experts et au module de sélection
8.6 Bilan : le modèle comme outil d’analyse et de prédiction
9 Conclusion et Perspectives
9.1 De Rattus rattus…
9.2 … à Psikharpax
VI Annexes
A Table des figures
B Paramètres du modèle
B.1 Paramètres modifiés selon ces expériences
B.1.1 Morris et al (1982)
B.1.2 Roberts et Pearce (1999)
B.1.3 Devan et White (1999)
B.1.4 Pearce et al (1998)
C Expérience de Morris et al (1982)
D Interactions entre amers proximaux ou/et distaux
D.1 Rodrigo et al (2006)
D.2 Expérience de Roberts et Pearce (1999)
D.2.1 Groupes avec Taxon
D.2.2 Groupe DL-sep
E Interactions entre systèmes de guidage et de lieu en situation de conflit
E.1 Expérience de Devan et White (1999)
E.2 Expérience de Pearce et al (1998)
F Expériences supplémentaires
F.1 Expérience de Chamizo et Rodrigo (2004) : limitation des stratégies de guidage
F.2 Expert Parois
F.3 Expérience de Hamilton et al (2008)
Références
Télécharger le rapport complet