Dopamine, erreur de prédiction de la récompense et apprentissage

Apprentissage par renforcement

L’apprentissage par renforcement est une classe de problèmes d’apprentissage automatique. Les algorithmes d’apprentissage par renforcement résolvent ce problème par une suite d’essais et erreurs afin de maximiser une fonction de récompense (qui est souvent définie comme la somme de récompenses accumulées sur le long-terme).

Le problème des Processus de décision Markovien (MDP)

Les problèmes que résolvent les algorithmes d’apprentissage par renforcement sont définis par les processus de décision markoviens. Ils permettent de modéliser un contexte où un agent doit apprendre à choisir l’action qui lui rapportera le plus, au sens d’une fonction de récompense, en fonction de son état courant. Son action le fera alors changer d’état et il devra donc de manière séquentielle résoudre le problème afin d’obtenir la meilleure récompense possible. Un état peut par exemple être une position dans un labyrinthe et la récompense de l’agent se situe à un endroit donné de ce labyrinthe. Pour trouver les déplacements – les actions – à effectuer afin de s’approcher de la récompense, l’agent apprendra la relation entre sa position et le déplacement à faire. Ce faisant, l’agent aura appris à associer pour chaque état une action qu’il devra effectuer pour espérer obtenir une récompense.

Les MDP sont définis par cinq éléments (Sigaud et Buffet 2008) :
– l’espace d’état S, qui représente dans notre exemple l’ensemble des positions de notre labyrinthe
– l’espace des actions A, l’ensemble des directions que l’on peut prendre
– l’axe temporel T .
– une mesure de probabilité p() sur l’ensemble de nos transitions entre états nous donnant pour tout triplet état st , état st+1 et actions at: p(st+1|st , at). C’est-à-dire la probabilité d’arriver à l’état st+1 au temps t + 1 sachant que l’on est en st et que l’on fait l’action at . p() donne en quelque sorte un modèle topologique de l’environnement : quels états sont connectés entre eux et par quelle action. Notons que selon le type d’algorithme étudié, l’agent apprendra ou négligera ce modèle de l’environnement.
– une fonction de récompense r(), qui associe à chaque transition, (st , st+1), une valeur représentant la récompense.

Les MDP reposent sur l’hypothèse de Markov qui considère que ce qui s’est passé avant l’état courant n’influence pas les futures décisions ou transitions. Dans le cas du labyrinthe, on comprend facilement que cette hypothèse se vérifie : le fait que je sois à une position donnée à un instant t détermine à lui seul le choix, l’action à faire pour aller à la sortie. Le fait que je provienne d’un endroit ou d’un autre ne change pas la solution de mon problème. On peut également considérer une fonction de transition non stochastique T : S ×A → S, qui pour tout couple (état, action) associe l’état d’arrivée. De même la fonction de récompense peut être réduite à une fonction de S dans R. La récompense survient lorsque l’on atteint un état quelque soit l’état précédent.

Le but des algorithmes d’apprentissage par renforcement est de résoudre les MDP. C’est-à-dire de trouver quelle action faire dans un état donné pour maximiser la fonction de récompense. Cette association entre état et action est appelée politique ou stratégie. La politique est donc une fonction qui associe à tout état une action : π : s ∈ S → π(∫ ) ∈ A.

On cherche, à partir d’une mesure de performance une politique π ∗ qui maximisera cette mesure. Plusieurs mesures de performance existent mais celle que nous utiliserons est le critère γ-pondéré qui définit la performance comme l’espérance de la somme des récompenses futures. Le facteur γ sert à donner plus ou moins d’importance aux récompenses éloignées dans le temps, il est compris entre 0 et 1.

Plus le facteur γ sera petit, moins les récompenses éloignées dans le temps seront importantes dans la décision. On aura ainsi un agent impulsif qui choisira systématiquement les récompenses immédiates. Avec un γ grand, proche de 1, on aura un agent capable de choisir une action lui permettant d’obtenir plus tard une récompense plus grande, plutôt qu’une petite récompense immédiate. Ce paramètre influence donc grandement le comportement de l’agent apprenant.

Algorithme d’apprentissage par différence temporelle

Certains algorithmes résolvent ce problème par une suite d’essais/erreurs. Ils mettent en continu à jour leur fonction de valeur à l’aide d’erreurs de prédictions de la récompense au cours des essais (voir Figure 2.2). À partir de ces fonctions de valeurs, ces algorithmes construisent une politique permettant de maximiser la récompense à long terme (dépendant du facteur γ comme indiqué précédemment). Ces algorithmes se basent donc sur une erreur de prédiction de la récompense ici définie comme l’erreur de différence temporelle (TD error), dont le calcul varie en fonction du type d’algorithme utilisé. Trois algorithmes principaux sont étudiés dans cette thèse : Q-learning, Sarsa et Actor-Critic. Les algorithmes d’apprentissage par renforcement Q-learning et Sarsa reposent tous deux sur le même principe. Ils tiennent à jour une table de valeurs Q qui pour chaque couple (état, action) (noté (s, a)), associe une valeur représentant l’intérêt de choisir l’action a en étant dans l’état s, c’est-à-dire l’espérance de récompense. L’architecture Actor-Critic tient à jour en parallèle un critique, qui apprend à estimer la fonction de valeur V en associant à chaque état une valeur, et un acteur qui apprend une politique, P associant à tout couple (état,action) (noté (s, a)), la probabilité de choisir l’action a sachant que l’on est dans l’état s (i.e. P(a|s)).

Dopamine et erreur de prédiction de la récompense

La dopamine est aujourd’hui largement considérée comme un signal d’apprentissage encodant une erreur de prédiction de la récompense (RPE), telle que celle utilisée par les algorithmes d’apprentissage par renforcement temporel. Cette hypothèse repose sur le schéma de réponse de l’activité phasique de la dopamine à la récompense et au stimuli prédisant cette récompense. Les neurones dopaminergiques répondent aux récompenses inattendues en début d’apprentissage, ne répondent plus aux récompenses attendues en fin d’apprentissage, et répondent aux stimuli prédisant la récompense après apprentissage. L’hypothèse de RPE repose principalement sur le transfert de l’activité dopaminergique du moment de la récompense en début de conditionnement au moment du stimulus prédisant la récompense. Nous allons dans cette partie décrire les résultats soutenant cette hypothèse.

Schultz et collègues

Les travaux de Schultz et collègues durant les années 90 (Hollerman et Schultz 1998; Ljungberg et al. 1992 ; Mirenowicz et Schultz 1994 ; Schultz 1998 ; Schultz et al. 1993 ; Schultz et al. 1997 ; Waelti et al. 2001), ont permis de mettre en évidence le lien entre l’information portée par l’activité des neurones dopaminergiques et le signal d’erreur calculé par les algorithmes d’apprentissage par renforcement et plus particulièrement par les algorithmes de différence temporelle (TD) présentés précédemment (voir Figure 2.3). Ce signal joue un rôle central dans l’apprentissage et le système dopaminergique est supposé guider la sélection de l’action faite dans les ganglions de la base (Mink 1996 ; Redgrave et al. 1999b ; voir Chapitre 3), en  reportant un signal de retour basé sur la différence entre la valeur attendue et la valeur perçue. Cette information de retour peut permettre de mettre à jour la connectivité du striatum afin de permettre l’encodage de la valeur des actions en compétition (Samejima et al. 2005).

Les travaux de Schultz et collègues reposent en majorité sur un même protocole expérimental : un singe est assis devant deux leviers, l’un est associé à la récompense et l’autre à aucune récompense. Après qu’un stimulus visuel a été présenté, le singe doit appuyer sur le levier gauche afin d’obtenir la récompense sous forme de jus de fruits. Si le singe appuie sur le levier de droite, aucune récompense ne lui est délivrée. Les chercheurs ont enregistré les cellules dopaminergiques à différents moments du conditionnement dans ce protocole expérimental. Ils ont observé qu’en début de conditionnement, lorsque le singe a un comportement encore exploratoire sur les deux leviers, les neurones dopaminergiques présentaient une excitation phasique  au moment de la récompense (voir Figure 2.3 haut). Cette réponse phasique des neurones dopaminergiques à la récompense a initialement mené à l’hypothèse que la dopamine encode le plaisir associé à la récompense (Wise 1985). Cependant, après que le singe a appris le comportement adapté à la tâche, se concentrant sur l’unique levier associé à la récompense, cette excitation phasique disparaît au moment de la récompense pour apparaître au moment où l’animal perçoit le stimulus prédicteur de la récompense, alors que le plaisir et la motivation de l’animal liés à la récompense sont établis comme toujours présents (voir Figure 2.3 milieu). L’hypothèse proposée est donc que les neurones dopaminergiques répondent aux récompenses non conditionnées (US) inattendues, ne répondent pas aux récompenses prédites mais transfèrent leur réponse au moment où la présentation d’un stimulus conditionné CS) saillant (lui-même inattendu) permet d’anticiper l’arrivée de la récompense. Ceci conduit à un transfert de la réponse phasique dopaminergique de l’US au CS au cours de l’apprentissage de la tâche. Ce transfert d’activité est comparable à l’apparition de salivation chez le chien de Pavlov. Sans conditionnement, le stimulus n’est pas prédictif et l’animal ne salive pas. Lorsque l’animal a appris la contingence entre le stimulus (CS) et la récompense (US), au moment où l’animal perçoit le CS il se met à saliver par anticipation de la récompense.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1.1 Contexte scientifique général
1.2 Motivations
1.3 Organisation de la thèse
2 Dopamine, erreur de prédiction de la récompense et apprentissage
2.1 Introduction
2.2 Apprentissage par renforcement
2.3 Dopamine et erreur de prédiction de la récompense
2.4 Les multiples signaux dopaminergiques en réponse à la punition
2.5 Dopamine, salience et comportement
2.6 Conclusion
3 Les ganglions de la base
3.1 Introduction
3.2 Les noyaux des ganglions de la base
3.3 Ganglions de la base : sélection et contrôle comportemental
3.4 Architecture interne des ganglions de la base et dopamine
3.5 Modèles computationnels
4 Les neurones dopaminergiques n’encodent pas un pur signal de RPE.
4.1 Introduction
4.2 Méthode
4.3 Résultats
4.4 Discussion
5 rBCBG : Un modèle réduit du BCBG pour la sélection de l’action
5.1 Introduction
5.2 Méthode
5.3 Résultats
5.4 Discussion
6 Modélisation du rôle de la dopamine dans l’apprentissage dans les ganglions de la base
6.1 Introduction
6.2 Méthode
6.3 Résultats
6.4 Discussion
7 Conclusions

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *