Télécharger le fichier pdf d’un mémoire de fin d’études
Problématique de l’apprentissage par renforce-ment
L’idée d’apprendre par interaction avec l’environnement est une des premières idées à apparaître lorsque l’on aborde la question de l’apprentissage. Un enfant apprenant des gestes de la vie quotidienne n’apprend pas grâce à la présence d’un enseignant, mais bien grâce à son interaction avec l’environnement. L’AR est un des formalismes qui permet à des agents d’apprendre justement de leurs interactions avec leur environnement en forme de suites d’actions. Comme défini dans Sutton et Barto 1998, l’AR permet d’apprendre par essai-erreur les actions adéquates dans un environnement précis dans le but de maximiser un critère de récompense. Ceci mène à des questionnements centraux que l’on peut résumer ainsi :
1. Est-il plus efficace pour l’agent de choisir l’action la plus récompensante à un temps donné parmi les actions déjà choisies auparavant ou bien de choisir une nouvelle action (i.e. explore) dans le but de trouver une nouvelle action plus récompen-sante ? On parle ici de compromis exploration/exploitation qui se pose dés lors que l’agent apprend par interaction directe avec son environnement (online) plutôt que d’expériences pré-acquises (offline) ?
2. La récompense est-elle obtenue directement après interaction avec l’environnement (single-step ou tâches bandit manchot en référence aux machines à sous) ou bien après une longue séquence (multi-step) ?
3. Dans le cas d’une tâche multi-step, est-il préférable de mémoriser les transitions et les fonctions récompenses (on parle de modèle indirect où l’apprentissage se fait sur un modèle de la tâche qui peut être efficace mais coûteux en temps de calcul), ou bien est il préférable d’évaluer par expérimentation directe (on parle d’appren-tissage direct ou l’agent apprend par interaction directe avec l’environnement sans passer par un modèle) ?
4. Enfin, en plus de la récompense, peut-on également considérer le coût computation-nel de façon à forcer l’agent à apprendre en tenant compte d’un budget explicite qui limitera par exemple le nombre d’actions disponibles à l’agent avant d’atteindre la récompense, ou qui limitera le nombre d’accès à des senseurs pour un robot ou encore limiter le temps de calcul ce qui n’autorisera pas l’agent à explorer tout l’environnement.
Problèmes du bandit manchot
Ce qui diffère entre l’AR et l’apprentissage classique, est le fait que le feedback est ”évaluatif” et ne fait qu’indiquer la performance d’une action (i.e bonne ou mauvaise), contrairement à l’apprentissage ”instructif” qui lui donne l’information que l’action soit à son tour influencera son environnement, qui lui-même retournera un nouvel état st+1 retour-nant potentiellement une récompense, ce qui améliorera la politique au temps suivant.Sutton et A 1998 la meilleure ou la pire dans un cas donné. Le cas instructif donne la bonne action sans prendre en compte l’historique des actions passées ni de l’expérience de l’agent apprenant, à l’inverse de l’apprentissage purement évaluatif qui apprend selon l’expérience subie par l’agent apprenant et dépend entièrement de sont interaction avec son environnement. Dans le cadre évaluatif de l’apprentissage il existe une partie qui est non associative et qui n’apprend pas de l’expérience mais apprend tout de même de l’interaction avec l’en-vironnement, que l’on nomme le problème de bandit manchot (du nom du jeu de hasard qui est la machine à sous). Dans notre travail nous nous intéressons particulièrement au cas du multi-armed bandit.
Le problème du multi armed bandit consiste à maximiser une récompense attendue en faisant face à plusieurs choix récompensants mais de probabilités différentes de distribu-tion de la récompense. Les solutions sont multiples pour résoudre ce type de problèmes dont la majorité consiste à estimer la moyenne de la récompense pour chaque levier et de choisir le levier avec la moyenne la plus grande pour maximiser sa récompense. Or ce type d’approches n’est d’aucune utilité dans le cadre d’un problème bandit non stationnaire (dont la distribution de probabilités change au cours du temps). Dans ce dernier cas il est sensé de considérer les récompenses récentes comme étant plus importantes que les récompenses passées.
Effectivement de cette manière le modèle favorise une certaine exploration de l’envi-ronnement qui dépendra de la façon dont la récompense est perçue. Par exemple, si nous considérons Qt(a) comme étant l’estimation de la récompense moyenne de l’action a au temps t, au temps t + 1, l’estimation devient : Qt+1(a) = Qt(a) + α [Rt − Qt] (2.1). où Rt est la moyenne de la récompense cumulée depuis le début de l’expérience et α est un paramètre de taille de mémoire. De cette façon Qt+1(a) devient une moyenne pondérée des récompenses passées. L’utilité réelle de cette exploration est dans le fait que les estimations des valeurs des actions sont incertaines. Les actions considérées comme meilleures sont celles qui semblent les meilleures à ce temps précis, or il est possible qu’une des autres actions soit meilleure. Quand on considère la problématique non stationnaire du bandit manchot, il est donc important de garder une information prenant en compte l’incertitude des actions. Dans cette optique des algorithmes appelés Upper Confidence Bound (UCB) ont été proposés de façon à prendre en compte à quel point l’estimation est proche du maximum et les incertitudes de cette estimation. Une façon de faire connue comme UCB-1 (2.2) est de sélectionner l’action de cette manière : At = argmaxa [Qt(a) + ρ√ logt ] (2.2).
où Nt(a) est le nombre de fois où l’action a a été exécutée avant l’instant t et ρ une constante qui contrôle le degrés de l’exploration. Le second terme de l’équation 2.2 est considéré comme une mesure de la variance de l’estimation de l’action a.
D’autres variantes de cet algorithme sont apportées de façon à donner une plus grande importance aux récompenses récentes. Le Discounted Upper Confidence Bound (D-UCB) est proposé par Kocsis et Szepesvári 2006 où les politiques de sélection de l’UCB-1 sont augmentés avec un facteur d’atténuation qui donnera donc une importance plus grande aux nouvelles observations et oubliera les récompenses passées au fur et à mesure des ex-périences. D’une autre façon dans les travaux de Moulines 2008, les auteurs proposent une manière plus abrupte de valoriser les récompenses les plus récentes en introduisant une fenêtre glissante (version appelée Sliding Window Upper Confidence Bound, SW-UCB), qui, au lieu d’atténuer les récompenses sur tout le temps de la tâche, considérera la moyenne empirique de la récompense sur une fenêtre de taille τ sur les dernières expé-riences observées. Les trois variantes présentées ici sont implémentées telles quelles dans une tâche comportementale en neuroscience décrite dans le chapitre 5 pour tester si ces algorithmes sont pertinents pour expliquer l’adaptation comportementale chez l’animal en environnement incertain et non-stationnaire.
Processus de décisions markoviens
Les bandits manchots présentés précédemment sont pertinents dans les tâches impli-quant des choix répétés parmi N actions dans une même situation de la tâche qu’on pourrait nommer un seul et même état du monde. Or dans le cas général, les agents peuvent faire des actions qui les amènent dans d’autres états de la tâche où ils auront à choisir parmi d’autres actions. La récompense peut alors n’être délivrée qu’après une séquence d’actions. Les méthodes pertinentes sont alors regroupées dans le formalisme dit de l’apprentissage par renforcement (Sutton et A 1998). Le problème de l’AR est généra-lement formalisé dans le cadre d’un Processus de Décision Markovien (MDP, Kaelbling et al. 1998). Un MDP est défini avec un n-uplet < S, A, T, R > où :
— S est un espace d’états définissant les différentes observations que l’agent peut faire de son environnement.
— A est l’ensemble des actions pour faire évoluer l’agent dans l’environnement.
— T est la fonction de transition décrivant les états d’arrivées données les états de départ et les action effectuées. Cette fonction peut être décrite formellement par T : S × A × S → [0, 1], ce qui représente les probabilités de passer d’un état à un autre grâce aux action A.
— R est la fonction de récompense qui décrit les récompenses obtenues dans les états S. Elles peuvent aussi être associées aux transition T . Cette fonction est décrite par R : S → R si l’obtention de la récompense est associée à un état ou R : S ×A → R si elle est associée à une transition. Cette récompense peut être négative ou posi-tive. Dans le cas général la fonction T est inconnue et l’agent doit donc l’apprendre (apprentissage indirect) soit l’approximer par essai-erreur (apprentissage direct)
A ce processus définissant un MDP nous ajouterons une fonction de politique, notée π, qui décrira le modèle du comportement de l’agent dans l’environnement en définissant les probabilités de choisir telle ou telle action dans les différents états de l’environnement de la part de l’agent. Cette fonction est définie par π : S → A si la politique est déterministe et π : S × A → [0, 1] si elle est définie stochastique. La fonction π choisis les actions appliquées à l’environnement et de ce fait joue un rôle dans les fonctions de transition et de récompense.
Dans les cas les plus simples, les ensembles S et T sont représentés par des description simples et ponctuelles du problème modélisé. Par exemple, dans le cadre d’une modéli-sation en neurosciences, ces représentations sont souvent données à priori à l’agent : un état représente un stimulus (son, lumière, …) et une action représente une réponse com-portementale (pression de levier, avancer, tourner etc …). D’autres travaux mettent en valeur l’apprentissage de représentation comme un moyen plus subtil de représenter les états et les actions, en permettant à un modèle de créer ses propres représentations de l’environnement (Droniou 2015).
Compromis exploration/exploitation et sélection de l’ac-tion
Dans ce qui a été présenté précédemment, le calcul de la politique et de la sélection de l’action à faire à l’état s est en général déterministe, en prenant l’action a qui maximise le retour. Lorsque le MDP est entièrement connu, cette pratique garantit de trouver la politique optimale, mais quand le MDP est estimé ou que l’on s’appuie sur des méthodes directes, ce n’est plus le cas. En effet, les connaissances de l’agent sont formées par l’expé-rience de ses interactions avec l’environnement, et ne représentent donc potentiellement qu’un sous-espace du problème.
Dans ce cas, l’agent a parfois intérêt à choisir non pas l’action qui semble optimale a∗ mais une action à priori sous-optimale qui lui permettra d’affiner sa connaissance du pro-blème. On parle alors de ”compromis exploration/exploitation”. Cette variabilité dans le choix est d’autant plus importante si l’agent est confronté à un problème non-stationnaire, dont la structure peut évoluer au cours du temps, et pour lequel ses connaissances passées (modèle comme fonction de valeur) deviennent fausses.
Répondre à ce compromis revient à sélectionner stochastiquement l’action que l’agent effectue dans un état donné. Une écriture plus générale d’une prise de décision stochastique est la règle de sélection ϵ-greedy, décrite par : action aléatoire, si X ϵ a = {argmaxaQ(s, a), sinon≤ (2.17).
où ϵ est une probabilité faible et X une variable aléatoire suivant une loi uniforme sur [0, 1]. Le problème de cette méthode est qu’elle choisit de manière équiprobable lorsque l’agent explore. Une action connue comme de faible valeur (parce qu’elle amène vers des récompenses négatives, par exemple) pourra autant être sélectionnée qu’une action inconnue mais potentiellement informative. Afin de prendre en compte l’estimation de la valeur des actions connues par l’agent tout en conservant la possibilité d’explorer, la règle de sélection softmax transforme la distribution des valeurs en une distribution de probabilités P à l’aide d’une exponentielle normalisée ou fonction softmax : b∈A exp(Q(s, b)/τ) P (a|s) = ∑ exp(Q(s, a)/τ) (2.18).
τ étant la température de sélection : plus sa valeur est faible, plus l’agent tend à sé-lectionner l’action qu’il pense optimale, plus elle est grande, plus l’action sera choisie selon une distribution quasi-uniforme. On peut également voir τ comme un réglage de la sensibilité de la sélection au contraste des valeurs d’actions. La plupart des travaux considèrent des températures fixes mais certains travaux se sont intéressés à l’évolution dynamique de la température (Khamassi et al. 2011, Aklil et al. 2014, Tokic 2010, Ci-notti et al. 2017) ainsi que d’autres paramètres (Schweighofer et Doya 2003) comme le taux d’apprentissage. Effectivement, dans ces travaux, il est observé que la modulation des paramètres d’exploration ou des paramètres d’apprentissage permettent une amélio-ration des performances de ces algorithmes, reproduisant ainsi de manière plus fidèles des comportements observés dans le cadre de la modélisation de tâches en neurosciences comportementales. Cette approche qui consiste à contrôler le compromis entre explora-tion et exploitation est le cœur des algorithmes de bandit manchots décrits au début de ce chapitre, mais n’ont qu’un apport très vague à la littérature de la modélisation en neurosciences, surtout que les algorithmes d’AR ont un lien très fort avec l’apprentissage observé dans les études de modélisation en neuroscience .
Perceptron et réseaux feedforward
Le premier algorithme d’apprentissage à base de réseaux de neurones s’inspirant de l’apprentissage hebbien appelé perceptron a été proposé par Frank Rosenblatt dans Ro-senblatt 1958, à ceci prés que la différence post-synaptique est remplacée par l’erreur entre l’activité post-synaptique souhaitée y et celle obtenue en sortie de réseau yˆ. L’appren-tissage se fait par comparaison d’une sortie post-synaptique souhaitée y et celle obtenue en sortie yˆ : ∆wi ∝ (y − yˆ)xi (3.2).
Des architectures plus complexes permettant de classifier des données non linéairement séparables ont ensuite fait leur apparition. Ces réseaux de neurones plus complexes ont une architecture qui empile plusieurs couches à la suite avant de prédire la sortie yˆ.
A partir de ce classifieur linéaire, la complexité croissante des données ont montré les limites du perceptron. Les chercheurs ont pallié à ce problème en complexifiant les archi-tectures des modèles en empilant des couches de neurones en plus d’un nombre croissant de neurones par couches. On obtient dès lors un perceptron multi-couches (3.3). Ce qui permet d’avoir des partitions plus complexes de l’espace et de ce fait classifier des données non linéairement séparables.
Ce type d’algorithmes est entraîné par rétro propagation de gradient (Werbos 1975 ; Parker et al. 1985 ; Le Cun 1986). Ce principe d’apprentissage consiste à minimiser une erreur de prédiction entre une sortie prédite que l’on notera yˆ et une sortie désirée notée y, on prendra donc un critère de comparaison que l’on notera E(D, Θ) où D est l’ensemble des données et Θ sont les paramètres du réseau. Ce critère est en général défini comme une marge simple ou une marge carrée. Il s’agit donc de trouver les paramètres Θ qui minimisent E tel que : Θ = argminE(D, Θ) (3.3).
Dans ce qui suit nous noterons la matrice de poids entre la couche i et j par Wi,j et la résultante hi tel que hi = σ(Wi−1,i.hi−1) et yˆ = f(x, Θ) où f est la fonction composée f(x, Θ) = hn ◦hn−1 ◦…◦h1(x) qui correspond à l’ensemble des transformations de x à tra-vers le réseau avec les paramètres Θ. En dérivant le critère E respectivement aux poids W nous minimiserons le critère par descente de gradient en utilisant un taux d’apprentissage α : ∆Wi,j = −α ∂E (3.4).
On peut calculer le gradient pour l’erreur sur tout l’ensemble des données d’appren-tissage D qu’on appellera apprentissage batch, ou pour chaque donnée séparément qu’on appellera apprentissage online ou bien de façon intermédiaire que l’on appellera appren-tissage par mini batch qui consiste à créer des sous ensembles de l’ensemble total d’ap-prentissage.
Active learning
Il existe un large spectre dans la littérature sur l’apprentissage actif pour de la clas-sification budgétisée (Greiner et al. 2002, Kapoor et Greiner 2005). Ces approches modélisent l’apprentissage avec un PAC-based learner (PAC pour Probably Approximately Correct), et ainsi être capable de trouver un classifieur actif qui trouverait un équilibre entre éviter des caractéristiques coûteuses tout en prenant en compte leur impact positif attendu sur la classification.
Greiner et al. 2002 est l’un des premiers à avoir introduit les classifieurs actifs sen-sibles au coût : des classifieurs qui peuvent demander certaines caractéristiques plutôt que d’autres durant le processus de classification, avec un budget sur ces caractéristiques. Ce travail considère le cas d’un classifieur centré sur une table de consultation avec des données représentées en binaire. Les auteurs concluent qu’apprendre un classifieur exact et optimal dans ce type de tâches est généralement intraitable. Ce travail est très centré sur des appreneurs PAC et n’est pas implémenté dans un quelconque système. Les au-teurs évoquent aussi la similarité de cette approche de problèmes formalisés sous forme de MDP mais ne développent pas le lien entre leur méthode et une approche RL complète. Globalement ce travail est intéressant car il introduit la problématique mais ne donne pas d’implémentations ou d’applications. Il montre cependant la difficulté de mettre en place de bonnes politiques de sélection de caractéristiques dans un tel problème.
Un autre exemple plus récent (Kapoor et Greiner 2005), utilise des contraintes de budget lors de la phase d’apprentissage et de la phase de test avec une approche en MDP qui apprendra des classifieurs budgétisés, en mettant un budget bL sur les données acquises en phase d’apprentissage pour produire, lors de la phase de test, des prédictions fiables avec un budget différent bC . Le modèle en apprentissage apprend dés lors les meilleures caractéristiques à utiliser pour chaque donnée traitée dans le temps imparti.
Approches par apprentissage par renforcement
Ici nous mettrons en lumière les approches d’apprentissage budgétisé basées sur des algorithmes d’apprentissage pas renforcement. Ces approches sont les plus développées dans le cadre de la classification sous contraintes de budgets. Nous pourrons citer par exemple l’article de Ji et Carin 2007 où les auteurs modélisent la tâche de la sélection de caractéristiques en processus de décision markovien partiellement observable POMDP (Kaelbling et al. 1998) et sont rapidement confrontés à la difficulté à trouver une bonne politique de sélection dans un POMDP due à la grande complexité de la modélisation des aspects partiels du POMDP. La modélisation en POMDP ne permet pas à leur agent de garder facilement trace de quelles caractéristiques ont été sélectionnées précédemment, un problème qui requiert l’ajout d’informations supplémentaires pour pouvoir être traité.
Dans Gao et Koller 2011, les auteurs considèrent un modèle consistant en un en-semble intelligent de classifieurs où seuls certains classifieurs seront utilisés lors de l’in-férence d’une certaine donnée. Ils associent un coût de traitement à chaque classifieur et tentent d’inférer sur un ensemble de données en essayant de minimiser le coût de calcul global. Bien qu’ils ne structurent pas explicitement leur problème en termes de caractéristiques individuelles, rien n’empêche de remplacer les classifieurs de base par des caractéristiques extraites directement d’une donnée x. Les auteurs n’ont pas explicitement modélisés le problème sous forme de MDP, mais en pratique ils ont bien défini une fonction de récompense et une politique bayésienne dont le but est de maximiser la récompense relative à la classification, conditionnellement aux classifieurs précédemment sélectionnés. Contrairement à certaines approches qui pénalisent les caractéristiques individuelles uti-lisés par des ensembles de classifieurs, cette méthode ne pénalise pas les caractéristiques mais le temps de calcul des classifieurs.
Dans ces approches budgétisées basées sur de l’apprentissage par renforcement, Dulac-Arnold et al. 2011 propose de considérer la classification de texte comme un processus de prise de décision séquentielle. Dans ce processus un agent apprend à classifier les do-cuments en parcourant les phrases dans les textes séquentiellement et apprend à arrêter la lecture quand il considère que les informations actuelles sont suffisantes pour pouvoir classifier le document. L’agent commence à lire à une position donnée du document et décide entre plusieurs actions : soit classifier le document, lire une autre phrase ou bien arrêter le processus considérant le document comme bien classifié. L’apprentissage se fait en estimant une fonction Q(s, a) qui minimisera la fonction de perte associée à la bonne classification du document. Cette Q − f onction sera le critère qui permettra de choisir les meilleurs actions à chaque état s (s étant une phrase).
Dans Dulac-Arnold et al. 2014 cette approche séquentielle est appliquée aux images de façon à n’utiliser que certaines fenêtres (patchs) d’une image donnée de façon à mi-nimiser le nombre d’opérations. Les auteurs proposent un modèle séquentiel qui, étant donné une image, sélectionne un sous ensemble de régions dans cette image et la classifie. Le modèle inclut un budget explicite qui sera la taille du sous ensemble de régions utilisées pour classifier la donnée. Le modèle apprend d’abord une fonction fθ qui apprendra les représentations et la classification des régions qui seront dépendantes du budget B donné en amont. A partir de la région du milieu, les possibilités de groupes de régions de taille B selon une politique exploratoire π. L’idée serait d’apprendre en amont une bonne fonction de classification pour chaque sous ensemble de B régions. Une fois cette fonction apprise, le modèle apprend une politique efficace qui sélectionne la meilleure trajectoire dans l’image qui donnera la meilleure performance au classifieur. Le modèle proposé dans cet article a pour but de trouver l’ensemble des régions qui minimisent l’erreur de classifi-cation d’une image, cependant, les auteurs entraînent la fonction de classification (appelée f) sur des sous ensembles de fenêtres et ce n’est qu’une fois f apprise que le modèle ap-prend la politique qui à sélectionner les ensembles de fenêtres les plus efficaces. Dans le travail présenté dans cette thèse, nous proposons un modèle proche de celui présenté dans ce travail avec la différence que le modèle apprend la fonction de classification en même temps que la politique. Dans Contardo et al. 2016, les auteurs proposent d’associer un budget à chaque caractéristique un coût particulier d’acquisition. Le modèle proposé acquiert des caracté-ristiques d’une manière adaptative et peuvent être acquises par blocs, ce qui autorise le traitement de données des données à grande dimension. Le modèle est aussi basé sur de l’apprentissage de représentations.
Dans Mnih et al. 2014 les auteurs proposent un algorithme d’attention pour de la reconnaissance d’images. Les auteurs justifient cette approche par le coût dépensé pour un traitement de données par des réseaux de neurones de convolution, qui malgré leurs performances, ont l’inconvénient d’être très coûteux en temps de calcul. Leur proposition de résumé à un modèle qui permet de sélectionner une ”zone d’attention” dans les images pour les traiter plus rapidement. Ces zones d’attentions seront des séquences limitées d’images (ou vidéos) dans les données de plus grande échelle. Le problème de l’attention est considéré comme étant un problème séquentiel, où à chaque pas de temps l’agent observe une partie de l’environnement avec un senseur limité. L’agent peut contrôler la manière de déployer ce senseur (en choisissant la location du senseur) et vu que l’informa-tion n’est que partiellement observable, l’agent doit apprendre à intégrer l’information au cours du temps pour pouvoir déployer ses senseurs le plus efficacement possible. A chaque pas de temps l’agent reçoit une récompense qui dépend de l’action exécutée. L’agent à droit à deux types d’actions : la translation de la ”rétine” qui est la fenêtre pour capturer une partie de la donnée et une action influençant l’état de l’environnement.
Dans Graves 2016 les auteurs proposent un modèle d’arrêt automatique pour des ré-seaux de neurones récurrents adaptatif en terme de temps de calcul. Les auteurs présentent un réseau neuronal augmenté d’une unité de halting qui décidera à quelle étape le réseau doit arrêter ses opérations. Le réseau résultant est une augmentation du réseau neuronal où à chaque donnée d’entrée une séquence de transformations sit sera amorcée mais qui sera susceptible d’être interrompue suite à la décision de la halting unit. L’apprentissage d’une telle structure se fait grâce à une rétro propagation du gradient classique ce qui permet de ne pas perdre les propriétés des réseaux de neurones et de l’efficacité de leur apprentissage.
Dans cette thèse nous nous sommes basés particulièrement sur le travail de Denoyer et Gallinari 2014, dans lequel les auteurs ont développé un modèle de sélection séquen-tielle pour des réseaux profonds. Dans cet article, les auteurs considèrent le processus de classification comme un processus séquentiel où chaque couche de la structure est com-posée de nœuds qui représentent des fonctions de transformation. La transformation de la donnée à l’entrée sera dépendante de la trajectoire que sélectionnera la politique de sélection de nœuds.
Plus précisément à chaque couche une fonction de transformation sera sélectionnée parmi celles disponibles sur l’ensemble de la couche et accessible par le nœud actuel. Lorsqu’une donnée x est présentée en entrée de la structure, elle suivra une trajectoire dans le DAG, comme montré dans 4.5, jusqu’à obtenir une sortie y. La trajectoire est sélectionnée à chaque niveau par une fonction de sélection p qui sera apprise par les algo-rithmes de policy gradient alors que les fonctions de transformation seront apprises grâce à une rétro propagation du gradient classique.
On peut voir cette architecture comme une extension des réseaux de neurones profonds classiques, qui au lieu de considérer le réseau comme une opération atomique, le considère comme un enchaînement de transformations différentes. Pour preuve, si l’on considère qu’à chaque couche il n’existe qu’une seule fonction de transformation, on obtiendra de ce fait un réseau de neurones classique. Le processus d’inférence peut être décrit ainsi :
— Étant donné une entrée x, le modèle choisira parmi les différentes fonctions de transformation possibles, posons fi.
— x est alors transformé dans une nouvel espace de représentation en x′ = fi(x).
— Avec x′ une nouvelle fonction de transformation est sélectionnée et ce jusqu’à at- teindre la dernière couche du réseau qui représente la sortie prédite.
Les apprentissages des fonctions de transformations et des fonctions de sélections sont faits simultanément et non l’un après l’autre. Au lieu d’apprendre les séquences de repré-sentation successives cette architecture apprendra à sélectionner la fonction de représen-tation la plus appropriée aux données.
Hypothèses sur le comportement instrumental
A partir des observations et travaux décrits dans le paragraphe ci dessus, plusieurs travaux, principalement en navigation, ont mis en opposition les théories héritées de la psychologie où les réponses dans un cadre instrumental ne sont qu’un apprentissage d’associations entre stimulus et réponse motrice, et la vision de Tolman p.d. pour qui l’animal apprend une carte de son environnement héritée des travaux de Blodgett 1929.
Pour Tolman, l’observation de comportements VTE (Vicarious Trial and Error, ou essai-erreur simulé) est également une indication de l’utilisation d’une carte qui pour lui est un modèle des enchaînements entre lieux successifs visités et directions de déplace-ments associées, similaire aux modèles de transitions de l’apprentissage par renforcement. Le comportement VTE correspond à un animal qui hésite ; il est interprété comme l’in-dication que l’animal évalue les conséquences de plusieurs options. Cette hypothèse est confirmée par Adams et Dickinson 1981 qui montrent qu’un rat ayant appris à presser un levier, motivé par l’obtention de sucrose, stoppe dès lors que ce sucrose rend l’animal malade. Cependant, le degré auquel l’animal est sensible à la conséquence de son action dépend de son degré d’entraînement (Adams 1982), le surentraînement le rendant com-plètement insensible.
Cela conduit à l’hypothèse que les deux manières de créer le comportement existent en parallèle, et qu’il y a un transfert de contrôle entre elles, ce qui est confirmé par Dickinson (1985) d’un point de vue comportemental et renforcé par des études de lésions (Balleine et Dickinson 1998).
Connexion entre apprentissage par renforcement et comportement
Le développement de l’apprentissage par renforcement a été fortement influencé par les études du comportement animal. L’idée d’essai-erreur et de renforcement développées dans les études comportementales développées plus haut sont les point clés de l’appren-tissage par renforcement décrites dans le chapitre 1. Par exemple les algorithmes de TD learning ont été proposés comme extension du modèle de Rescorla et al. (étendu à des mises à jours en un essai plutôt qu’entre les essais ).
D’un point de vue neurobiologique, plusieurs études ont montré l’importance du rôle de la dopamine dans l’évaluation de la récompense dans les tâches de conditionnement (Ljungberg 1992). Aussi, ce neuromodulateur a un rôle tout aussi important lors du pro-cessus d’apprentissage (Montague et al. 2004, Wise 2004). Il est également montré qu’il existe un lien très fort entre la dopamine et l’erreur de prédiction de l’apprentissage par renforcement : Schultz et al. montrent une corrélation très forte entre l’activité phasique des neurones dopaminergiques et l’erreur de prédiction calculée dans les algorithmes d’AR direct (Schultz et al. 1997 ; Hollerman et Schultz 1998 ; Schultz 1998). En effet il est observé qu’une augmentation de la décharge des neurones dopaminergiques d’un animal lorsqu’il reçoit une récompense non prédite (ce qui correspond algorithmiquement à un retour supérieur à la valeur prédite). Lorsque l’association entre un stimulus donné et la récompense est faite, nous observons cette activité dopaminergique au moment du stimulus et non plus au moment de la récompense (la prédiction est équivalente au retour reçu, l’erreur est quasi-nulle). Enfin lorsque la prédiction est fausse, nous observons une inhibition de l’activité au moment où la récompense aurait du être obtenue (équivalent à un retour reçu inférieur à la valeur prédite). Cette hypothèse est discutée dans plusieurs récents travaux (Berridge 2007 ; Schultz 2013 ; Bellot et al. 2012 ; Kishida et al. 2015) où l’AR est le modèle utilisé pour expliquer les comportements observés.
Dans Doya 1999, les auteurs associent les différents types d’apprentissage à des zones du cerveau à partir des informations anatomiques et physiologiques connues. Ainsi, l’ap-prentissage non-supervisé est supposé être associé au cortex cérébral, tandis que le cervelet supporterait un apprentissage supervisé. L’apprentissage par renforcement est associé aux ganglions de la base (dont le principal noyau d’entrée est le striatum). Ces derniers sont supposés être impliqués dans l’apprentissage de comportements séquentiels (Graybiel 1995). L’activité des neurones dopaminergiques présentée précédemment ainsi que la per-formance des modèles basés sur l’AR à reproduire les comportements observés appuient cette hypothèse (Dominey et al. 1995 ; Berns et Sejnowski 1998).
Modélisation du compromis exploration et ex-ploitation en environnement non stationnaire
A partir de ce qui a été décrit plus haut, plusieurs travaux ont été menés afin d’expli-quer les comportements d’animaux dans des environnements plus ou moins complexes en utilisant des algorithmes d’apprentissage par renforcement, qu’ils soient en apprentissage direct, indirect où en mettant en place des architectures qui combinent les deux approches ( Daw et al. 2005, Chavarriaga et al. 2005, Dollé et al. 2010, Keramati et al. 2011, Caluwaerts et al. 2012, Lesaint et al. 2014, Viejo et al. 2015).
Ces tâches sont généralement des tâches stationnaires, ce qui veut dire que durant une suite d’essais, l’environnement récompense le sujet de la même manière, par exemple un seul levier donnant la récompense tout au long de la procédure d’apprentissage. Dans le cas d’un environnement non stationnaire la distribution des récompenses varie en fonction du temps. En reprenant l’exemple précédent, le levier distribuant la récompense change au cours du temps. Dans le cas des travaux présentés dans cette section, il s’agira de modéliser les com-portements d’animaux dans le cadre d’un environnement incertain et non stationnaire. Incertain car la distribution de la récompense se fera dépendamment d’une distribution de probabilités et non stationnaire car le levier dominant (ayant la plus grande probabilité de distribuer la récompense) change au cours du temps.
Protocole expérimental et résultats comportementaux
Les sujets étudiés sont des rats, évoluant dans une boîte de skinner avec trois leviers, chacun des leviers ayant une probabilité de distribuer une récompense (une boulette de nourriture). Le rat est d’abord pré-entraîné pour générer une motivation de la récompense de façon à ce qu’instinctivement il se dirige vers les leviers pour obtenir la récompense. On peut décrire le protocole expérimental comme suit (figure 5.3) :
— L’étude a été faite sur 24 rats qui doivent exécuter 24 sessions d’appui de levier.
— Chaque session est composée de 4 blocs et chaque bloc est composé de 24 à 48 essais dépendamment du type d’incertitude.
— Chaque bloc d’essai est caractérisé par un levier dominant et un type de risque.
— Deux types d’incertitude sont mis en place :
— Incertitude faible ou low risk (LR) donne une probabilité de 7/8 d’obtenir la récompense et 1/16 pour les deux autres.
— Incertitude forte ou high risk (HR) donne une probabilité de 3/4 d’obtenir la récompense et 1/8 pour les deux autres.
Les expérimentateurs ont mesuré plusieurs critères de performances chez ces rats. Pour chaque type de risque, ils ont mesuré une performance globale qui est le nombre moyen de fois où le rat a appuyé sur le bon levier. Le second critère est considéré comme un critère d’exploration appelé win-shift qui mesure le nombre de fois où le rat a changé de levier malgré la réception d’une récompense. Le dernier critère et ce que l’on pourrait appeler un critère de correction dit lose-shift où le rat change de levier si aucune récompense n’est reçue (figure 5.4).
On observera que les performances globales (5.4) montrent que les rats apprennent fi-nalement en moyenne à augmenter le nombre de fois où ils appuient sur le bon levier, en apprenant plus vite dans le cas où le risque est plus faible, ce qui confirme une intuition de départ. Le win-shift diminue ce qui montre que les rats en moyenne explorent l’environne-ment de moins en moins à mesure qu’ils améliorent leurs performances. Le lose-shift par contre ne montre aucune évolution qu’elle soit positive ou négative, les rats se corrigent en moyenne à 50/50.
|
Table des matières
1 Introduction
1.1 Contexte
1.2 Problématique
1.3 Plan de la thèse
2 Apprentissage par renforcement
2.1 Introduction
2.2 Problématique de l’apprentissage par renforcement
2.3 Programmation dynamique
2.4 Apprentissage par renforcement
2.5 Conclusion
3 Deep Reinforcement Learning
3.1 Introduction
3.2 Réseaux de neurones
3.3 Deep Learning
3.4 Deep learning et apprentissage par renforcement
3.5 Conclusion
4 Méthodes séquentielles budgétisées pour la classification
4.1 Introduction
4.2 Classification séquentielle
4.3 Approches par apprentissage par renforcement
4.4 Conclusion
5 Modélisation de la prise de décision chez l’animal en environnement incertain et non-stationnaire
5.1 Bref État de l’art
5.2 Modélisation du compromis exploration et exploitation en environnement non stationnaire
5.3 Conclusion
6 Selection séquentielle d’actions pour la robotique
6.1 Introduction
6.2 La localisation en robotique
6.3 Modèle de sélection séquentielle d’actions
6.4 Expérimentation
6.5 Conclusion
7 Transfer Learning et sélection de budget a posteriori
7.1 Introduction
7.2 Transfer learning
7.3 Fonctions coût et budgets optimaux
7.4 Conclusion
8 Conclusion
8.1 Résumé des contributions
8.2 Limites et perspectives
8.3 Conclusion
Publications
Bibliographie
Télécharger le rapport complet