Considérations générales
Apprentissage, mémoire et subjectivité
Le monde est structuré et dynamique. Son évolution est régie par des lois que l’intelligence humaine est capable d’identifier et d’exploiter pour atteindre ses objectifs dans un processus d’interaction. Les propriétés physiques de l’environnement ne sont, chez l’homme, pas connues a priori, bien que l’évolution de l’espèce ait permis dans une large mesure l’adaptation au milieu. L’apprentissage phylogénétique, peut dans certains cas suffire à certaines espèces évoluant dans des milieux simples et se contentant d’actes réflexes mais à l’échelle qui nous intéresse, celle de l’homme, le caractère imprévisible de l’environnement nécessite des capacités d’adaptation qui, dans le cadre de la robotique, constitueront notre sujet d’étude. L’apprentissage est donc un moyen d’acquérir des connaissances et permet donc d’adapter le comportement de chaque individu au milieu dans lequel il évolue. La mémoire, dont l’existence est indispensable à toute forme d’apprentissage, nous permet d’une part de stocker l’information pour une utilisation ultérieure mais elle permet d’autre part de prévoir des événements et de créer des relations entre concepts. C’est donc d’une mémoire active dont il s’agit, active par opposition à la mémoire morte d’un ordinateur. D’autre part, la mémoire n’est pas uniquement chez l’homme, un modèle de la dynamique de l’environnement, c’est la mémorisation des conséquences des actions qu’il est capable de produire sur celui ci ou encore d’une fonctionnalité associée à un but. Or, tandis que l’état du monde tel qu’il apparaît à nos sens est perçu d’une façon comparable d’un individu à l’autre, les buts sont propres à chaque individu. Il existe donc une composante subjective (lié au sujet) évoluant durant l’expérience qui nous permet d’évaluer les situations et d’exprimer la motivation d’agir.
Nous considérerons dans cette thèse un système qui devra explicitement prendre en compte ces deux composantes objectives et subjectives. On trouvera dans [Paquier 04] une analyse complète et une justification d’un tel système. Nous présenterons ici ses caractéristiques et son fonctionnement. Toutefois, lorsque nécessaire, nous reprendrons l’analyse en certains points.
Représentations distribuées
Notre système de représentations est constitué d’un réseau de neurones formels à impulsions. Le modéle de neurone tel qu’il sera décrit dans le Chapitre 3 hérite de diverses caractéristiques issues du domaine des neurosciences computationnelles telles que l’utilisation d’un modèle de neurone de type « intègre et tire » [Lapicque 07, Tuckwell 88], l’emploi d’une règle locale d’apprentissage s’inspirant de la règle de Hebb [Hebb 49] et d’un modèle de propagation de l’information de type « event-driven » permettant d’économiser le temps de calcul. Notre système de représentation est distribué et hiérarchique. À la différence des approches symboliques, les objets du monde ne sont pas représentés par des symboles mais par un ensemble d’unités de traitement actives au même instant. C’est un code, une signature binaire dont le support est l’ensemble des unités de traitement du système. Plusieurs objets peuvent par conséquent partager une partie de leur signature et des relations d’inclusion peuvent exister entre différentes représentations. Ce code binaire peut bien-sûr représenter un nombre, donc en quelque sorte un symbole. Cependant, la capacité expressive du codage distribué permet d’appréhender un nombre illimité de concepts sans en modifier ses règles internes. En effet, dans un système purement symbolique, chaque symbole étant unique et atomique, apprendre un nouveau concept revient à créer un nouveau symbole et explicitement définir ses relations avec les autres. Cette tâche serait donc dévolue au concepteur et non, comme nous le souhaitons, au système lui-même. Nous utilisons un système de codage par position où « l’infinité des sens est … rejetée dans l’infinité des lieux » [Paquier 04]. Notre système de représentation dispose par ailleurs de liens réunissant les unités de traitement en graphe. C’est grâce à ce graphe qu’il est possible de représenter les liens de dépendance qui relient les représentations entre elles. La représentation d’un objet en un ensemble de composantes est par exemple un moyen efficace de décomposition permettant 1) le partage de composantes entre différentes représentations et 2) une reconnaissance robuste grâce à un niveau d’abstraction accru [Biederman 87].
Associations et choix de l’action
L’association d’une valeur de récompense à une représentation apprise qu’elle soit visuelle, de position ou d’action ne suffit pas à la prise de décision. Il n’existe en effet à un instant donné qu’un sous-ensemble d’états atteignables et d’actions envisageables. De plus, étant donné le contexte courant, atteindre un état à fort niveau de récompense peut mener en des états intermédiaires subjectivement moins intéressants, pouvant même entraîner un solde de récompense négatif pour la série d’actions envisagée. C’est pourquoi, nous proposons d’apprendre grâce aux cartes neuronales temporisées citées plus haut, les ensembles de transitions d’états (pour les représentations visuelles et de positions) ainsi que les préconditions d’actions indispensables à la prise de décision et à la création de l’horizon des états atteignables. A l’image des représentations, ces associations sont donc de trois types :
– les transformations : qui à une vue, une position et une action, associent une nouvelle vue,
– les déplacements : qui à une position et une action associent une nouvelle action,
– les réflexes : qui à une vue et une position associent une action.
Ainsi, grâce à ces trois types d’associations obtenue incrémentalement par apprentissage et par l’interconnexion des cartes neuronales temporisées les constituant nous proposons de construire un réseaux associatif directement exploitable pour la prise de décision. Nous montrerons en effet comment l’emploi systématique de schémas de connexions simples permet de construire un réseau associatif au sein duquel la diffusion passive des informations capteurs permet la mise à jour des valeurs d’utilité exploitées par l’apprentissage par renforcement. Nous souhaitons ainsi favoriser des algorithmes de calcul locaux afin d’exploiter au maximum le parallélisme des calculs et des flux d’informations.
Approche objet-centrée
Tout d’abord l’approche objet-centrée, soutenue par Irving Biederman suppose l’existence de primitives géométriques (ou géons) permettant aux représentations de décrire la structure tri-dimensionnelle des objets [Biederman 87, Biederman 93, Biederman 00]. Ces représentations nécessitent donc d’extraire des images les primitives géométriques ainsi que leurs configurations dans l’espace (Figure 2.1). La Reconnaissance par Composante (en anglais RBC : Recognition-by-components) est soutenue par des experiences montrant la capacité de notre système visuel à reconnaître les objets quelle que soit leur orientation dans l’espace (reconnaissance vue-invariante). Ce type de représentations, très utile en robotique pour la planification de mouvement et la manipulation d’objets, demeure complexe à mettre en œuve pour un apprentissage en temps réel basé sur les seules données visuelles.
Approche vue-centrée
Un deuxième type de représentations défendu par Heinrich H. Bulthoff et Michael J. Tarr notamment, inspiré des techniques de reconnaissance de formes, propose d’encoder les objets tels qu’ils apparaissent selon différents points de vues (approche vue-centrée). Cette approche s’appuie également sur des données expérimentales montrant l’influence du point de vue sur le temps de reconnaissance et de discrimination des objets [Bülthoff 94, Tarr 95] et introduit la notion de vue canonique produisant la reconnaissance la plus rapide (Figure 2.2). Cette influence du point de vue sur le temps de reconnaissance a été un argument d’importance pour les défenseurs de l’approche vue-centrée. Cette approche doit néanmoins faire face à de nombreuses limitations telles que la quantité importante de mémoire nécessaire à l’apprentissage des vues, la sensibilité de la reconnaissance ou le problème de l’apprentissage de classes d’objets par généralisation. Nous renvoyons le lecteur à [Tarr 98] pour une discussion plus approfondie. Bien que l’approche vue centrée soit désormais privilégiée pour la modélisation de la reconnaissance des objets chez l’homme, il est aujourd’hui également admis qu’un tel type de représentations ne saurait se priver d’une composante vue-invariante de l’objet. Le travaux de M. Riesenhuber, T. Poggio et G. Wallis ont tenté de réconcilier ces deux approches tout en proposant de réduire le nombre de vues nécessaires à l’apprentissage par l’utilisation de réseaux de fonction à base radiale (Radial Basis Function Networks) [Poggio 90, Riesenhuber 99, Riesenhuber 00].
|
Table des matières
1 Introduction
1.1 Considérations générales
I. Apprentissage, mémoire et subjectivité
II. Représentations distribuées
1.2 Présentation générale du modèle
I. La boucle sensori-motrice
II. Apprentissage des représentations
III. Représentations initiales et récompense globale
IV. Associations et choix de l’action
1.3 Organisation du manuscrit
Références
2 Représentations et actions
2.1 La représentation des objets
I. Approche objet-centrée
II. Approche vue-centrée
III. L’approche écologique
IV. Positionnement de notre approche
2.2 La représentation de l’espace
I. Les représentations spatiales en robotique
II. Les représentations spatiales chez les animaux : l’hippocampe
III. Les modélisations des cartes cognitives
IV. Positionnement de notre approche
2.3 La sélection de l’action par renforcement
I. Origines
II. Principes généraux
III. Méthodes d’évaluation des politiques
IV. Positionnement de notre approche
Références
3 Apprendre et reconnaître
3.1 Problématique
I. Apprentissage en ligne
II. Apprentissage non-supervisé
3.2 Neurone et modèles
I. Le neurone biologique
II. Les modèles du neurone, décrire c’est choisir
III. Les modéles biophysique
IV. L’approche fréquentielle
V. L’approche impulsionnelle
VI. L’approche stochastique
VII. Positionnement de notre approche
3.3 Neurones, cartes et connectivité
I. Cartes neuronales, invariance à la translation
II. Hiérarchie et compétition
3.4 Le modèle « intègre et tire »
I. Intégration
II. Tir
3.5 Apprentissage et compétition
I. La règle de Hebb
II. La compétition par inhibitions latérales
III. Compétition à l’activation
IV. Loi d’apprentissage
V. Matrices de poids adaptatives
3.6 Les 3 voies de la perception
3.7 La représentation des objets
I. Représentation par vues, structure du réseau
II. Association temporelle et spatiale de vues, invariance à l’objet
3.8 La représentation des positions et des actions
I. Cartes temporisées
II. La représentation égocentrique de l’espace
III. La représentation proprioceptive des actions
IV. L’apprentissage incrémental de motifs de position et d’action
3.9 Récompense perçue, récompense induite
3.10 Conclusion
Références
4 Conclusion