Apprentissage de modèles de comportement pour le contrôle d'exécution et la planification robotique

Les visées de cette thèse sont d’explorer la création et l’utilisation de modèles intermédiaires en robotique. Nous postulons qu’entre modèles de bas niveau utilisés pour créer des comportements complexes robotiques et modèles abstraits utilisés pour la prise de décision à un niveau “intelligence artificielle”, des modèles intermédiaires peuvent être d’une grande utilité. En effet, pour créer des comportements robotiques, de nombreux composants logiciels et matériels sont profondément imbriqués. Ces composants sont construits dans un objectif de robustesse et même s’ils utilisent des modèles, ils sont eux-mêmes difficiles à modéliser par une approche de compositions de sous-modèles. À l’opposé, la prise de décision de haut niveau et les capacités d’intelligence d’une machine telles que la planification ont été étudiées depuis longtemps. Cependant, celles-ci se basent souvent sur des modèles simplifiés, les problèmes restant complexes malgré les nombreuses hypothèses simplificatrices.

Modèles Stochastiques à État Discret

Modèle de Markov Caché

Un modèle de Markov caché [Rabiner, 1989; Fox et al., 2006] est constitué d’une variable cachée ou interne représentant l’état du système à modéliser. Cet état interne n’est pas observable directement. En revanche, une autre variable est observable, et est conséquence de cet état interne. Cette variable est appellée observation . Les liens causaux symbolisés par des flèches sont de nature probabiliste. Ils représentent la probabilité d’avoir les valeurs de la variable d’arrivée sachant la variable de départ. Avec une telle structure, on capture donc à la fois la nature stochastique (bruit) des observations fonction de l’état du système, mais on dispose aussi d’un modèle de transition stochastique pour décrire la dynamique même du système.

Définition

Formellement, un modèle de Markov caché à observation discrète est constitué des éléments suivants :

1. N, le nombre d’états cachés possibles ; à partir de maintenant nous parlerons simplement d’état et pas d’état caché, c’est-à-dire le nombre de valeurs que peut prendre la variable d’état. On note les différentes valeurs possibles de cette variable S ={S1,S2,…,SN}. On note également qt la valeur de la variable d’état à l’instant t;

2. M, le nombre de symboles d’observations possibles. Les symboles sont notés V= {v1, v2, .. . ,vM} ;

3. la distribution de probabilité de la transition d’état A = {aij} avec :

aij = P(qt+1 = Sj |qt = Si) 1 ≤ i, j ≤ N (II.1)

On notera plus simplement :

aij = P(qj;t+1|qi;t) (II.2)

4. les distributions de probabilité des observations en l’état j, B = {bj (k)}, avec

bj (k) = P(Ot = vk|qt = Sj ) ∀t 1 ≤ j ≤ N 1 ≤ k ≤ M (II.3)

avec Ot la valeur de la variable observation à l’instant t, et cette valeur est indépendante de t; et on notera pour simplifier :

bj (k) = P(Okt|qj;t) (II.4)

Lorsque l’on disposera d’une séquence d’observations O1 : OT instanciée (par exemple issue d’un processus à modéliser), et qu’il n’y aura pas de confusion possible, on notera simplement bj (Ot) et alors vk sera la valeur de l’observation à l’instant t.

5. la distribution l’état initial π = {πi}, avec

πi = P(q1 = Si) = P(qi;1) 1 ≤ i ≤ N (II.5)

On notera λ = (A, B, π) le modèle de Markov caché. Il est tout-à-fait possible de généraliser ces définitions pour une observation continue (i.e. k ∈ C ⊂ R) . Dans ce cas on n’a plus un nombre de symboles d’observations, et B = {bj (k)} sera alors une densité de probabilité. Étant données les valeurs de N, M, A, B, et π, le HMM peut générer une séquence d’observation

O = O1O2 . .. OT = O1:T (II.6)

comme ceci :
1. choisir une estimation de l’état initial q1 = Si en fonction de la distribution initiale sur l’état π ;
2. initialiser t à 1 ;
3. choisir Ot = vk en suivant la distribution de probabilité sur les observations en l’état Si , bi(k);
4. faire évoluer la variable d’état qt+1 = Sj en fonction de la distribution de probabilités de transition en l’état Si , aij ;
5. faire t = t + 1 et retourner à l’étape 3 tant que t < T .

De cette façon, on modélise le processus tel une « boîte noire »avec un état interne caché, et un voyant sur cette boite représentant l’observation. De plus, l’observation ne dépend que de l’état courant, et non de l’historique des états traversés. Formellement, on a pour toutes instanciations σ des q1:t se terminant en qt = Sj :

P(Okt|q1:t = σ, O1:t−1) = P(Okt|qj;t) (II.7)

De plus, l’hypothèse Markovienne s’écrit :

P(qi;t+1|q1:t = σ) = P(qi;t+1|qj;t) (II.8) .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
I Préliminaires
I.1 Introduction
Objectifs
Applications Visées
Plan
Contributions
I.2 Raisonnement dans l’incertain
Réseau Bayésiens
Processus Décisionnels de Markov
Réseaux décisionnels
Tout n’est pas observable
Théorie de l’Information
II Modèles Stochastiques à État Discret
II.1 Modèle de Markov Caché
Définition
Problèmes classiques
Exemple
II.2 Pré-traitement des Données
Sélection
Classifications
Exemple
II.3 Apprentissage Quantitatif du modèle
Expectation-Maximization
Forward-Backward
Implémentation
II.4 Sur la Structure
Taille de l’espace d’état connue
Comment Choisir ?
Découpage d’états
II.5 Utilisations
Reconnaissance
Suivi
Prévision
II.6 Application
Plate-forme expérimentale
Évaluation
Découpage des états
II.7 Discussion
III Modèles Stochastiques Causaux
III.1 Réseau Bayésien Dynamique
Définition
Comparaison aux modèles de Markov cachés
III.2 Inférence, à quel coût ?
Inférence Exacte
Inférence Approchée
III.3 Apprentissage Quantitatif
Définitions
Algorithmes
Implémentation
III.4 Apprentissage Structurel
Apprentissage de Réseaux Bayésiens
Données Incomplètes
III.5 Apprentissage en ligne ?
Le Problème
Pistes
III.6 Application
Données
Structure
Résultats
Apprentissage structurel
IV Applications des modèles graphiques
IV.1 Types de Structures
Sens de la Causalité
Reconnaissance
Hiérarchie
IV.2 Reconnaissance de gestes
IV.3 Brain-Computer Interfaces
IV.4 Remarques
Approches classiques
Vers un DBN à synchronicités multiples
V Prise de Décisions en Robotique
V.1 Réseau Décisionnel Dynamique
Présentation
Mise à l’échelle
V.2 Décision en temps contraint et qualité du modèle
Inférence Approchée et Utilité Espérée
Est-il possible de tout savoir ?
Facteur de Confiance
V.3 Décider d’apprendre
Évaluation Multi-Dimensionnelle d’une Décision
Autres Facteurs : Évaluation de la Connaissance
Approches par apprentissage par renforcement
Perspectives
V.4 Application : optimisation multi-critères d’un comportement robotique
Sur les critères
Prise de décision
Résultats
Discussion
VI Discussions
CONCLUSION