Maintenir un système dynamique dans un ensemble de contraintes
Le problème principal auquel nous nous intéressons dans cette thèse est celui de définir une politique d’action sur un système, de manière à le maintenir dans un ensemble de contraintes. Ce problème est fréquent en écologie, économie ou robotique, lorsque le système meurt ou se détériore lorsqu’il quitte une certaine région de l’espace. Le but n’est alors pas de choisir une solution « optimale » en fonction d’un certain critère, mais de sélectionner des actions « viables », dans le sens où elles permettent au système de se maintenir dans un ensemble de contraintes.
En écologie, le problème peut être de maintenir la pérennité d’une ressource renouvelable. Dans ce cas, on cherche à maintenir la population au-dessus d’une certaine valeur pour laquelle l’extinction est inévitable. Par exemple, dans le domaine de la gestion d’une ressource marine, [De Lara et al., 2007] analysent la pérennité d’un écosystème constitué de merlus et d’anchois dans le golfe de Gascogne, en fonction du niveau de pêche et du recrutement des espèces (nombre de jeunes poissons constituant la nouvelle classe d’âge annuelle). Ils ont identifié les configurations qui permettent de conserver la durabilité du système, c’est-à-dire maintenir la population de chaque espèce au-dessus d’une certaine valeur. [Bonneuil, 2003] étudie les conditions que doivent respecter les dynamiques d’un système proieprédateur afin d’éviter l’extinction de l’une ou l’autre espèce. Le problème peut également être de maintenir la pérennité d’un écosystème, en conciliant des objectifs comme exploitation et conservation. On doit alors évaluer des tailles de population d’espèces en dessous desquelles l’extinction ou l’effondrement de l’espèce est probable, mais également des objectifs économiques liés à l’exploitation de la ressource à atteindre. Le système doit donc se maintenir dans une configuration qui concilie les objectifs économiques et écologiques. Par exemple, [Martinet et Doyen, 2007] étudient les conditions qu’un système proie prédateur, basé sur une ressource non-renouvelable, doit respecter afin de garantir la consommation des espèces et le stock des ressources. Dans le cas de gestion d’une ressource marine, on souhaite garantir la rentabilité économique des activités de pêche tout en maintenant la pérennité de l’écosystème marin. [Béné et al., 2001] étudient un modèle économique simple de gestion de ressources marines et déterminent des options de management qui garantissent la pérennité écologique et économique du système. Ils mettent également en évidence des configurations irréversibles de sur-exploitation qui provoquent la disparition des espèces marines. [Mullon et al., 2004] étudient un modèle dynamique d’évolution de la biomasse de cinq espèces dans un écosystème marin du sud du Benguela. Ils déterminent, pour des valeurs de pêche constantes, quelles sont les configurations de l’écosystème qui garantissent le principe de précaution (en évitant l’effondrement des stocks).
Dans le domaine du contrôle en robotique, les automates peuvent avoir besoin d’une sécurité renforcée, en évitant certaines zones prédéfinies d’échec. Par exemple, [Kalisiak et Van de Panne, 2004] considèrent le problème de guidage d’une voiture sur un circuit. Le système se détériore lorsqu’il quitte la route ou qu’il commence à glisser. Un conducteur contrôle la trajectoire de la voiture, mais lorsque l’action demandée fait sortir la voiture de la zone de sécurité, un système automatique corrige la trajectoire afin de garder la voiture en sécurité. [Spiteri et al., 2000] utilisent la même approche pour diriger un robot dans un certain chemin et avec une certaine vitesse, en déterminant les contrôles qui lui permettent de toujours rester en sécurité. Dans le domaine du transport aérien, mais avec toujours l’objectif d’assurer la sécurité du système, [Seube et al., 2000] formulent le problème du décollage d’un avion en présence de rafales de vent comme un jeu différentiel. En fonction du vent, de la vitesse et position de l’avion, le pilote doit contrôler le système afin de respecter les conditions de sécurité et éviter le crash.
Extensions de la viabilité : atteindre une cible et résilience
A partir du problème central de la viabilité, nous abordons un problème apparemment différent, celui d’agir sur un système de manière à ce qu’il atteigne une cible. La cible correspond alors à un état souhaité, en sachant que le système se détériore dans une certaine région de l’espace (lorsqu’il transgresse l’ensemble de contraintes). En fait, nous verrons que ce problème est étroitement apparenté à celui de la viabilité. Ce problème est également très fréquent, notamment dans le domaine de la navigation de robots mobiles. Mais il se rencontre aussi dans des domaines très éloignés, comme la finance. Par exemple, dans un problème d’évaluation et de gestion d’actifs financiers, [Pujal et Saint-Pierre, 2004] posent des contraintes sur la valeur du portefeuille, et construisent des politiques de gestion d’actifs qui permettent d’atteindre un objectif d’obtention de contrats. [Aubin et al., 2005] traitent le problème de la gestion d’un portefeuille d’actifs, et déduisent des politiques d’action qui permettent de contrôler l’évolution du portefeuille, jusqu’à atteindre un objectif de rentabilité fixé, tout en maintenant à chaque instant la valeur du portefeuille au-dessus d’un certain seuil.
Théorie de la viabilité
La théorie de la viabilité, initiée au début des années 1990 par Jean-Pierre Aubin et ses collaborateurs [Aubin, 1991], se focalise sur le problème de viabilité : maintenir un système dynamique dans un ensemble de contraintes. Elle fournit un ensemble de concepts et de résultats mathématiques, qui ont donné lieu par la suite au développement d’outils informatiques. Nous mentionnons rapidement ces concepts (qui seront définis précisément dans la suite du document), car ils sont importants pour décrire notre démarche générale. Considérons un système dynamique composé de variables d’état qui décrivent le système et de variables de contrôle, qui permettent d’agir sur le système. L’ensemble des contraintes définit un sousensemble de l’espace d’état en dehors duquel le système meurt ou se détériore, et est appelé ensemble des contraintes de viabilité. La théorie de la viabilité introduit le concept d’évolution viable comme une évolution qui reste à chaque instant à l’intérieur de l’espace des contraintes. L’état initial à partir duquel part une évolution viable est appelé état viable, et l’ensemble des états viables constitue le noyau de viabilité. Le noyau de viabilité est composé de tous les états pour lesquels il existe au moins une politique de contrôle qui permet au système de survivre dans un ensemble de contraintes. Il correspond à l’ensemble des états qui peuvent rester en « vie » ou en « bonne santé ». Au contraire, pour les états situés à l’extérieur du noyau, la viabilité du système est mise en péril puisque les évolutions violent les contraintes en temps fini.
Le noyau de viabilité d’un système est déterminant pour définir des politiques d’action viables. A partir d’un état situé dans le noyau de viabilité, on sait qu’il existe au moins une suite de contrôle qui permet au système de rester dans l’ensemble des contraintes de viabilité. La règle la plus simple a été introduite par [Aubin, 1991] et est appelée contrôleur lourd. La procédure découle du principe d’inertie « les contrôles sont gardés constants tant que la viabilité du système n’est pas menacée». Ainsi, on garde les contrôles constants tant que le système n’atteint pas la frontière du noyau de viabilité du système, et on choisit un contrôle qui permet de revenir à l’intérieur sinon. L’évolution du système peut être influencée par des perturbations non maîtrisables (qui peuvent également être appelées tyches [Aubin, 1997]). Ces perturbations peuvent être vues comme notre ignorance de certains comportements du système, ce qui introduit un écart entre la dynamique modélisée et le comportement réel du système. Le formalisme de la viabilité peut également être étendu aux jeux dynamiques. On recherche alors l’ensemble des états viables, quelle que soit la valeur de la perturbation. Dans ce cas, on parle de noyaux discriminants. [Cardaliaguet, 1994] définit les noyaux discriminants comme des intersections de noyau de viabilité.
La théorie de la viabilité traite également du problème d’atteinte d’une cible. Un état capture la cible lorsqu’il existe au moins une fonction de contrôle qui permette au système d’atteindre la cible en temps fini, tout en restant à l’intérieur des contraintes de viabilité. L’ensemble des états capturant la cible est appelé bassin de capture. A chaque état contenu dans le bassin de capture, on définit son temps minimal de capture, qui correspond au temps minimal mis par la trajectoire pour atteindre la cible sans violer les contraintes. Cette fonction correspond à celle obtenue en résolvant les équations Hamilton-JacobiBellman (HJB) en programmation dynamique [Frankowska, 1989]. Le bassin de capture d’un système correspond au noyau de viabilité du système, auquel on a ajouté à la dynamique une dimension représentant le temps qui s’écoule. De la même façon que pour le noyau de viabilité, le bassin de capture permet de définir directement des politiques de contrôle, qui fournissent une trajectoire qui reste toujours dans l’espace des contraintes, tout en atteignant la cible en un temps fini ou prescrit. Il donne également les politiques qui permettent d’atteindre la cible en un temps minimal.
|
Table des matières
Introduction
Viabilité, résilience : le besoin de méthodes plus performantes
I Approcher des noyaux de viabilité
1 Approcher des noyaux de viabilité en utilisant une méthode d’apprentissage
1.1 Viabilité
1.2 Algorithme d’approximation de noyau de viabilité avec une méthode d’apprentissage
1.3 Contrôleur lourd de viabilité
2 Apprendre un noyau de viabilité en utilisant des SVMs
2.1 Machines à vecteurs de support pour la discrimination
2.2 Algorithme d’approximation de noyau de viabilité avec des SVMs
2.3 Contrôleurs de viabilité utilisant des SVMs
2.4 Exemples d’application
II Approcher des bassins de capture et calculer des valeurs de résilience
3 Approcher un bassin de capture en utilisant une méthode d’apprentissage
3.1 Capturabilité
3.2 Algorithme d’approximation de bassins de capture avec une méthode d’apprentissage
3.3 Contrôleur optimal
3.4 Minimisation d’une fonction de coût
4 Approcher un bassin de capture en utilisant des SVMs
4.1 Algorithme d’approximation de bassins de capture avec un système auxiliaire
4.2 Algorithme d’approximation de bassins de capture dans l’espace d’état initial
4.3 Approximation du contrôle optimal en utilisant les SVMs
4.4 Exemples d’application des algorithmes d’approximation de bassins de capture
5 Calculer la résilience d’un système en utilisant des SVMs
5.1 Minimisation d’une fonction de coût : application au calcul de la résilience
5.2 Calcul des valeurs de résilience dans un modèle d’eutrophisation des lacs
III Intégrer une procédure d’apprentissage actif
6 Apprentissage actif de noyau de viabilité et de bassins de capture
6.1 Réduction de la taille de la base d’apprentissage
6.2 Apprentissage actif
6.3 Apprentissage actif de noyau de viabilité et de bassins de capture .
6.4 Exemples d’application
6.5 Limites de l’algorithme – perspectives
Conclusion
Bibliographie
Annexe
Télécharger le rapport complet