Étude de classes de noyaux adaptées à la simplification et à l’interprétation des modèles d’approximation

Le travail présenté ici a pour cadre général l’approximation mathématique d’une fonction f sur laquelle on dispose d’informations limitées. Typiquement, la fonction f est connue partiellement, c’est à dire que l’on connaît la valeur de f(Xi) pour un nombre limité de points X1, . . . , Xn. On cherchera donc à mettre à profit ces connaissances dont on dispose pour trouver une fonction m qui approxime f au mieux. L’intérêt et la nécessité de remplacer f par une approximation mathématique peuvent ne pas être évidents au premier abord. Cependant, lorsque l’appel de la fonction f est coûteux – soit financièrement, soit en temps de calcul – le nombre d’appels à f peut se trouver limité ; il est alors nécessaire de recourir à un modèle si l’on souhaite effectuer davantage d’évaluations de f que ne le permet le budget.

Le phénomène représenté ou modélisé par f n’est volontairement pas spécifié, il pourra être une caractéristique du sous-sol pour un géostatisticien ou un simulateur numérique pour les personnes appartenant à la communauté des computer experiments. Dans le second cas, on pourra parler de méta-modélisation puisque l’on modélise un modèle physique. Dans la mesure où l’on approche la valeur de la fonction f, on trouve aussi dans la littérature l’appellation surface de réponse pour désigner le modèle m. De nombreuses méthode permettent l’approximation de f, comme la régression [Montgomery et al., 2001], le lissage par moyenne mobile [Hastie and Tibshirani, 1990] ou bien les réseaux de neurones [Fausett, 1994], mais nous nous focaliserons ici sur une autre approche : les modèles de krigeage. Initialement développés en géostatistique [Matheron and Blondel, 1962; Baillargeon, 2002], ces modèles peuvent être vus sous deux angles différents : celui de la modélisation par processus gaussiens, et celui de la modélisation dans les espaces de Hilbert à noyau reproduisant (RKHS pour Reproducing Kernel Hilbert Spaces). Suivant les nécessités, nous aurons alternativement recours à l’un ou l’autre de ces points de vue.

L’ensemble de points X = (X1, . . . , Xn) à partir duquel est construit le modèle m est couramment appelé plan d’expérience ou ensemble d’apprentissage. Nous n’aborderons pas dans le travail présenté ici le vaste domaine de la planification d’expériences [Sacks et al., 1989] et nous considérerons toujours le plan d’expérience comme donné. De plus, nous ferons l’hypothèse classique que les connaissances sur f se limitent à sa valeur pour un ensemble fini de points Xi . Cependant, il est possible de prendre en compte une catégorie plus large de données comme des dérivées de f en certains points ou un ensemble infini de points de données (cf. [Gauthier, 2011]).

Au cours de ces trois années nous nous sommes consacré à deux points régulièrement reprochés aux modèles de krigeage : le fait qu’ils soient mal adaptés à la modélisation en grande dimension et leur manque d’interprétabilité. Pour le premier point, la notion de “grande dimension” est très relative et son interprétation est susceptible de varier grandement pour deux personnes issues de communautés différentes. Dans notre cas nous considérerons qu’une fonction est de grande dimension si elle dépend de plus d’une dizaine ou d’une quinzaine de paramètres d’entrée. Nous verrons que le nombre de points nécessaires pour conserver une qualité de modélisation constante augmente exponentiellement avec la dimension pour les modèles de krigeage usuels. Par exemple si 5 points sont nécessaires pour modéliser correctement une fonction f dépendant d’une variable, il en faudra environ 10 millions pour modéliser une fonction de dimension 10 dont les variations sont du même ordre que celles de f.

En ce qui concerne l’interprétation des modèles de krigeage classiques, elle est effectivement très complexe par rapport à d’autres types de modèles comme la régression. Dans le cas de la régression linéaire, le modèle obtenu correspond à une projection orthogonale sur un ensemble de fonctions de base, et ces fonctions de base ont habituellement un sens global. Par exemple, si on modélise une fonction f de dimension 3 et que l’on choisit comme fonctions de base 1, x1, x2, x3, les valeurs des coefficients βi associés aux xi permettent de dire si f est globalement croissante ou décroissante en xi ou de déterminer la direction qui induit le plus de variations. Quant à eux, les modèles de krigeage correspondent aussi à la projection orthogonale sur un ensemble de fonctions de base, mais ces fonctions ont généralement une influence locale. Le type d’analyse qui peut être fait sur les βi pour la régression n’est donc plus possible. Si la dimension de la fonction modélisée dépasse un ou deux, le modèle construit ne peut pas être représenté graphiquement et il est compliqué soit de s’assurer que le modèle n’est pas aberrant soit de l’utiliser pour avoir un aperçu de la structure du phénomène modélisé. Ce manque d’interprétabilité peut engendrer une grande suspicion, par exemple dans le domaine médical, lorsqu’il est primordial de vérifier le bien-fondé du modèle utilisé [Plate, 1999; Wyatt, 1995].

Cadre général et notations

Nous considérerons que la fonction à approximer f est définie sur un compact D ⊂ Rd et qu’elle est à valeurs réelles. Comme il a été dit dans l’introduction, on suppose que l’on dispose de n points X = (X1, . . . , Xn) pour lesquels la valeur de f(Xi) est connue. Par la suite, les observations seront regroupées en un vecteur colonne qui sera noté F = f(X ).

Les théories des processus gaussiens (p.g.) et des RKHS sont basées sur un objet clef appelé fonction de covariance dans la première et noyau reproduisant dans la seconde. Ces deux objets sont des fonctions définies sur D × D et nous considérerons dans l’ensemble de ce manuscrit qu’elles sont à valeurs réelles.

Par la suite, nous verrons que la classe des fonctions symétriques positives (s.p.) joue un rôle primordial. Nous adopterons la définition suivante :

Définition 1.1. Une fonction symétrique positive sur D×D est une fonction K : D×D → R qui est

– symétrique : ∀x, y ∈ D, K(x, y) = K(y, x),
– de type positif : ∀n ∈ N, ∀a1, . . . , an ∈ R et ∀x1, . . . , xd ∈ D,

Modélisation par processus Gaussiens

Cette section a seulement pour but d’introduire les notations que nous utiliserons par la suite. Pour une vision d’ensemble de la modélisation par processus gaussiens nous renvoyons à l’ouvrage de Rasmussen et Williams : Gaussian Process for Machine Learning [Rasmussen and Williams, 2006].

L’hypothèse fondamentale de la modélisation par processus gaussiens est que la fonction f à approximer correspond à la trajectoire d’un processus gaussien Z indexé par D. Pour l’approche bayesienne, cette hypothèse s’interpréte comme la prise en compte d’un a priori sur f [O’Hagan et al., 2004]. La loi de Z est caractérisée par deux éléments : la moyenne, qui est une fonction sur D, et la covariance qui est une fonction sur D × D que nous noterons K :

∀x, y ∈ D, K(x, y) = cov (Z(x), Z(y)). (1.1)

Modèle de krigeage simple

Si Z est un processus dont la moyenne est connue, on peut se ramener sans perte de généralité au cas des processus centrés. La fonction de covariance K, aussi appelée noyau de covariance, est alors suffisante pour caractériser Z. Sauf mention du contraire, nous considérerons par la suite que Z est un processus centré.

Si l’on suppose que la valeur de f est connue pour un ensemble X = (X1, . . . , Xn) de n points appartenant à D, on peut s’intéresser à la distribution conditionnelle du processus Z sachant qu’il interpole f aux points du plan : Z(Xi) = f(Xi) (ou de manière vectorielle Z(X ) = F). Si l’on note m et c l’espérance et la covariance conditionnelles et que l’on remarque que le vecteur (Z(x), Z(X1), . . . , Z(Xn)) est un vecteur gaussien, on obtient directement pour x, y ∈ D :

m(x) = E (Z(x)|Z(X ) = F) = k(x) tK−1F
c(x, y) = cov (Z(x), Z(y)|Z(X ) = F) = K(x, y) − k(x) tK−1k(y)

où k(.) est un vecteur de fonctions de terme général k(.)i = K(Xi , .) et où K est la matrice de covariance de Z(X ) : Kij = K(Xi , Xj ). La fonction m correspond au meilleur prédicteur linéaire sans biais de Z(x) sachant Z(X ) = F. Cette fonction peut s’interpréter comme une combinaison linéaire des observations F pondérée par la matrice K−1 . Elle peut donc être vue comme un cas particulier de lissage par noyaux [Hastie and Tibshirani, 1990].

Modélisation dans les espaces de Hilbert à noyau reproduisant

Nous nous contenterons ici de citer les propriétés des espaces de Hilbert à noyaux reproduisants (RKHS) qui nous seront utiles par la suite. Pour une liste plus exhaustive des propriétés des noyaux reproduisants et le lien unissant processus gaussiens et RKHS nous nous contenterons de citer l’article de N. Aronszajn Theory of Reproducing Kernels [Aronszajn, 1950] ainsi que l’ouvrage de A. Berlinet et C. Thomas-Agnan Reproducing kernel Hilbert spaces in probability and statistics [Berlinet and Thomas-Agnan, 2004]. Par la suite, les RKHS que nous rencontrerons seront toujours des espaces de fonctions à valeurs réelles.

Un RKHS est un espace de Hilbert (H,h., .iH) de fonctions définies sur D pour lequel les fonctionnelles d’évaluations Lx : g ∈ H → g(x) ∈ R sont continues. Le théorème de Riesz implique donc l’existence d’un représentant Kx(.) ∈ H vérifiant

∀g ∈ H, ∀x ∈ D, g(x) = hKx, giH

Il découle de cette propriété de reproduction que K.(.) est symétrique

Kx(y) = hKx, KyiH = Ky(x).

les variables x et y jouant un rôle similaire, on définira donc le noyau reproduisant comme une fonction sur D × D :

K : D × D → R

(x, y) → Kx(y)

Le choix d’utiliser la même lettre K pour désigner à la fois la covariance du processus Z et le noyau reproduisant d’un RKHS H n’est pas dû au hasard. Ces deux objets, a priori distincts, sont définis de D × D sur R et ils vérifient tous deux les propriétés de symétrie et de positivité. Réciproquement, toute fonction s.p. K : D × D→ R est à la fois :
– la covariance d’un processus gaussien centré Z indexé par D ;
– le noyau reproduisant d’un RKHS H qui est le complété dans RD de l’espace préhilbertien Hp = Vect(K(x, .), x ∈ D) muni du produit scalaire entièrement défini par hK(x, .), K(y, .)iH = K(x, y).

Par la suite, le mot noyau fera toujours référence à une fonction s.p. et il pourra être vu soit comme la fonction de covariance d’un processus gaussien, soit comme le noyau reproduisant d’un RKHS.

De part cet objet commun qu’est le noyau, on associe un unique RKHS H à un processus gaussien centré Z et inversement. Cependant, il faut bien se garder d’identifier les trajectoires de Z aux fonctions de H puisque les trajectoires d’un processus gaussien Z n’appartiennent pas a priori à H. Par exemple si K est le noyau gaussien et que l’on note respectivement Z et H le p.g. et le RKHS associés, la probabilité qu’une trajectoire de Z appartienne à H est nulle [Driscoll, 1973; Berlinet and Thomas-Agnan, 2004].

Choix du noyau

Le choix du noyau définit l’espace dans lequel vit m, et donc il détermine ses propriétés. Par exemple, le choix du noyau gaussien (équation 1.9) implique que m est de classe C∞ et le choix du noyau brownien (équation 1.11) impliquera m(0) = 0. Bien qu’il n’existe pas de méthode permettant de choisir le noyau optimal pour traiter un problème donné, il est cependant possible d’éviter les erreurs les plus grossières. Par exemple, si on a des a priori sur la régularité de f ou sur certaines de ses propriétés, on choisira un noyau en conséquence.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Cadre général et notations
1.1 Modélisation par processus Gaussiens
1.1.1 Modèle de krigeage simple
1.1.2 Estimation des paramètres
1.2 Modélisation dans les espaces de Hilbert à noyau reproduisant
1.2.1 Interpolation dans les RKHS
1.3 Choix du noyau
1.3.1 Noyaux usuels
1.3.2 Limitations
2 Créer de nouveaux noyaux à partir de noyaux existants
2.1 Opérations algébriques élémentaires
2.1.1 Somme de noyaux
2.1.2 Multiplication par un scalaire positif
2.1.3 Produit de noyaux
2.1.4 Exemple : les noyaux ANOVA
2.2 Effet d’une application linéaire
2.2.1 Exemple : noyau symétrisé
2.3 Composition par une fonction
3 Modèles additifs de krigeage
3.1 Modèles additifs
3.2 Noyaux additifs
3.2.1 Processus gaussiens de noyaux additifs
3.2.2 RKHS de noyaux additifs
3.3 Noyaux additifs pour la modélisation
3.3.1 Matrices de covariance
3.3.2 Simulation de trajectoires
3.4 Modèles de krigeage additifs
3.4.1 Construction des modèles
3.4.2 Interprétation probabiliste
3.4.3 Interprétation fonctionnelle
3.4.4 Translation des sous-modèles
3.5 Estimation des paramètres
3.5.1 Estimation par maximum de vraisemblance
3.5.2 Algorithme de relaxation pour l’EMV
3.5.3 Comparaison des deux méthodes
3.6 Application à la fonction de Sobol
3.6.1 Comparaison avec les méthodes usuelles
3.7 Conclusion
4 S.e.v de fonctions d’intégrale nulle et noyaux associés
4.1 Décomposition ANOVA
4.1.1 Représentation ANOVA dans L
4.1.2 Décomposition ANOVA pour des processus en dimension 1
4.2 Décomposition de type ANOVA dans les RKHS
4.2.1 Cas des RKHS de fonctions 1D
4.2.2 Cas des RKHS produits tensoriels
4.2.3 Noyaux reproduisants associés
4.3 Interprétation probabiliste
4.3.1 Cas des processus univariés
4.3.2 Cas de processus indexés par un espace de dimension 2
4.3.3 Exemple en dimension 2
4.4 Interprétation de modèles de krigeage
4.5 Conclusion
Conclusion