Contributions à la modélisation et à l'inférence des fonctions aléatoires non-stationnaires de second ordre

« La géostatistique est l’application du formalisme des fonctions aléatoires à la reconnaissance et à l’estimation des phénomènes naturels. » G. Matheron.

Le principal objectif de la géostatistique est la prédiction spatiale, encore appelée krigeage, consistant à prédire une variable régionalisée d’intérêt sur un domaine d’étude, à partir des données observées à certains emplacements. Le krigeage repose fondamentalement sur la modélisation et l’estimation de la structure de dépendance spatiale. La description de cette dernière se fait couramment à l’aide d’outils statistiques tels que le variogramme ou la covariance, calculés sur l’ensemble du domaine d’intérêt et sous une hypothèse de stationnarité [Chilès and Delfiner, 2012].

De la sorte, la complexité de la composante spatiale du phénomène analysé est donc limitée. L’hypothèse selon laquelle la structure de dépendance spatiale est invariante par translation sur l’ensemble du domaine d’intérêt peut être appropriée, lorsque ce dernier est de petite taille, lorsqu’il n’y a pas suffisamment de données pour justifier le recours à un modèle complexe ou simplement parce qu’il n’y a pas d’autres alternatives raisonnables. Cependant, il est de plus en plus admis que cette hypothèse est davantage motivée par des raisons de commodité mathématique que par la réalité [Guttorp and Schmidt, 2013]. La stationnarité n’est pas une généralité [Fuglstad, 2014] ; dans la pratique, il arrive souvent qu’elle soit douteuse, ceci en raison de nombreux facteurs, parmi lesquels les caractéristiques topographiques, les spécificités de la région d’intérêt ou d’autres influences locales. Ces influences locales peuvent être observées en calculant les variogrammes locaux dont les caractéristiques peuvent varier à travers le domaine d’étude. Dans un tel contexte, les modèles stationnaires sont incapables de prendre en compte certaines variations structurales comme une anisotropie locale variable. Par ailleurs, l’utilisation des modèles stationnaires serait susceptible de produire des prédictions moins précises, notamment une évaluation incorrecte de l’erreur d’estimation [Stein, 1999]. D’où la nécessité d’aller au-delà des modèles stationnaires. Dès lors se pose le problème du choix de la modélisation non-stationnaire à adopter et de son inférence.

Ce problème constitue le point de départ de notre réflexion : étant donnée une fonction aléatoire non-stationnaire en covariance (ou variogramme), n’y a t-il pas un paradigme statistique attrayant qui permette de la traiter au moyen de méthodes stationnaires ? Ce problème est bien connu dans la littérature géostatistique, avec les fonctions aléatoires intrinsèques d’ordre k (FAI-k) [Chilès and Delfiner, 2012]. Les FAI-k sont basées sur l’idée qu’une fonction aléatoire non-stationnaire en moyenne peut être réduite à une fonction aléatoire stationnaire par différenciation d’un ordre k.

Approches de modélisation non-stationnaire : état de l’art

Le problème classique en géostatistique est la prédiction d’une grandeur physique d’intérêt (variable régionalisée) sur un domaine d’étude à partir d’un ensemble fini d’observations éventuellement espacées irrégulièrement. Pour résoudre ce problème, les observations sont considérées comme étant issues de la réalisation d’une fonction aléatoire Z = {Z(x), x ∈ G ⊆ Rp} définie sur un domaine fixe et continu G de l’espace euclidien Rp . La fonction aléatoire Z est très souvent modélisée sous une hypothèse de stationnarité de second ordre ou de stationnarité intrinsèque [Matheron, 1971]. Autrement dit, ses deux premiers moments peuvent s’écrire sous la forme : E(Z(x) − Z(y)) = 0, Cov(Z(x), Z(y)) = C(x − y) ou ½ V(Z(x) − Z(y)) = γ(x − y). De la sorte, la moyenne est constante à travers le domaine d’intérêt et la structure de dépendance spatiale (covariance ou variogramme) entre deux emplacements ne dépend que du vecteur de distance les séparant.

Dans certaines situations, il est approprié de modéliser la covariance ou le variogramme par une famille paramétrique stationnaire. Tandis que dans d’autres cas, les caractéristiques non-stationnaires sont apparentes et doivent être prises en considération afin d’obtenir une prédiction spatiale plus fiable. Par ailleurs, il a été remarqué que la stationnarité d’ordre 2 n’est pas toujours une hypothèse raisonnable même pour les fonctions aléatoires de moyenne constante et de variance homogène [Vanmarcke, 2010]. Un exemple remarquable est le processus de Wiener à 1D. La variance du processus augmentent linéairement avec la localisation. Et même après une standardisation du processus (moyenne nulle et variance unité), sa fonction de corrélation est non-stationnaire [Vanmarcke, 2010]. Le variogramme du processus quant à lui est stationnaire.

Dès lors que la structure de dépendance spatiale n’est plus stationnaire (varie spatialement), deux conséquences importantes surviennent. Premièrement, les modèles de variogramme ou covariance valides dans le cadre stationnaire ne peuvent plus s’appliquer directement. Deuxièmement, la fonction aléatoire ne s’auto-réplique plus dans les différentes parties du domaine d’intérêt. Or, c’est cette répétition dans l’espace qui fournit, d’une certaine manière, l’équivalent de plusieurs réalisations de la même fonction aléatoire, permettant ainsi une certaine inférence statistique.

L’idée de base des approches non-stationnaires est que les paramètres variographiques (effet de pépite, palier, portée, anisotropie, . . . ) peuvent varier spatialement. Plusieurs approches ont été proposées pour rendre compte de la non-stationnarité dans les données géostatistiques. La littérature à ce sujet est récente. Dans ce chapitre, nous la passons en revue sous les rubriques suivantes : points sources, déformation d’espace, fonctions orthogonales empiriques, partitionnement, fenêtre glissante, convolution, lissage par noyau et équations aux dérivées partielles stochastiques. Nous décrivons chaque approche de modélisation et mettons en exergue leurs avantages et limites. Une attention particulière est portée sur les hypothèses de travail et l’inférence statistique. Nous montrons également au moyen de simulations à quoi peuvent ressembler des réalisations issues de certains de ces modèles non-stationnaires. Ce chapitre se termine par une vue synoptique des différentes approches. Pour une revue bibliographique synthétique et non exhaustive des approches de modélisation non stationnaire voir : Guttorp and Schmidt [2013], Sampson [2010], Sampson [2006] et Schabenberger and Gotway [2005a].

Points sources

Lorsqu’on connait les mécanismes qui contribuent à la non-stationnarité d’un processus spatial, ceux-ci peuvent être incorporés dans un modèle de covariance. Tel est le cas d’un processus spatial piloté par l’action d’un nombre limité de sites ou de points sources. L’intérêt peut se trouver non seulement dans la prédiction du processus spatial mais aussi dans l’évaluation de l’effet des points sources. Cette approche a été introduite par Hughes-Oliver et al. [1998a] qui proposent un modèle de corrélation pour un processus spatial conduit par un ou plusieurs points sources. Un point source étant défini comme une entité qui pilote le processus spatial directement ou indirectement. Cette définition attribue au moins un point source à un processus spatial.

Hughes-Oliver et al. [2009] étendent le modèle de décomposition d’un processus spatial suggéré par Hughes-Oliver and Gonzàlez-Farìas [1999] et proposent une approche hiérarchique bayésienne. Ecker and Oliveira [2008] présentent un modèle similaire à celui étudié par Hughes-Oliver and Gonzàlez-Farìas [1999], mais ils combinent les deux composantes du processus spatial de façon additive plutôt que multiplicative. Une approche bayésienne est utilisée pour tirer des conclusions sur les paramètres du modèle. Les covariances des deux processus spatiaux sous-jacents (stationnaire et non-stationnaire) sont définies dans la famille exponentielle. Le modèle est appliqué à une situation où il y a une externalité localisée dans une région qui influence le prix de vente des maisons (proximité de l’autoroute principale, d’une centrale nucléaire, d’un aéroport,. . . ). Ecker et al. [2013] améliorent le modèle de Ecker and Oliveira [2008]. Leur modèle n’a qu’un seul paramètre de plus que le modèle à structure de covariance stationnaire et il s’adapte mieux que le modèle à trois paramètres supplémentaires de Ecker and Oliveira [2008]. Le modèle est estimé dans le contexte bayésien et la méthode est illustrée sur le jeu de données utilisé par Ecker and Oliveira [2008].

Déformation d’espace

Généralement, si une fonction aléatoire ne possède pas les propriétés nécessaires à des fins d’inférence statistique, il est d’usage d’employer une transformation qui conduit aux propriétés souhaitées. L’anamorphose gaussienne et l’anisotropie géométrique sont deux exemples familiers de transformations en géostatistique. Une différence importante entre ces deux transformations est que la première transforme la variable régionalisée et la seconde l’espace géographique.

L’approche par déformation d’espace introduite par Sampson and Guttorp [1992] est la méthode la plus largement étudiée pour les fonctions aléatoires non-stationnaires. L’idée sous-jacente de la méthode est celle de la transformation du domaine d’observations d’une fonction aléatoire non-stationnaire dans un espace de dimension donnée, où elle peut être plus simplement décrite et modélisée ; c’est-à-dire où la stationnarité et l’isotropie seraient plausibles. À la différence de l’anisotropie géométrique où une transformation linéaire est effectuée, il s’agit ici d’une transformation non-linéaire.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Notations
1 Approches de modélisation non-stationnaire : état de l’art
1.1 Introduction
1.2 Points sources
1.3 Déformation d’espace
1.3.1 Modèle de base
1.3.2 Développements
1.3.3 Distance non-euclidienne
1.4 Fonctions orthogonales empiriques
1.5 Partitionnement et fenêtre glissante
1.5.1 Partitionnement
1.5.2 Fenêtre glissante
1.6 Convolution
1.6.1 Modèle continu
1.6.2 Modèle discret
1.6.3 Extensions
1.7 Lissage par noyau
1.7.1 Modèles locaux stationnaires pondérés
1.7.2 Variogramme (covariance) empirique lissé(e)
1.8 Équations aux dérivées partielles stochastiques
1.9 Conclusion
2 Modèle de déformation d’espace et inférence
2.1 Introduction
2.2 Description du modèle
2.3 Inférence statistique
2.3.1 Estimateur à noyau du variogramme
2.3.2 Construction de l’espace déformé
2.3.3 Estimation des paramètres fonctionnels
2.3.4 Réglages des hyper-paramètres
2.4 Prédiction
2.4.1 Krigeage
2.4.2 Simulation conditionnelle
2.5 Illustration
2.5.1 Exemple 1D
2.5.2 Exemple 2D
2.6 Conclusion
3 Modèle de convolution généralisé et inférence
3.1 Introduction
3.2 Définition du modèle
3.3 Classes de covariance non-stationnaire
3.4 Inférence statistique
3.4.1 Modélisation
3.4.2 Estimation des paramètres
3.4.3 Choix des hyper-paramètres
3.5 Prédiction
3.5.1 Krigeage
3.5.2 Simulation conditionnelle
3.6 Illustration
3.7 Conclusion
4 Synthèse – trois exemples d’application
4.1 Introduction
4.2 Application 1 : données de sol
4.3 Application 2 : données de pluie
4.4 Application 3 : données de topographie
4.5 Conclusion
Conclusions