L’analyse des données fonctionnelles constitue une nouvelle branche de la statistique qui suscite un engouement certain depuis les travaux » pionniers » et remarquables de Deville (1974) et de Dauxois & Pousse (1976). Avec les progrès de l’informatique aussi bien au niveau des capacités de stockage que de la puissance de calcul, obtenir des informations temporelles ou spatiales avec une résolution fine est maintenant courant. D’où l’émergence de nouvelles techniques statistiques, souvent issues des approches multivariées de la statistique, et de formalisation mathématiques en termes d’opérateurs et de variables aléatoires à valeurs dans des espaces fonctionnels. L’objectif de cette thèse est la courbe, courbe de température, courbe de croissance, qui peut être considérée soit comme la réponse d’un système connu dont on cherche l’entrée (problème inverse en életrophorèse désagragation de courbes phénologiques), soit comme l’entrée de modèles statistiques dont on cherche à estimer les » paramètres » , paramètres qui sont généralement eux – mêmes des fonctions.
La résolution de l’équation β nécessite d’inverser l’opérateur Γ dont on peut avoir une bonne estimation. Le problème majeur exact en est que sous des hypothèses générales, Γ est un opérateur compact et par conséquent d’inverse non borné, on dit que le problème est mal posé. Ceci est essentiellement dû à la dimension de l’espace de fonctions considérées et ce problème ne se pose pas dans le cas mutivarié où la matrice « design » est supposée de rang plein. Ce problème de conditionnement, déjà écrit dans Deville (1974) a été formulé explicitement en terme de problèmes inverses par Saporta (1981), Mes (2000) ou encore Antoniadis Sepalinas (2003). L’estimation de quantiles conditionnels sur des paramètres fonctionnels dans les modèles linéaires généralisés constituent quant à eux des problèmes mal posés, au sens par exemple où la plus petite valeur propre de la matrice d’information ne tend pas ves l’infini comme cela est supposé habituellement (Portnoy 1988), et non linéaires car l’estimateur est défini par une équation explicite non linéaire. Une difficulté supplémentaire provient du fait que l’opérateur à inverser n’est pas déterministe. Ce mémoire est consacré à l’analyse et la construction de modèles statistiques pour données fonctionnelles.
Après un bref rappel des principales définitions et des différents travaux portant sur l’analyse des données foncitonnelles, nous commençons à décrire plus en détails nos recherches sur le modèle linéaire fonctionnel. Nous considérons deux types d’estimateurs, l’un basé sur la régression sur compositions principales et l’autre sur une décomposition spline minimisant un critère des moindres carrés pénalisés. Nous étendons ensuite le cadre à deux modèles linéaires généralisés pour données fonctionnnelles et présentons une application à l’estimateur du plan d’occupation des sols à l’aide d’images satellites. L’approche la plus classique dans la communauté des » télé-détecteurs. » est basée sur des techniques de classification à partir d’observations, à une ou deux dates différentes, de pixels haute résolution (issus par exemple du capteur spot 4/HRV ). Elle présente deux inconvénients majeurs : Le coût des images et la faible couverture spatiale (50km × 50km). Nous proposons une nouvelle approche en considérant un modèle multilogit fonctionnel dont les variables explicatives sont les courbes d’évolution temporelle des réponses de piscels, basse résolution (issus par exemple du capteur Spot 4/végétation dont les images acquises quotidiennement couvrent l’Europe entière).
Cadre fonctionnel
Base B – splines
Cette section donne certaines propriétés des fonctions B-splines. Il faut noter que d’autres approches comme les bases splines de lissage (Wahba, 1990), les séries de Fourrier ou bien les ondelettes peuvent être utilisées. Les splines ont des propriétés d’approximation de fonctions » régulières » (Agarwall Studden 1981, Zhou et al. 1998) et numériques (Dierck X, 1993). On se donne une suite de noeuds to ≤ … ≤ tm sur la doite réelle.
Remarque : Les fonctions B – splines constituent une base (parmi d’autres) de l’espace vectoriel des fonctions définies sur l’intervalle [to, tm−k], polynômiale de degré inférieur ou égal à k sur chaque intervalle [ti , ti+1[, de classe C k−r au voisinage de chaque noeud de multiplicité r.
Analyse fonctionnelle
Espaces euclidiens
Une méthode bien connue de définition de la norme sur un espace vectoriel consiste à définir sur cet espace un produit scalaire. Rappelons qu’on appelle produit scalaire sur un espace vectoriel réel R une fonction réelle hx, yi, définie pour tout couple d’éléments x, y ∈ R et satisfaisant aux conditions suivantes :
1˚) x, y = y, x
2˚) x1 + x2, y = y, x1 + x2 = y, x1 = y, x2
3˚) λx, y = λx, y
4˚) x, x ≥ 0, l’égalité x, x = 0 ayant lieu seulement pour x = 0.
Espace de Hilbert
Définition
Un espace euclidien complet de dimension infinie s’appelle espace de Hilbert. Autrement dit, on appelle espace de Hilbert un ensemble H d’éléments f, g de nature artibraire vérifiant les conditions (axiomes) suivantes
a) H est un espace euclidien (c’est à dire un espace vectoriel muni de produit scalaire)
b) L’espace H est complet au sens de la métrique ρ(f, g) = ||f − g||.
c) L’espace H est de dimension infinie, c’est à dire pour tout n dans H on peut trouver n éléments linéairement indépendants. Le plus souvent on considère des espaces de Hilbert séparables, c’est à dire des espaces vérifiant encore un axiome.
d) H est séparable, c’est à dire dans H il existe un ensemble partout dense et dénombrable.
Comme exemple d’espace de Hilbert séparable on peut considérer l’espace £2 . Rappelons que deux espaces euclidiens R et R’ sont dits isomorphes, s’il est possible d’établir une correspondance biunivoque entre leurs éléments, telle que si
x ←→ x∗
y ←→ y∗
(x, y ∈ R ; x∗, y∗ ∈ R∗) on a
x + y ←→ x∗ + y∗
αx ←→ αx∗
et
x, y ←→ x∗ , y∗
Opérateurs linéaires
Définition d’opérateurs linéaires
Soient E et E1 deux espaces vectoriels topologiques. On appelle opérateur linéaire de E dans E1 une application
y = Ax (x ∈ E, y ∈ E1).
qui vérifie la condition
A(αx1 + βx2) = αAx1 + βAx2
L’ensemble DA de tous les x ∈ E pour lesquels l’application A est définie s’appelle – domaine de définition de l’opérateur A; en général, il n’est pas supposé que DA = E, mais nous allons toujours supposer que DA est une variété linéaire, c’est à dire que si x, y ∈ DA, on a aussi αx+βy ∈ DA, quels que soient α, β.
L’opérateur A s’appelle continu au point xo ∈ DA, si pour tout voisinage V du point y = Axo il existe un voisinage U du point xo tel que Ax ∈ V, dès que x ∈ U ∩ DA. L’opérateur A est dit continu, s’il est continu en tout point x ∈ DA.
|
Table des matières
Introduction
1 Cadre fonctionnel
1.1 Base B – splines
1.2 Analyse fonctionnelle
1.2.1 Espaces euclidiens
1.2.2 Existence de bases orthogonales, orthogonalisation
1.2.3 Espaces euclidiens complets – Théorème de Riesz – Fisher
1.2.4 Espace de Hilbert
1.2.5 Orthogonalité
1.3 Opérateurs linéaires
1.3.1 Définition d’opérateurs linéaires
1.3.2 Opérateurs linéaires bornés et continuité
1.3.3 Opérateurs adjoints – Opérateurs auto-adjoints
1.3.4 Ensemble résolvant – Spectre d’un opérateur linéaire
1.3.5 Opérateurs compacts auto-adjoints H
1.4 Description d’une variable aléatoire à valeurs dans un espace de fonctions
1.5 Analyse en composantes principales
1.6 Matrice d’inertie d’un nuage
1.7 Recherche du premier axe factoriel
1.8 Composantes principales
1.9 Regression sur composantes principales
1.9.1 Le modèle
1.9.2 La méthode des moindres carrés ordinaires
1.9.3 Recherche de ˆb
1.9.4 Matrice de variances-covariances de ˆb
2 Modèles de regression linéaire fonctionnel
2.1 Introduction
2.2 Modélisation
2.3 Condition d’existence et d’unicité de β
2.4 Approche par pénalisation
2.5 Une Etude de Simulation
2.6 Preuve du théorème 3.1
2.7 Application en Télédetection : Estimation du plan d’occupation des sols
2.7.1 Surfaces cultivées et pixels mixtes
2.7.2 Notations et présentation des données
2.7.3 L’Approche des courbes caractéristiques
2.7.4 Le modèle multilogit pour données fonctionnelles
2.7.5 Application aux données satellites
3 Estimation spline de quantiles conditionnelles pour variables explicatives fonctionnelles
3.1 Introduction
3.2 Construction d’un estimateur spline
3.3 Prévision de la concentration en ozone
3.4 Perspectives
Conclusion