Maximum de vraisemblance
Soit X1, . . . , Xn une suite de variables aléatoires réelles i.i.d issues d’une loi de densité f(., θ). L’estimateur du maximum de vraisemblance ˆθn maximise en a la vraisemblance ∏ni=1f(Xi, a) ou la log-vraisemblance ∑ni=1ln f(Xi, a). Il est équivalent d’écrire que : ˆθn=argmina∈Θn∑i=1− ln f(Xi, a). (1.9)
M-estimation dans le cas de variables aléatoires réelles : L’estimateur du maximum de vraisemblance est un M-estimateur. Si pour chaque x fixé, la densité f(x, a) est différentiable sur un voisinage de θ et f(x, a) > 0, alors ˆθn résout également l’équation de type (1.2), avec ψ(x, a) = ˙f(x,a)f(x,a) et ˙f(x, a) = ∂ f(x,t)∂tt=a. Cette définition n’est pas vérifiée si on prend l’exemple de la loi uniforme où la fonction lnf(x,θ) = ln 1[0,θ](x) −ln θ qui n’est pas continue sur tout voisinage de θ. La définition (1.1) est donc plus générale que celle donnée par (1.2), même si cette dernière est plus pratique pour les calculs.
Unicité et convergence des M-estimateurs
Soit Pn la distribution empirique associée à l’échantillon X1, . . . , Xn de variables aléatoires réelles de même loi Pθ. Nous considérons la définition (1.2) pour un Mestimateur, et nous posons λP(a) = Rψ(x,a)dPθ (x). On suppose que θ est une racine de l’équation λP(a) = 0, et que θn est une racine pour la version empirique : λPn(a) = 1nn∑i=1ψ(Xi, a) = 0. Si, par exemple, θn est la moyenne empirique, alors sous les conditions de la loi faible des grands nombres, θn converge en probabilité vers θ. Il est alors naturel de chercher des conditions suffisantes assurant la convergence de θn vers θ. Dans cette section, nous utilisons la notation op (petit o en probabilité) dont la définition et les propriétés sont rappelées en annexe.
Lemme 1.1.1 (Serfling, 1980, p.249) Soit θ une racine isolée de l’équation λP(a) = 0 et supposons que la fonction a 7→ ψ(x, a) soit monotone en a. Alors θ est unique et toute solution θn de l’équation empirique λPn(a) = 0 converge presque sûrement vers θ. De plus, si ψ(x, a) est continue en a sur un voisinage de θ alors θn existe.
Lemme 1.1.2 (Serfling, 1980, p.249) Soit θ une racine isolée de l’équation λP(a) = 0. Supposons que a 7→ ψ(x, a) est continue en a et bornée. Alors toute solution θn de l’équation empirique λPn(a) = 0 converge presque sûrement vers θ. Ces résultats nous indiquent que, pour des lois adaptées, la continuité en a de la fonction ψ entraîne l’existence et la convergence de l’estimateur dès que ψ est soit monotone,soit bornée en a
Point de rupture
Le point de rupture d’un estimateur est une deuxième mesure de la robustesse bien plus utilisée que la fonction d’influence grâce à sa facilité d’interprétation. Il est introduit tout comme la fonction d’influence par Hampel (1968, 1971). Dans cette section, nous ne traitons que sa version empirique introduite par Donoho (1982) et Donoho and Huber (1983) pour un échantillon fini d’observations. D’autres auteurs ont élargi l’étude du point de rupture par exemple pour des estimateurs de localisation et d’échelle et pour des modèles de régression. Citons en particulier les travaux de Chen and Tyler (2004); Davies and Gather (1993); Davies et al. (2005); Huber (1997); Chao (1986).
Comportement asymptotique
Quelques résultats asymptotiques vus précédemment peuvent être généralisés au cas multidimensionnel. Nous prenons les exemples du lemme 1.1.2 et du théorème 1.1.3 : les propriétés analytiques des fonctions utilisées dans ces résultats peuvent être étendues (la continuité et la bornitude ainsi que les propriétés des racines), en remplaçant la valeur absolue |.| par la norme euclidienne k.k. En particulier la convergence en probabilité ou presque sûre des estimateurs sont obtenues avec les conditions de régularité adaptées à Rd Les résultats de la normalité asymptotique peuvent également être généralisés en remplaçant les produits dans R par des produits scalaire et matriciel.
Les médianes multidimensionnelles
La popularité de la médiane dans le cas unidimensionnel est due à ses propriétés fondamentales. La première caractéristique de cet estimateur est l’équivariance par des transformations affines des données, qui est une propriété géométrique très importante pour l’estimation d’un paramètre de localisation. La seconde propriété est sa robustesse, son point de rupture est maximal et est égal à 0.5. Elle possède des bonnes propriétés asymptotiques, comme notamment sa convergence presque sûre et la normalité asymptotique. Dans la littérature, on trouve plusieurs propositions pour généraliser la médiane dans le cas multidimensionnel. Nous pouvons citer par exemple les travaux de Small (1990); Chaudhuri (1992) qui proposent une synthèse autour de la médiane multidimensionnelle. Dans cette partie, nous allons voir dans quelle mesure les propriétés de cet estimateur dans le cas unidimensionnel s’étendent au cas multidimensionnel. La version la plus populaire de la médiane est la L1-médiane que nous avons définie dans la relation (1.11) dans le cas particulier réel unidimensionnel. Cette médiane est aussi appelée médiane spatiale, Brown (1983), terminologie que nous adoptons dans ce travail.
Présentation des M-estimateurs pondérés
La classe des M-estimateurs pondérés consiste à attribuer des poids dans la fonction objective des M-estimateurs. Cela peut, par exemple, permettre d’adapter un Mestimateur au cas de données clusterisées, avec un choix de poids favorisant certains clusters pour une raison de taille ou de valeurs prises. Cela peut permettre également d’améliorer l’estimateur, par exemple, en réduisant sa variance. Un des exemples de M-estimateurs est la médiane spatiale pondérée. Elle est traitée dans Nevalainen et al. (2007b) où les poids sont calculés numériquement pour réduire la variance de l’estimateur non pondéré. Nous considérons de nouveau n clusters indépendants de loi Pθ , avec les mêmes hypothèses portant sur θ ∈ Θ. Nous utilisons les mêmes notations : ainsi Xij est le j-ième élément du cluster i (comprenant mi vecteurs aléatoires).
Points de rupture des M-estimateurs
Dans le chapitre précédent, nous avons présenté des M-estimateurs pondérés avec des poids optimaux qui améliorent leur efficacité. Nous développons maintenant la question de leur robustesse. En effet, lors de l’analyse d’un cas développé précédemment dans lequel on considère un cluster largement plus grand que les autres, on obtient pour celui-ci un poids plus faible que ceux obtenus pour les clusters de plus petite taille. Dans cette situation, si le cluster contient des valeurs aberrantes ou extrêmes, du fait de la pondération considérée, on peut espérer qu’elles perturbent de façon moindre notre estimateur. Pondérer un estimateur pourrait donc améliorer sa robustesse. Le graphique qui suit (figure 4.1) illustre le faible effet d’une perturbation d’un grand cluster sur l’estimation du centre. Nous allons désormais tester l’hypothèse selon laquelle un choix pertinent de poids pourrait améliorer la robustesse d’un M-estimateur pondéré par rapport à sa version non-pondérée en utilisant le point de rupture comme mesure globale de la robustesse
Conclusions et perspectives
Dans ce travail, nous avons établi les propriétés asymptotiques des M-estimateurs : la convergence en probabilité et presque-sûre ainsi que la normalité asymptotique. Nous avons illustré ces résultats au travers de simulations qui ont mis en évidence l’influence de la structure (la corrélation intra-cluster et leur taille) des variables aléatoires clusterisées. Nous avons obtenu des résultats similaires pour la classe des Mestimateurs pondérés. De plus, une étude d’optimisation de la variance en fonction des poids nous a permis d’identifier qu’un choix pertinent de la pondération permet d’améliorer l’efficacité des M-estimateurs pondérés par rapport aux non pondérés. Pour finir, nous avons donné l’expression explicite du point de rupture maximal pour des Mestimateurs pondérés, en fonction de celui associé à leur version non pondérée, ce qui nous a menés à la conclusion que la pondération ne pouvait pas permettre d’améliorer à la fois l’efficacité et la robustesse d’un M-estimateur. Il serait opportun d’appliquer une sélection de M-estimateurs pondérés ou non à des données clusterisées relatives à des cas réels. En effet, cette étude permettrait de valider nos estimateurs, jusqu’à présent étudiés dans un cadre théorique, et d’évaluer la pertinence de la localisation de centres existants, ou encore de proposer de nouveaux centres plus pertinents. Pour les clusters de même taille, les valeurs des poids obtenues dans la première configuration C1 sont très proches et choisis d’autant plus petits que la taille du cluster est importante. Il serait intéressant d’établir, par exemple en spécifiant la loi des clusters, un résultat théorique sur les valeurs optimales des poids permettant d’obtenir la meilleure efficacité. En premier lieu, on pourrait étudier, pour une corrélation intra-cluster identique, les M-estimateurs pondérés avec des poids choisis en fonction des tailles des clusters wij = wmi. Un autre cas intéressant sera d’appliquer des poids qui dépendent de la corrélation intra-cluster wij = wρi, avec ρi qui représente la corrélation qui caractérise les variables aléatoires du cluster i. Jusqu’à présent, les poids wij utilisés sont déterministes. Si nous supposons que les poids sont aléatoires, indépendants, et indépendants des observations Xi , les résultats du 3 peuvent se généraliser moyennant quelques adaptations simples, par exemple en supposant E(wij) = wij pour tout i et j. Nous pouvons envisager par la suite un cadre moins restrictif, en prenant par exemple des poids choisis en fonction du cluster i. Cela pourrait s’envisager notamment pour des données provenant de processus ponctuels agrégés où la taille des clusters Mi devient aléatoire. Nous pourrions également prendre en compte la dépendance des poids vis à vis des variables aléatoires wij = f(Xij), avec en particulier un choix du type wij = IXij∈D, où D est un domaine donné. Enfin, une application aux données réelles serait particulièrement intéressante pour comparer les différentes versions des estimateurs proposés dans cette thèse.
|
Table des matières
Introduction
1 Autour des M-estimateurs
1.1 M-estimation dans le cas de variables aléatoires réelles
1.1.1 Définitions et notations
1.1.2 Exemples classiques de M-estimateurs
1.1.3 Unicité et convergence des M-estimateurs
1.1.4 Normalité asymptotique
1.1.5 Robustesse
1.2 Cas multidimensionnel
1.2.1 Définitions et notations
1.2.2 Comportement asymptotique
1.3 Le cas spécifique de la médiane
1.3.1 Les médianes multidimensionnelles
1.3.2 Le cas particulier de la médiane spatiale
2 M-estimateurs pour des données clusterisées
2.1 Cadre d’étude
2.2 Convergence des M-estimateurs
2.3 Normalité asymptotique
2.4 Estimation de la variance
2.5 Cas particulier des Lp-estimateurs
2.6 Résultats numériques
3 M-estimateurs pondérés pour des données clusterisées
3.1 Présentation des M-estimateurs pondérés
3.2 Propriétés asymptotiques
3.2.1 Convergence des estimateurs
3.2.2 Normalité asymptotique
3.3 Efficacité relative d’un M-estimateur pondéré
3.3.1 Estimation de la variance
3.3.2 Cadre des simulations
3.3.3 Résultats pour l’optimisation des poids
3.3.4 Résultats pour l’efficacité
4 Robustesse
4.1 Points de rupture des M-estimateurs
4.2 Reformulation du point de rupture dans le cas pondéré
4.3 Comparaison des points de rupture entre versions pondérées et non pondérées
4.3.1 Remarques générales
4.3.2 Résultats numériques
Conclusions et perspectives
Annexes
Télécharger le rapport complet