La Technique de bootstrap
Méthodes de rééchantillonnage de bootstrap
Le mot bootstrap provient de l’expression anglaise ”to pull oneself up by one’s bootstrap” (Efron, Tibshirani, 1993), qui signifie littéralement ”se soulever en tirant sur les languettes de ses bottes”.
Le mot bootstrap fait penser à des traductions telles que ”`a la force du poignet” ou ”par soi-même” ou ”passe partout” (Dagnelie, 1998), mais en fait il n’est jamais traduit dans la littérature scientifique d’expression française.
Principe de bootstrap:
La technique de bootstrap est conçue pour être utilisée dans le contexte du travail empirique ; comme le nom suggéré, l’idée du principe original de la méthode est d’utiliser le seul ensemble de données disponible pour approximer la distribution des aléas ou d’autres quantités du modèle, et cela en construisant toutes les combinaisons possibles (toutes les fonctions de répartitions empiriques possible) de ces données.
Bootstrap des individus:
On considère un ´échantillon de n observations : x1, x2, . . ., xi,. . ., xn, prélevé de manière aléatoire et simple dans une population. Ces observations peuvent concerner une seule variable, ou être relatives à plusieurs variables. Dans ce cas, les xi représentent des vecteurs de dimension p, p étant le nombre de variables. Afin de ne pas alourdir les notations, nous ne distinguerons pas ces deux situations et, de manière plus générale, nous désignerons l’échantillon initial par x, qu’il s’agisse d’un vecteur ou d’une matrice.
Le principe de la méthode du bootstrap est de prélever une série d’échantillons aléatoires et simples avec remise de n observations dans l’échantillon initial, considéré comme une population.
Méthode des pourcentiles simples
Dans la méthode des pourcentiles simples (simple percentile confidence interval), les limites de confiance sont données par les pourcentiles α/2 et 1 − α/2 de la distribution d’échantillonnage empirique, c’est-`a-dire de la distribution des ˆθ∗. Nous les notons ˆθ∗[α/2] etˆθ∗[1−α/2].
Contrairement `a la méthode de l’erreur-standard, la distribution d’´échantillonnage du paramètre étudié ne doit pas ˆêtre normale pour que la méthode des pourcentiles soit satisfaisante.
Par contre, le nombre de rééchantillonnages B doit ˆêtre plus ´élevé que dans le cas de la méthode
de l’erreur-standard, car il faut un plus grand nombre d’observations pour estimer, avec une précision suffisante, un pourcentile que pour estimer un ´écart-type. B sera par exemple de l’ordre de 1000.
Pour 1000 rééchantillonnages et pour un degré de confiance de 95%, les pourcentiles 0,025 et 0,975 correspondent approximativement `a l’observation de rang 25 et `a l’observation de rang 975, la valeur exacte pouvant dépendre de l’algorithme utilisé pour le calcul de ces pourcentiles.
Les résultats obtenus pour les trois paramètres considérés dans l’exemple sont les suivants : 22,48
et 33,89 pour la moyenne, 14,82 et 24,01 pour la médiane, et 512,92 et 1248,80 pour la variance.
L’estimateur de Rosenblatt
En 1962, Parzen à étudié les propriétés fondamentales de l’estimateur à noyau de la densité, juste après son introduction par Rosenblatt . A partir de ce moment, cet estimateur à noyau de la densité est devenu un objet classique étudie par les statisticiens. Pour les statisticiens, il est déjà devenu un exemple canonique d’estimateur non paramétrique de courbe, qui utilise des résultats de la théorie d’approximation et l’analyse harmonique.
L’estimateur de la densité de probabilité par la méthode du noyau est le plus répandu aujourd’hui, car il répond au problème du choix des différents paramètres dans l’estimation à histogramme et possède de bonnes propriétés. L’idée consiste à évaluer la densité f au point x en comptant le nombre d’observations tombées dans un certain voisinage de x sur R.
Propriétés de l’estimateur à Noyau
Cette section est consacrée à quelques résultats théoriques sur les propriétés de l’estimateur à noyau, à savoir :
– Le comportement asymptotique du biais et de la variance.
– La convergence en moyenne quadratique et en moyenne quadratique intégrée.
– La convergence uniforme (en probabilité,presque complète).
– La convergence en norme L1.
Bochner a donné le premier résultat de convergence sous forme d’un lemme sur lequel les principaux théorèmes de convergences sont basés.
Les noyaux Gamma et Beta
Quoique les méthodes précédentes diminuent le biais, aux bornes, elles restent peu efficaces car le biais reste considérable si on le compare aux biais de l’intérieur du support. Pour obtenir un biais aux bornes de même ordre que celui de l’intérieur, Devroy et Gyorfi (1985) et Marron et Ruppert (1994)[69], ont proposé d’appliquer une transformation sur les données originales de telle façon que la dérivée d’ordre 1 de la densité des variables transformées soit égale à zéro et ensuite utiliser la méthode de réflexion pour estimer la densité des données transformées.
L’objectif étant de trouver cette fois un biais du même ordre mais sans transformation des données. Plusieurs autres auteurs ont proposé d’utiliser les noyaux adaptés dans la région des bornes et le noyau standard à l’intérieur du support (voir Jones (1993) [57]). Pour l’estimation à noyau aux bornes, Muller (1991) pour l’estimateur à noyau optimal aux bornes et Lejeune et Sarda (1992)pour l’estimation linéaire local.
L’inconvénient de ces estimateurs est qu’ils attribuent des poids négatifs aux valeurs du voisinage des bornes.
La solution la plus récente est d’utiliser des noyaux asymétriques et adaptés qui n’assignent aucun poids à l’extérieur du support. Chen(1999) et Chen(2000) propose respectivement le noyau Beta pour les densités à support compact et le noyau gamma pour les densités à variables à support positif (c’est-à-dire sur [0, +∞[).
|
Table des matières
Introduction générale
1 La Technique de bootstrap
1.1 Introduction
1.2 Exemple canonique (Evaluation de la précision d’une estimation)
1.3 Méthodes de rééchantillonnage de bootstrap
1.3.1 Définition
1.3.2 Principe de bootstrap
1.3.3 Bootstrap des individus
1.4 Bootstrap des résidus
1.4.1 1ere approche(bootstrap des paires)
1.4.2 2eme approche (bootstrap des résidus)
1.5 Erreur-standard et biais d’un paramètre
1.5.1 Estimation de l’erreur-standard
1.5.2 Estimation du biais
1.6 Intervalles de confiance
1.6.1 Méthode de l’erreur-standard
1.6.2 Méthode des pourcentiles simples
1.6.3 Méthode des pourcentiles corrigés pour le biais
1.6.4 Méthode des pourcentiles avec correction pour le biais et accélération
1.6.5 Méthode du bootstrap − t
1.7 Conclusion
2 Estimation de la densité de probabilité par la méthode du noyau
2.1 Introduction
2.2 Critères d’erreur et définitions
2.2.1 Les différents critères d’erreur
2.2.2 Quelques définitions
2.3 L’estimateur de Rosenblatt
2.4 Propriétés de l’estimateur à Noyau
2.4.1 Espérance, Biais et Variance de l’estimateur
2.4.2 Comportement asymptotique du biais et de la variance
2.4.3 Convergence en moyenne quadratique
2.4.4 Convergence en moyenne quadratique intégrée
2.4.5 Convergence uniforme
2.4.6 Convergence L1 presque complète
2.4.7 Comportement asymptotique
2.4.8 Vitesse de convergence
2.5 Choix du noyau
2.5.1 Noyau Uniforme (Rosenblatt)
2.5.2 Noyau Box(boite)
2.5.3 Noyau Triangulaire
2.5.4 Noyau Cosine
2.5.5 Noyau Gaussien
2.5.6 Noyau Biweight (Tukey)
2.5.7 Noyau Triweight
2.5.8 Noyau Epanechnikov
2.5.9 Noyau Miroir (Schuster)
2.5.10 Les noyaux Gamma et Beta
2.6 Choix du paramètre de lissage
2.6.1 Méthodes plug-in(re-injection)
2.6.2 Méthodes Cross-Validation (Validation Croisée)
2.7 Bootstrap dans l’estimation de la densité de probabilité
2.7.1 Bootstrap dans l’estimation locale de la densité de probabilité
2.7.2 Bootstrap dans l’estimation globale de la densité de probabilité
2.8 Simulations et résultats
2.8.1 Introduction
2.8.2 Résultats
2.9 Conclusion
3 Régression non-paramétrique réelle
3.1 Le modèle non-paramétrique
3.2 La méthode du noyau
3.3 Convergence presque complète
3.3.1 Résultats sous hypothèse de d´dérivabilité
3.3.2 Résultats sous hypothèse de continuité
3.3.3 Résultats sous hypothèse de type Lipschitz
3.4 Convergence en moyenne quadratique
3.4.1 Erreur quadratique en moyenne ponctuelle
3.4.2 Erreur quadratique moyenne intégrée
3.5 Choix du paramètre de lissage
3.5.1 Optimisation des vitesses de convergence
3.5.2 Choix automatique de la fenêtre
3.6 Bootstrap dans l’estimation globale de la courbe de régression de la moyenne par la méthode du noyau
3.7 Simulations et résultats
3.7.1 Introduction
3.7.2 Résultats
3.8 Conclusion
4 Conclusion
Télécharger le rapport complet