Méthodes de Bootstrap en population finie

Plan de sondage

Si l’on enquêtait l’ensemble de la population (on parle alors de recensement) sur les variables d’intérêt, il serait théoriquement possible d’obtenir des estimations exactes pour les différentes fonctionnelles. On se heurte cependant à des difficultés pratiques :
→ Il n’est pas envisageable de recourir systématiquement à un recensement de la population. Ce type d’opération est coûteux et nécessite un personnel important (préparation de l’enquête ; collecte de l’information ; saisie, redressement et apurement des questionnaires ; exploitation des données).
→ Le volume d’information recueilli (on parle encore de fardeau de réponse) a des conséquences sur le coût de l’enquête, mais aussi sur les taux de réponse.
→ Pour fournir des statistiques récentes, il est nécessaire d’avoir des échantillons de taille limitée (dans le recensement français de 1999, exploitation au quart pour la plupart des estimations, exploitation au vingtième pour des estimations rapides).
→ Même si on enquêtait (théoriquement) exhaustivement la population, il subsiste toujours des problèmes de non-réponse (de l’ordre de 10 à 20 % dans les enquêtes obligatoires avec relance, jusqu’à 90 % et plus avec les échantillons de volontaires). On se contente donc généralement d’enquêter une partie des individus de la population, appelée échantillon.

Le théorême central-limite

Nous commençons par rappeler une forme de base du théorême central-limite dans le cas d’une population infinie.
Théorème 1.6. Soit (Xn)n∈N une suite de variables aléatoire i.i.d. On suppose que µ = E(Xi) et σ2 = V (Xi) existent. Alors Xn =1nPni=1 Xi suit asymptotiquement une loi normale. Démonstration. Voir par exemple Feller (1966). Pour une suite de variables aléatoires indépendantes, il est donc possible de connaître la loi asymptotique de la suite des sommes partielles. Dans le cadre d’un sondage, si les unités sont sélectionnées indépendamment, il est possible d’invoquer un résultat de ce type pour établir la loi asymptotique du π-estimateur. Cependant, la sélection des unités dans l’échantillon se fait dans la plupart des cas de façon dépendante : pour que l’échantillonnage soit efficace, on s’interdit en particulier de sélectionner plusieurs fois un même individu dans l’échantillon (on montre par exemple que le sondage aléatoire simple sans remise est plus efficace que le sondage aléatoire simple avec remise). Dans ce cas, les résultats classiques ne sont pas applicables. Dans le cadre d’une population finie, un théorême central limite a été démontré pour certains plans de sondage. Indépendamment, Erdös and Renyi (1959) et Hájek (1960) l’ont établi pour le sondage aléatoire simple sans remise. La population U est vue ici comme un élément d’une suite croissante de populations, notée (Uν); la taille de la population N et la taille n de l’échantillon sont également extraites de deux suites croissantes (Nν) et (nν), donnant respectivement la taille de la population Uν et la taille de l’échantillon sélectionné dans Uν. L’échantillon Sν est extrait de Uν avec un taux de sondage fν = nν/Nν. On note respectivement y¯ν et µyν la moyenne simple de la variable yν sur l’échantillon Sν et sur la population Uν. On note Sνy la dispersion de la variable yν sur la population Uν.

Méthodes de calcul de précision

Les formules présentées en 1.1.4 ne permettent d’estimer effectivement la variance que dans le cas d’une fonctionnelle linéaire, estimée à l’aide des poids de sondage. Or, on peut s’intéresser à des fonctionnelles non linéaires, de type ratios ou corrélations, voire à des fonctionnelles plus complexes de type indices, par exemple dans des études économiques sur la pauvreté. D’autre part, l’estimateur naturel de Horvitz-Thompson est généralement redressé, pour améliorer la précision et/ou tenir compte de la non-réponse. Nous présentons dans cette section quelques techniques classiques permettant de calculer la précision d’un estimateur complexe. Une présentation synthétique est donnée dans Wolter (2007). Voir également Deville (1987), Kovar et al. (1988), Rao et al. (1992), Shao and Tu (1995) et Davison and Sardy (2007). Dans la suite de ce texte, nous dirons qu’un estimateur de variance est consistant s’il restitue la vraie variance asymptotiquement sans biais.

Le Bootstrap

Le Bootstrap est sans doute la méthode d’estimation de précision par réplication la plus générale. Elle a été initialement proposée par Efron (1979) dans le cadre d’une population infinie. Nous proposons ici un bref aperçu de la méthode de Bootstrap de base. Nous détaillerons dans les chapitres suivants les différentes adaptations du Bootstrap au cas d’un sondage en population finie. Depuis l’article fondateur d’Efron, de nombreux ouvrages ont été consacrés au Bootstrap ; Hall (1992), Efron and Tibshirani (1993), Shao and Tu (1995) et Davison and Hinkley (1997) sont parmi les principales références. Ces deux derniers ouvrages présentent une revue des principales méthodes de Bootstrap en population finie. Sur ce sujet, voir également Deville (1987), Presnell and Booth (1994), Nigam and Rao (1996) et Lahiri (2003).

Cas d’une population finie

L’adaptation du Bootstrap au cas d’une population finie a suscité une littérature abondante, depuis l’article de Gross (1980) ; sans prétendre à l’exhaustivité, nous présenterons des méthodes proposées depuis lors dans les chapitres suivants. Il est important de souligner la parenté entre le principe de plug-in en population infinie, et le principe d’estimation de Horvitz-Thompson en population finie, présenté aux paragraphes 1.1.3 et 1.3.1 ; la mesure M joue le rôle de la loi inconnue F, que l’on estime par la mesure Mˆ =Pk∈Sδk/πk calculée sur l’échantillon en tenant compte des poids de Horvitz-Thompson. Comme nous l’avons souligné précedemment, les enquêtes sont généralement entachées de non-réponse (partielle ou totale) qui détériorent l’échantillonnage d’origine. S’il est possible d’obtenir des résultats de validité au second ordre dans le cas idéal où tout l’échantillon sélectionné est effectivement enquêté, ces résultats sont plus délicats à justifier dans une situation pratique où des phénomènes complexes de non-réponse entrent en jeu. En particulier, il ne paraît pas évident de justifier d’une plus grande pertinence du Bootstrap par rapport à l’approximation normale. D’autre part, des techniques telles que la linéarisation constituent des outils très généraux, disponibles sous forme de logiciels et largement utilisés. Dans ce cas, quelle utilité pour des méthodes de Bootstrap en population finie ? On peut d’abord noter que, même si la validation théorique du Bootstrap en population finie pose des difficultés, de nombreuses simulations montrent le bon comportement d’une méthode de Bootstrap judicieusement choisie, et des taux de couverture théoriques souvent mieux respectés qu’avec l’approximation normale pour des paramètres non lisses de type fractiles. Nous montrerons également dans les chapitres suivants qu’une méthode de Bootstrap basée sur le principe de π-estimation permet d’obtenir une estimation consistante de variance pour une gamme étendue de plans de sondage. D’autre part, une technique telle que la linéarisation suppose de pouvoir retracer l’ensemble du plan de sondage ; or, la chaîne de traitements d’une enquête sépare généralement le concepteur et l’utilisateur, ce dernier ne disposant que du fichier d’enquête éventuellement muni d’une variable de poids synthétisant les différents traitements (échantillonnage, traitement de la nonréponse, redressement, …). Le calcul par le concepteur de poids Bootstrap (issus par exemple d’une méthode de type percentile) adjoints au fichier d’enquête fournirait à l’utilisateur un moyen simple de calcul de précision, pour n’importe quel domaine de l’enquête. Enfin, certaines enquêtes mettent en jeu une stratégie (échantillonnage et estimation) complexe, dont la précision est délicate à évaluer avec la linéarisation ; le Bootstrap peut alors fournir une alternative intéressante (voir le chapitre 6), bien qu’il soit dans ce cas davantage fondé sur des principes de bon sens plutôt que sur une démonstration rigoureuse.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Généralités sur la théorie des Sondages et le calcul de précision
1.1 Généralités sur la théorie des Sondages
1.1.1 Population finie et variable d’intérêt
1.1.2 Plan de sondage
1.1.3 Estimation de Horvitz-Thompson
1.1.4 Calcul et estimation de variance
1.1.5 Formules simplifiées de variance pour les plans à forte entropie
1.2 L’asymptotique en théorie des Sondages
1.2.1 Le théorême central-limite
1.2.2 Développements d’Edgeworth
1.2.3 Discussion
1.3 Méthodes de calcul de précision
1.3.1 La technique de linéarisation
1.3.2 Le Jackknife
1.3.3 Les demi-échantillons équilibrés
1.3.4 Le Bootstrap
2 Bootstrap pour le sondage aléatoire simple
2.1 Rappels sur le sondage aléatoire simple
2.1.1 Définition
2.1.2 Estimation et calcul de précision
2.2 Les méthodes de Bootstrap existantes
2.2.1 Le Bootstrap avec remise (Mac Carthy and Snowden,1985)
2.2.2 Le Rescaled Bootstrap (Rao and Wu, 1988)
2.2.3 Le Mirror-Match Bootstrap (Sitter, 1992b)
2.2.4 Le Bootstrap sans remise ou BWO (Gross, 1980)
2.2.5 Le Bootstrap pondéré (Bertail and Combris, 1997)
2.2.6 Discussion
2.3 Résultats obtenus
2.3.1 Méthode BWO tronquée
2.3.2 Méthode BBH simplifiée
2.3.3 Méthode BWO calée
2.3.4 Simulations
2.4 Conclusion
3 Bootstrap d’un plan de sondage à probabilités inégales
3.1 Introduction
3.1.1 Echantillonnage à probabilités inégales
3.1.2 Algorithme de Bootstrap proposé
3.1.3 Algorithme simplifié
3.2 Un critère général de validité du Bootstrap
3.3 Le tirage poissonien
3.3.1 Rappels sur le plan poissonien
3.3.2 Bootstrap pondéré d’un échantillon poissonien (Bertail and Combris, 1997 )
3.3.3 Propriétés de la méthode de Bootstrap proposée
3.3.4 Simulations
3.4 Le tirage réjectif
3.4.1 Rappels sur le plan réjectif
3.4.2 Résultats obtenus pour la méthode de Bootstrap
3.4.3 Simulations
3.5 Les plans à probabilités inégales proches de l’entropie maximale
3.5.1 Rappels
3.5.2 Bootstrappabilité
3.5.3 Simulations
4 Bootstrap d’un plan de sondage équilibré
4.1 L’échantillonnage équilibré
4.1.1 Définition
4.1.2 Mise en oeuvre : la méthode du Cube
4.1.3 Calcul de précision analytique
4.2 Un algorithme rapide d’échantillonnage équilibré
4.2.1 Présentation
4.2.2 Cas de l’échantillonnage à probabilités inégales
4.2.3 Echantillonnage équilibré stratifié
4.3 Bootstrap d’un échantillon équilibré sur une variable
4.3.1 Approximation des probabilités d’inclusion
4.3.2 Approximation de variance et bootstrappabilité
4.4 Bootstrap d’un échantillon équilibré : cas général
4.4.1 Approximation des probabilités d’inclusion
4.4.2 Approximation de variance et bootstrappabilité
4.4.3 Simulations
4.5 Une généralisation de la méthode mirror-match
4.5.1 Présentation
4.5.2 Lien avec l’échantillonnage équilibré stratifié
5 Bootstrap d’un plan de sondage complexe
5.1 Le tirage stratifié
5.1.1 Principe
5.1.2 Bootstrap d’un échantillon stratifié
5.2 Le tirage multi-degrés
5.2.1 Notations
5.2.2 Méthodes de Bootstrap existantes
5.2.3 Une méthode générale de Bootstrap
5.2.4 Une méthode simplifiée de Bootstrap
5.3 Redressement d’un estimateur
5.3.1 Principe
5.3.2 Prise en compte du calage dans le Bootstrap
5.4 Compléments
6 Application au Nouveau Recensement de la population
6.1 Le plan de sondage du Nouveau Recensement
6.1.1 Les petites communes
6.1.2 Les grandes communes
6.2 Estimations basées sur une année de collecte
6.2.1 Estimation sur le champ des grandes communes : étude par simulations
6.3 Utilisation de plusieurs années de collecte : l’estimation sur zones mixtes
6.3.1 Introduction
6.3.2 La méthode
6.3.3 Estimation de précision