Théorème de Kolmogorov

Théorème de Kolmogorov

Motivation. Soient pXnqnPN˚ et X des variables aléatoires à valeurs dans un même espace probabilisable pX , Aq. Nous définirons plus loin la convergence faible ou convergence en loi de la suite pXnq vers la variable X. Cette notion implique que les lois des variables Xn et X ne dépendent pas a priori d’un même espace de probabilité où seraient définies simultanément tous les Xn. Il se pourrait en effet que chaque variable Xn soit définie sur un espace de probabilité pΩn, Tn, Pnq différent, ce qui rend impossible l’étude même de la convergence en probabilité ou presque sûre, ces deux derniers types de convergence nécessitant de travailler sur les mêmes ω ∈ Ω. Il convient donc de montrer comment répondre à cette problématique avant d’établir une définition de la convergence en loi.

Théorème d’extension de Kolmogorov. Le résultat suivant établi par Kolmogorov montre qu’il est possible de travailler sur un espace commun sans changer les lois des variables étudiées.

Définition

Motivation. Nous allons à plusieurs reprises parler de la convergence en loi d’une suite de variables aléatoires (Xn)n∈N vers une variable X. Nous allons donner dans un premier temps sa définition et dans un second temps une équivalence qui permettra de comprendre le lien théorique entre la convergence faible et l’approximation forte. Cette première définition ne sera pas suffisamment exigeante et peut poser des problèmes au niveau de la mesurabilité. On résout ce problème par une seconde approche qui est présentée.

Inégalités de concentration

Inégalité de Borell-Sudakov. Dans les parties suivantes nous établirons des convergences presque sûres vers un processus gaussien centré indexé par une classe de fonction. Il est donc nécessaire de pouvoir étudier le supremum sur cette classe de fonctions d’un tel processus.

Inégalité de Talagrand. Concernant le processus empirique, nous avons également quelques résultats de concentration. Comme pour l’inégalité de Borell, ils s’avèrent être des outils théoriques puissants pour étudier les déviations du supremum du processus empirique indexé par des classes de fonctions vérifiant certaines conditions d’entropie. Le premier résultat donne une inégalité de concentration de la déviation du processus empirique indexé par une classe VC .

Information auxiliaire d’une partition 

Lors de l’étude d’un échantillon, il est monnaie courante de recueillir des informations qualitatives ou quantitatives sur les individus d’une population telles que le poids, la taille, l’âge, … Par ailleurs, il arrive que les statisticiens aient à disposition des informations auxiliaires telles que la proportion de gens appartenant à une classe spécifique, c’est-à-dire la probabilité d’appartenir à un ensemble d’une partition. Par exemple, la proportion exacte d’une population dont l’âge, le poids ou la taille est comprise dans une certaine tranche. On peut imaginer qu’une telle information est apportée par un expert, par l’exploitation d’une grande base de données, par les résultats d’un sondage préliminaire de très grande taille, etc… On souhaite naturellement intégrer ces informations a priori dans l’étude de l’échantillon avec l’espoir de corriger des sous et sur-représentations d’individus appartenant à une certaine catégorie que le hasard entraînerait inéluctablement. Nous devons donc apporter des modifications au niveau du processus empirique afin d’utiliser cette information. Cela entraîne inévitablement un biais, que nous souhaitons être asymptotiquement nul, mais nous avons l’espoir d’augmenter la précision dans les estimations d’une large collection de statistiques, sous-entendu que l’information amenée permet de réduire asymptotiquement la variance et donc le risque quadratique des estimateurs.

Très peu de recherches porte sur l’utilisation d’une telle information auxiliaire. Le peu d’articles entourant ce sujet ne traite pas ce problème du point de vue de la théorie du processus empirique. La plupart de ces articles montrent que l’on peut améliorer l’estimation d’une seule statistique en utilisant l’information auxiliaire alors que nous souhaitons dans notre cas montrer qu’il y a amélioration d’une collection de statistiques.

Approche existante. Il existe dans la littérature plusieurs méthodes, œuvrant dans ce but, appelées méthodes de redressement. Parmi ces méthodes, on retrouve le redressement par suppression, par extraction ou par repondération. C’est cette dernière qui est étudiée en détail sous un nouvel angle dans ce chapitre. En effet nous avons substitué les poids initiaux 1/n de chaque individu par des poids aléatoires, dépendant de l’ensemble de la partition A dans lequel l’individu appartient. Cette approche diffère de ce qui a été fait dans la littérature. La seule notion se rapprochant le plus de notre étude est l’estimateur d’HorvitzThompson introduit par ces derniers en 1952 [49]. Dans notre étude, l’information auxiliaire est apportée par la probabilité d’appartenir à un ensemble d’une partition donnée de notre population et on considère que notre modèle est celui d’une superpopulation. L’information auxiliaire étudiée par Horvitz et Thompson est donnée par la probabilité d’appartenir à un sous-ensemble de la population et les individus n’ont pas la même probabilité d’appartenir à l’échantillon.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 Préliminaires techniques
1.1 Convergence en loi
1.1.1 Théorème de Kolmogorov
1.1.2 Définition
1.2 Processus empirique
1.2.1 Notations et hypothèses
1.2.2 Définition du processus empirique
1.2.3 Transformation et approximation des quantiles
1.2.4 Inégalités de concentration
1.3 Approximation forte
1.3.1 Approximation forte : de Skorokhod à KMT
1.3.2 Approximation forte de Berthet-Mason
2 Information auxiliaire d’une partition
2.1 Introduction
2.1.1 Notations et définitions
2.1.2 Motivation
2.2 Résultats asymptotiques
2.2.1 Approximation forte
2.2.2 Convergence en loi
2.2.3 Variance et covariance asymptotiques
2.2.4 Loi du logarithme itéré
2.3 Résultats non-asymptotiques
2.3.1 Expression du biais
2.3.2 Divergence de Kullback-Leibler
2.4 Application : test de Kolmogorov-Smirnov
3 Méthode du Raking-Ratio
3.1 Introduction
3.1.1 Description de la méthode
3.1.2 Cadre de travail
3.1.3 Motivation
3.2 Résultats non-asymptotiques
3.2.1 Mesure empirique rakée
3.2.2 Processus empirique raké
3.3 Résultats asymptotiques
3.3.1 Processus gaussien raké
3.3.2 Approximation forte et applications
3.4 Résultats non-asymptotiques avec deux partitions
3.5 Résultat asymptotiques avec deux partitions
3.5.1 Expression du processus gaussien raké
3.5.2 Limite du processus gaussien raké
3.6 Exemples numériques
3.6.1 Calcul d’une moyenne rakée
3.6.2 Calcul de S1,pairpfq et S2,impairpfq
3.6.3 Simulation du processus empirique raké
3.6.4 Fonctions de répartitions rakées
3.7 Apprentissage de l’information auxiliaire
3.7.1 Introduction
3.7.2 Résultats principaux
3.7.3 Applications statistiques
3.7.4 Calcul de σp8qf dans un cas simple
4 Information auxiliaire générale
4.1 Introduction
4.2 Estimateur avec information auxiliaire générale
4.2.1 Littérature
4.2.2 Estimateur de Tarima et Pavlov
4.3 Information auxiliaire donnée par des espérances
4.3.1 Introduction
4.3.2 Résultats
4.3.3 Exemples
4.3.4 Généralisation des chapitres précédents
4.4 Information auxiliaire générale
4.4.1 Introduction
4.4.2 Résultats
4.4.3 Application : covariance connue
4.4.4 Application : espérance conditionnelle connue
4.4.5 Application : coefficient de corrélation connu
4.4.6 Régression linéaire et information auxiliaire
5 Processus empirique bootstrappé
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *