Information auxiliaire non paramétrique

La notion d’information auxiliaire regroupe toute information extérieure à l’expérience statistique observée. Cette notion d’information auxiliaire tire son origine en théorie des sondages quelques siècles plus tôt. Plus précisément vers 1740, le magistrat Jean-Baptiste François de La Michodière voulut estimer la taille de la population française en supposant que le nombre des naissances, des mariages et des morts est proportionnel à la population entière. Cette hypothèse est donc une des premières traces d’une information auxiliaire dans l’histoire de la statistique. Elle permit de donner une approximation de la taille de la population française en multipliant le nombre de naissances par un facteur qui pouvait varier selon la personne et le lieu d’intérêt (par exemple la localité). Cette méthode, appelée estimateur par le ratio, a été validée par Laplace dans son mémoire Sur les naissances, les mariages et les morts [24] et fût très utilisée au sein de l’administration française de l’époque. On pourra consulter à ce sujet l’article de Bernard Bru [12].

Dans les siècles suivants, plusieurs auteurs en statistique se sont intéressés à développer des méthodes d’injection d’une information auxiliaire. Nous pouvons citer par exemple les références récentes [31], [37], [5], [4],[1]. Dans [5], la méthode du Raking-Ratio est utilisée afin d’incorporer une information auxiliaire donnée par les probabilités d’une ou plusieurs partitions selon un principe qui remonte à S.Kullback et C.T.Ireland [22]. Cette méthode est une procédure séquentielle permettant d’injecter une information auxiliaire l’une après l’autre. Dans [31], Owen a développé la méthode de la vraisemblance empirique qui peut être utilisée pour injecter une information auxiliaire donnée par des espérances. Cette méthode est devenue une méthode standard en statistique mathématique mais plus rarement utilisée sous l’angle d’une information auxiliaire. Dans [37], une méthode a été développée par Tarima et Pavlov afin d’injecter une information auxiliaire générale. Cette dernière consiste à minimiser la variance sur une classe d’estimateurs sans biais. La thèse de Mickael Albertus [4] utilise cette approche pour injecter une information auxiliaire apportée par des espérances, comme extension naturelle de probabilités d’ensembles comme [5].

Cependant il n’existe pas à proprement parler de théorie générale de l’information auxiliaire permettant de relier ces méthodes. Ainsi il est difficile de choisir parmi ces approches laquelle serait optimale pour incorporer une information extérieure à une expérience statistique donnée. De ce fait, nous proposons de rechercher une mesure de probabilité discrète ayant pour support l’échantillon vérifiant l’information auxiliaire et qui soit la plus proche de la mesure empirique au sens de la géométrie des mesures de probabilité. Ainsi la motivation principale de cette thèse est de développer une méthode d’injection optimale d’une information auxiliaire au sens de la géométrie de l’information. Cela nous a amené, dans un premier temps, à clarifier la notion vague d’information auxiliaire en la classifiant en deux catégories :

1. Une information auxiliaire forte est une information auxiliaire donnée par la connaissance d’une ou plusieurs espérances et plus généralement par des fonctionnelles de la loi P qui génère les données. Entre dans ce cadre, par exemple, la connaissance d’un moment de la loi P, un quantile, la probabilité d’un évènement, la connaissance de la variance ou bien l’injection de variables auxiliaires dans le cadre d’un sondage, certaines formes de calibration.

2. Une information auxiliaire faible est une information auxiliaire amoindrie par rapport aux informations auxiliaires fortes de la première catégorie. Par exemple, l’information auxiliaire peut être donnée par une estimation issue de sources indépendantes ou bien par une mesure des préférences d’un ou plusieurs experts sur un ensemble de choix restreints.

Concentration de la mesure empirique informée 

Concentration du processus empirique informé et application

L’objectif de cette section est de montrer que le processus empirique informé se concentre mieux que celui du processus empirique non informé pour n assez grand. De plus, nous montrons aussi que le supremum du processus limite informé est plus concentré que son analogue non informé. Tout d’abord précisons le cadre. Soit X1,··· ,Xn un échantillon de taille n ∈ N∗ i.i.d. de loi P inconnue. On suppose qu’on dispose d’une information auxiliaire I générale et d’une classe de fonctions F ⊂ L2 (P). On note αn et G (resp. αn,I et GI) le processus empirique non informé et son processus limite indexés par F (resp. le processus empirique informé et son processus limite). Par définition du processus limite informé, on a l’inégalité suivante vérifiée pour tout f ∈ F ⊂ L2 (P)

V arP[GI(f ) ] ≤ V arP [ G(f ) ] .

Le résultat suivant énonce que pour n suffisamment grand, αI n (f ) est plus concentré autour de 0 que ne l’est αn(f ) pour f fixée.

Borne de concentration pour le processus empirique informé Dans cette section, on souhaite établir une borne de concentration pour le processus empirique informé (dans le cas d’une information auxiliaire donnée par des espérances) qui soit meilleure asymptotiquement que la borne usuelle de type Bernstein. Le cadre est le suivant. Soit X1,··· ,Xn un échantillon i.i.d. de taille n ∈ N∗ et de loi P à valeurs dans X .

Cette information auxiliaire I est donc une information auxiliaire forte. Sans perte de généralité, on supposera que P g = 0. Notons pour tout n ∈ N∗ , αn,I et αn le processus empirique informé et non informé respectivement.

Utilisation de variables auxiliaires

En statistique, il n’est pas rare d’avoir à notre disposition des variables auxiliaires. Dans cette sous-section, on souhaite utiliser des variables auxiliaires afin d’améliorer l’estimation d’un paramètre. Nous montrons que l’injection de variables auxiliaires est un cas particulier d’information auxiliaire forte.

Tout d’abord posons le cadre mathématique. On observe un échantillon X1,··· ,Xn de taille n ∈ N∗ i.i.d. de loi P1 à valeurs dans X . On dispose aussi de variables auxiliaires A1,··· , An i.i.d. de loi P2 à valeurs dans A ⊂ Rk pour un certain k ∈ N∗.De plus, on suppose que les variables auxiliaires sont indépendantes aux données. On note pour tout i ∈ [1,n], Zi = (Xi , Ai) et Pn la mesure empirique associée à l’échantillon Z1,··· ,Zn. Observons que l’échantillon Z1,··· ,Zn est i.i.d et on note Q la loi du couple. On suppose de plus qu’on dispose d’une information auxiliaire de la forme g (Q). Cela est assez courant en théorie des sondages de disposer d’une variable auxiliaire sur l’ensemble de la population (recensement etc). Dans ce cas, le statisticien dispose d’une information du type P2g et il pose pour tout (x,a) ∈ X ×A , g˜(x,a) = g (a), on a P2g = Qg˜.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Approche géométrique de la notion d’information auxiliaire
1.1 Motivations du chapitre 1
1.2 Préliminaires techniques : cadre géométrique
1.2.1 Métrique de Fisher, sous variété autoparallèle et projection de connexion
1.2.2 α-connexion
1.2.3 Structure duale d’une variété
1.2.4 Construction d’une structure riemannienne duale à partir d’une divergence
1.2.5 Structure duale plate (DFS) et système dual de coordonnées
1.2.6 Divergence canonique construite à partir d’une DFS et relation triangulaire
1.2.7 Théorème de Pythagore généralisé et théorème de projection
1.2.8 α-variété et α-famille
1.2.9 Structure duale du modèle exponentiel et de mélange et divergence canonique associée à chaque modèle
1.3 Injection optimale d’une information auxiliaire
1.3.1 Projection de la mesure empirique sur P I
1.3.2 Structure géométrique de P I dans le cas d’une information auxiliaire forte apportée par des espérances
2 Mesure empirique informée par une information auxiliaire forte
2.1 Motivations du chapitre 2
2.2 Étude des deux problèmes d’optimisation
2.2.1 Premier problème d’optimisation
2.2.2 Second problème d’optimisation
2.3 Approximation commune de la solution de ces deux problèmes d’optimisation et définition de la mesure empirique informée
2.4 Généralisation à une information auxiliaire forte donnée par une fonctionnelle de la mesure P et étude de la répartition des poids sur l’échantillon
2.4.1 Généralisation à une information auxiliaire forte donnée par une fonctionnelle de la mesure P
2.4.2 Étude de la répartition des poids sur l’échantillon
3 Résultats asymptotiques pour l’injection d’information auxiliaire forte
3.1 Résultats du type Glivenko-Cantelli et Donsker sous des hypothèses minimales dans le cas d’information auxiliaire donnée par des espérances
3.2 Extension des résultats asymptotiques à des fonctionnelles
4 Injection d’information auxiliaire faible et résultats asymptotiques
4.1 Information auxiliaire faible issue de sources indépendantes à l’échantillon initial
4.1.1 Information auxiliaire faible donnée par des estimations issues de sources indépendantes
4.1.2 Ajout de données auxiliaires à l’échantillon initial
4.1.3 Un mélange des deux informations auxiliaires faibles précédentes
4.2 Information auxiliaire donnée par une mesure des préférences d’un expert
4.2.1 Choix entre un nombre fini de valeurs et généralisation au cas infini
4.2.2 Information auxiliaire donnée par une densité de probabilité
5 Concentration de la mesure empirique informée
5.1 Concentration du processus empirique informé et application
5.2 Borne de concentration pour le processus empirique informé
6 Information auxiliaire fausse et adaptativité de la mesure informée
Conclusion

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *