Les mesures de divergences généralisées

L’un des problèmes les plus fréquents en statistique est la détermination d’un modèle approprié pour décrire ou caractériser un ensemble de données expérimentales. Cette détermination se fait sur deux choses ; le choix d’ un modèle à structure approprié et l’estimation de ses paramètres. L’estimation des paramètres se fait en général par la méthode du maximum de vraisemblance ; le choix du modèle est facilité par des critères de sélections.Un critère de sélection est un estimateur d’une variante de la divergence entre le vrai modèle de loi inconnue et le modèle candidat de loi connue. Cette divergence évalue l’écart ou ”distance” entre ces deux modèles. Plusieurs divergences ont été proposées pour évaluer cette ”distance” comme la divergence d’hellinger , la divergence variationnelle , la divergence de khi-deux , la divergence de kullback leibler dirigée ou information de kullback ou encore entropie relative etc. parmi eux certaines verifient toutes les propriétés d’une distance , d’autres ne vérifient pas toutes les propriétés d’une distance comme la distance de kullback leibler dirrigée qui est asymétrique et ne respecte pas l’inégalité triangulaire.

Dans ce papier ,des divergences symétriques seront crées à partir des divergences dirrigés et alternatives de kullback, et des critères de sélection en seront déduits . Ces critères de sélection sont des estimateurs asymptotiquement sans biais des variantes de ces divergences symétriques pour les modèles de petites tailles ,et une version corrigée de quelques de ces critères est aussi déduite en vue d’une réduction de leurs biais sous les modèles de régressions linèaires . Ces critères corrigés sont des estimateurs exactement sans biais dans le cas des modèles correctement spécifiés c’est à dire lorsque l’ensemble des modéles candidats contient le vrai modèle . Ce papier montre que le critère corrigé est plus performant que le critère non corrigé. Une comparaison de ces critères par rapport aux autres critères basés sur la divergence dirigée ou I-divergence comme le critère d’information d’akaike AIC , le critère d’information bayienne BIC, et l’erreur de prédiction finale FPE, est aussi faite.Le critère d’information d’akaike AIC sert comme un estimateur asymptotiquement sans biais de d’une variante de la divergence dirigée de Kullback, entre le modèle générateur ou vrai modèle et le modèle d’approximation équipée ou modèle candidat sous l’hypothèse que le vrai modèle est correctement spécifié .Comme le nombre de paramètres k du modèle candidat est souvent grand par rapport à la taille n de l’échantillon ( on considere k est grand par rapport à n si n/k < 40 ), l’AIC devient trop biaisé et estime mal les informations de Kullback-Leibler et conduit au choix de modèles surparamétrés. Une version corrigée de AIC serait alors nécessaire , notée AICc, a été initialement proposé par Suguira pour modèles de régression linéaire avec une vue vers la réduction du biais . Il a été constaté plus tard par Hurvich et Tsai de produire non seulement une réduction dramatique du biais , mais améliore fortement la sélection de modèle pour les échantillons de petites tailles .Le critère d’information bayien BIC est un critère de sélection de modèle basé sur de arguments bayiens et sur le maximum de la probalité a posteriori .Le critère d’information bayésien (BIC) ou critère Schwarz (SBIC) est un critère pour la sélection de modèles parmi un ensemble fini de modèles. Il est basé, en partie, sur la fonction de vraisemblance, et il est étroitement lié à l’information d’Akaike critère (AIC). Lorsque les modèles de montage ne sont pas adéquats, il est possible d’augmenter la probabilité en ajoutant des paramètres, mais cela peut entraîner surapprentissage. Le BIC résout ce problème en introduisant un terme de pénalité pour le nombre de paramètres dans le modèle. Le terme de pénalité est plus grand dans le BIC que dans l’AIC. Le BIC a été développé par Gideon E. Schwarz, qui a donné un argument bayésien pour l’adopter. En fait, Akaike a été tellement impressionné par le formalisme bayésien de Schwarz qu’il a développé son formalisme bayésien propres, maintenant souvent désigné comme l’ABIC. Le BIC est un résultat asymptotique obtenu sous l’hypothèse que la distribution des données est dans la famille exponentielle.

Rappel d’une métrique

Une métrique sur un ensemble X est une fonction (appelée fonction de distance ou simplement la distance ) d : X × X → R (où R est l’ensemble des nombres réels ). Pour tous x , y , z dans X , cette fonction est nécessaire pour satisfaire aux conditions suivantes :
1. d(x, y) ≥ 0( non-négative )
2. d(x, y) = 0si et seulement si x = y ( l’identité des indiscernables . Notez que la condition 1 et 2 produisent ensemble définie positive )
3. d(x, y) = d(y, x) ( symétrie )
4. d(x, z) ≤ d(x, y) + d(y, z) ( sous-additivité / inégalité du triangle ).

Divergence de kullback leibler

La divergence (ou ”distance” ) de kullback leibler ou encore entropie relative ou encore information de kullback est une mesure de dissimilarité entre deux distributions de probabilités P et Q.Elle doit son nom à solomone kullback et richard leibler, deux cryptanalystes americains. Selon la NSA ,c’est durant les années 60,alors qu’ils travaillaient pour cette agence, que kullback et leibler ont inventé cette mesure. Elle aurait d’ailleurs servi à la NSA dans son effort de cryptanalyse pour le projet de VENONA. Cette mesure s’interprète comme la différence moyenne du nombre de bits nécessaires au codage d’échantillons de P selon que le codage est choisi optimal pour la distribution P ou Q. Typiquement, P représente les données, les observations, ou une distribution de probabilités calculée avec précision. La distribution Q représente typiquement une théorie, un modèle, une description ou une approximation de P. La divergence de Kullback-Leibler entre dans la catégorie plus large des f-divergences .

Le critère d’information de kullback ou KIC est un outil de sélection de modèle , il sert comme un estimateur asymptotiquement sans biais d’une variante de la J-divergence symétrique de kullback entre le modèle candidat et le vrai modèle.Dans cette partie , une correction du biais de KIC est dérivée pour les modèles de régressions linéaires ,KICc, il est particulièrement utile lorsque la taille de l’échantillon est petit.Dans le cas ou le vrai modèle est correctement spécifié c’est à dire il appartient à la famille des modèles candidats, KICc est un estimateur exactement sans biais par contre dans le cas ou le vrai modèle est mal spécifié KICc comme KIC reste toujours biaisé. Par ailleurs, lorsqu’il est appliqué la régression polynomiale et à la modélisation auto-régressives des séries chronologiques , KICc se trouve à estimer l’ordre du modèle avec plus de prévision que tout autre méthode.

AIC, AICc et KIC

On considère un vecteur de collection de données XN = (x1, x2, …, xN ) ,généré selon un modèle paramétrique inconnu donc de loi inconnue p(x/θ0) .

Notre objectif est de déterminer un modèle paramétrique de loi connue qui est proche de notre modèle inconnu p(x/θ0).

Pour se faire,on dispose plusieurs modèles et on choisit parmi eux le meilleur au sens d’une mesure de proximité,plusieurs mesures sont envisageable pour calculer cette proximité comme la divergence de hellinger, la divergence de variation totale ou la divergence de kullback . Dans ce papier nous utiliserons la “distance” kullback.

Soit Mk = {p(x/θk), θk ∈ Θk} une famille de modèles paramétriques et dimΘk = k + 1 c’est à dire le vecteur θk , est composé par les k paramètres du modèle plus la variance du bruit. on estime le vecteurθk parˆθk sur tout Θk par la méthode du maximum de vraisemblance de la fonction de vraisemblance p(XN /θk) et on désigne alors par p(x/ˆθk) le modèle ajusté.Pour souci de simplicité nous supposons k = 1, 2, ….kmax de sorte que la collection se comporte de famille imbriquée c’est à direΘ1 ⊂ Θ2…. ⊂ Θkmax. Pour déterminer le modèle candidat qui est le plus proche du modèle générateur on utilise la divergence de kullback dirrigée entre le modèle candidat ajusté p(x/ˆθk)et notre modèle générateurp(x/θ0),dirigée par ce dernier,multipliée par 2.

le terme dn(θ0, θ0) ne dépend pas de k, il dépend uniquement de θ0 donc la variation de l’écart entre les deux modèles dépend de la variation du terme dn(θ0, θk),donc ajuster la “distance” de kullback revient à ajuster le terme dn(θ0, θk). d’où on remplace θk par ˆθk, et on obtient dn(θ0, ˆθk) ce terme dn(θ0, ˆθk) n’est pas directement évaluable car la densité p(x/θ0) n’est pas connue, on le calcule donc par approximation −2 ln p(XN , ˆθk),

proposée par AKAIKE comme un estimateur biaisé,il en ensuite déduit un estimateur asymptotiquement sans biais :

AIC = −2 ln p(XN , ˆθk) + 2(k + 1) (2.3)

J-divergence symétrique de kullback 

La J-divergence symétrique de kullback est définie comme :

2Jn(θ0, θk) = 2In(θ0, θk) + 2In(θk, θ0) (2.5)

On voit bien que la J-divergence respecte plus les propriétés d’une distance qu’une divergence dirigée car elle symétrique et ce dernier ne l’est pas.La J-divergence apporte alors des informations supplémentaires sur la dissemblance des deux modèles qui nous permettraient de mieux refléter l’erreur due à une sou-ajustement. Nous allons déduire, à partir de la divergence symétrique , une autre critère de sélection que l’on appelle KIC , il supperforme alors AIC et nécessite moins d’apprentissage que AIC pour la sélection de modèles de régressions linéaires et pour la sélection de modèles autorégressifs.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Les mesures de divergences généralisées
1.1 Les f-divergences de aly et silvey
1.2 Rappel d’une métrique
1.3 Divergence en variation totale
1.4 Divergence de Hellinger
1.5 Divergence de khi-deux
1.6 Divergence de kullback leibler
1.6.1 Définition
1.6.2 Propriétés
1.6.3 Duale de l’information de kullback
1.6.4 Lien entre divergence de kullback et maximum de vraisemblance
2 Les critères de sélections de modèles basés sur la J-divergence symétrique de kullback dans le cas d’un échantillon de petit taille
2.1 AIC, AICc et KIC
2.2 KICc
2.3 Approximation de KICc
3 Le critère AIC et les divergences symétriques de kullback
3.1 Le critère AIC et le mélange moyen pondéré
3.2 AIC , Moyenne géométrique et Moyenne harmonique
3.2.1 Moyenne géométrique
3.2.2 Moyenne harmonique
3.3 Rapport entre les différentes divergences symétriques de kullback
3.4 Exemple de nouvelle correction du biais de AIC
4 Applications 1 : Évaluations numériques
4.1 Régression polynomiale
4.2 Modélisations Autorégressives
4.3 Les prévisions dans les taux de changes
5 Applications 2 : Évaluations numériques : Application à la sélection de l’ordre des modèles polynomiales
Conclusion
Bibliographie

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *