La sélection de variables et aux tests non-paramétriques

Introduction et présentation des résultats principaux

L’analyse de données en grande dimension est devenue extrêmement fréquente et importante dans divers domaines des sciences, allant de la génomique et de la biologie à l’économie, la finance et l’intelligence artificielle. Par exemple, pour la classification de maladies utilisant des puces à ADN ou des données protéomiques, des dizaines de milliers d’expressions de molécules ou d’ions sont des prédicteurs potentiels. Dans les études sur l’association entre génotypes et phénotypes il y a des centaines de milliers de variables potentielles pour les phénotypes. Quand des interactions sont considérées, la dimension augmente rapidement. Par exemple, pour la gestion de portefeuilles avec deux mille titres, cela donne déjà plus de deux millions de paramètres dans la matrice de covariance. Les données sont contaminées par du bruit, rendant encore plus difficile la récupération de l’information utile à partir des données. De plus, souvent le nombre de données n est nettement inférieur au nombre de variables.

L’accumulation de bruit dans les problèmes de grande dimension est bien connue. Par exemple pour la classification, on sait que le discriminant de Fisher ne fonctionne pas bien en grande dimension (cf. [10]), et même en utilisant la règle d’indépendance, la classification utilisant toutes les variables peut être aussi peu performante qu’un choix au hasard à cause de l’accumulation de bruit dans l’estimation des centres (cf. [31]). Ainsi, il apparaît nécessaire de sélectionner les variables intéressantes pour traiter ces problèmes de grande dimension.

Ce qui rend possible l’inférence statistique en grande dimension est l’hypothèse de sparsité : le nombre de variables pertinentes d∗ est en général nettement inférieur au nombre total de variables considérées d. Par exemple, pour la classification de maladies, on pense communément que seulement des dizaines de gènes sont responsables d’une maladie.

Il est désormais bien connu que, dans le cadre de la régression linéaire en grande dimension, l’estimation consistante de l’ensemble des variables pertinentes—appelé support de sparsité—est possible sous la condition d∗ log(d/d∗) = O(n) quand n → ∞. Réciproquement, il est aussi connu que si d∗ log(d/d∗) est supérieur à un certain seuil alors il est impossible de retrouver le support de sparsité (cf. [86] et le Chapitre 1). Ainsi, en régression linéaire, on a une condition minimale sur le triplet (n, d, d∗ ) garantissant l’existence d’estimateurs consistants. La situation est différente pour la régression non linéaire puisque, à notre connaissance, il n’y a pas de résultats fournissant des conditions minimales pour l’estimation consistante du support de sparsité. Les articles [59, 8] considèrent le problème de la sélection de variables dans le modèle de la régression gaussienne non paramétrique. Ils prouvent la consistance des procédures proposées sous certaines hypothèses qui—au vu de notre travail—s’avèrent sous-optimales (cf. Chapitre 1, Section 1.7). En particulier, dans [59], la dimension ambiante maximale d est supposée être de l’ordre de O(log n/ log log n) et d∗ constant. Dans [8], d peut être aussi grand que O(log n) et d∗ est supposé constant. Il y a un écart important dans les conditions de consistance entre la régression linéaire et la régression non linéaire. Par exemple, si la dimension intrinsèque d∗ est fixe, alors la condition garantissant l’estimation consistante du support de sparsité est (log d)/n ≤ C, pour un certain C en régression linéaire tandis que c’est d = O(log n) dans le cas non paramétrique. Bien qu’il soit indéniable que la régression non paramétrique est bien plus complexe que la régression linéaire, il n’est pas aisé de trouver une justification pour un tel écart entre les deux conditions. La situation est même pire dans le cas où d ∗ → ∞. En fait, pour le modèle linéaire avec une dimension ambiante croissant au plus polynomialement d = O(n k ), il est possible d’estimer le support de sparsité pour une dimension intrinsèque d∗ aussi grande que n 1−ǫ , pour un certain ǫ > 0. Autrement dit, l’indice de sparsité peut être presque du même ordre que la taille de l’échantillon. En comparaison, pour la régression non paramétrique, il n’y a pas de procédure convergeant vers le support de sparsité quand à la fois n et d∗ tendent vers l’infini, même si d∗ augmente extrêmement lentement.

Sélection de modèle classique

On s’intéresse d’abord au cas paramétrique. Supposons que les données disponibles sont (xi , yi) ni=1, où yi est la ième observation de la variable réponse et xi le vecteur ddimensionnel de variables explicatives. On suppose habituellement qu’il s’agit d’un échantillon aléatoire de la population (x, y) où la moyenne conditionnelle de y étant donné x est une fonction linéaire de x cest-à-dire E(y|x) = β Tx avec β = (β1, . . . , βd) T . On note X la matrice du design, c’est-à-dire la matrice dont les lignes sont les vecteurs xi , pour i = 1, . . . , n. On note (X1, . . . , Xd) les colonnes de X. On note Y le vecteur de composantes (yi) n i=1. Plus généralement, on suppose qu’ il y a un modèle paramétrique fθ dont le paramètre θ appartient à un sous-ensemble Θ de Rd . Etant donné des sous-ensembles Θ1, Θ2, . . . , ΘM de Θ, le but de la sélection de modèle (cf. par exemple [? ]) est de choisir celui qui contient la vraie valeur de θ. En régression linéaire, la sélection de variable peut être vue comme un cas particulier de sélection de modèle correspondant à la situation où M = 2d et les éléments de chaque Θm partagent le même support.

Critères de choix

AIC (Akaike’s information criterion) et AICc. Akaike [2] propose de choisir un modèle qui minimise la divergence de Kullback Leibler du modèle ajusté par rapport au vrai modèle. Akaike considère l’estimateur du maximum de vraisemblance θˆ(m) = (ˆθ1(m), . . . , ˆθd(m))T du vecteur θ et montre que, à une constante additive près .

Cp de Mallows Quand la vraisemblance normale est utilisée, (1.1) devient les moindres carrés pénalisés. Soit RSSm la somme résiduelle des carrés du meilleur sous-ensemble avec m variables. Alors le Cp de Mallows [67], où Cp(m) = RSSm/σˆ 2 + 2m − n, où ˆσ2 est la variance résiduelle du modèle complet, correspond à λ = 1.

Les propriétés les plus connues du BIC et du AIC sont l’optimalité asymptotique (en perte) et la consistance (en sélection). Quand f appartient aux familles candidates de fonctions de régression, la probabilité de sélectionner le vrai modèle par le BIC tend vers 1 quand n tend vers l’infini. D’autre part, si la vraie fonction de régression f n’est dans aucune des familles candidates et si le nombre de modèles de même dimension n’augmente pas trop vite en dimension, l’erreur moyenne au carré du modèle sélectionné par AIC est asymptotiquement équivalente à la plus petite erreur possible offerte par les modèles candidats (cf. par ex. [80, 91]). En général, AIC n’est pas consistent et BIC n’est pas asymptotiquement optimal dans le cas nonparamétrique.

Procédures de sélection de variables

On choisit un modèle à l’aide de l’un des critères ci-dessus ou bien à l’aide de ttests (tests de Student), F-tests, le R2 aj etc. On peut utiliser les algorithmes de recherche suivants :

Sélection exhaustive On effectue une recherche parmi tous les modèles possibles. Cela donne 2d modèles à considérer et n’est donc possible que pour d petit.

Méthode descendante L’algorithme est le suivant :
– Calculer l’estimateur des moindres carrés pour le modèle incluant toutes les variables explicatives.
– Effectuer un test de Student (ou un autre critère) pour chacune des variables explicatives. Deux cas se présentent :
• Les variables sont toutes significatives. Ce modèle est alors choisi. Nous arrêtons là notre analyse.
• Eliminer la variable la moins significative du modèle.
– Recommencer le processus avec une variable en moins. Cette méthode est plus économique que la précédente mais présente l’inconvénient de ne pas pouvoir réintroduire une variable une fois qu’elle a été supprimée.

Ces deux premières méthodes ne sont applicables que pour n ≥ d. Ce n’est pas le cas de la méthode suivante.

Méthode ascendante On procède dans le sens inverse de la méthode précédente. On effectue les d régressions possibles avec une seule variable explicative. Pour chacune d’elles, on effectue le test de Student. On retient le modèle pour lequel la variable est la plus significative. On effectue ensuite les d − 1 régressions possibles avec deux variables (dont celle choisie à la première étape). Pour chacune d’elle, on effectue le test de Student pour la nouvelle variable et on retient la plus significative. On continue ainsi jusqu’à ce qu’aucune variable restante ne soit significative. Ici l’inconvénient est qu’une variable introduite ne peut plus être éliminée. Le modèle final peut alors contenir des variables non significatives. Ce problème est résolu par la procédure stepwise.

Procédure stepwise A chaque étape, nous réexaminons toutes les variables introduites précédemment dans le modèle. En effet, une variable considérée comme la plus significative à une étape de l’algorithme peut à une étape ultérieure devenir non significative.

Sélection stagewise (OMP ou greedy least squares regression) On introduit les variables une à une en prenant à chaque étape la variable la plus corrélée avec le résidu courant. On s’arrête quand la corrélation maximum des variables restantes avec le résidu est inférieure à une seuil fixé. On passe maintenant à des méthodes plus récentes, en examinant d’abord le cas paramétrique. Comme indiqué précédemment, la régularisation L0 intervient naturellement dans beaucoup de méthodes de sélections de modèle classiques. Cependant le calcul est impraticable en grande dimension. On a aussi remarqué que certaines méthodes ne fonctionnent que pour d ≤ n. Pour traiter le cas de la grande dimension d ≫ n avec d dépendant de n, on suppose que le vecteur β est sparse. On note, pour tout vecteur β, S(β) le support de β, c’est-à-dire S(β) = {i ∈ [1, d] : βi ≠ 0}. Si β est le vrai vecteur, on note plus simplement S son support et s le cardinal de S.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Introduction à la sélection de variables
1.1 Sélection de modèle classique
1.2 Vraisemblance pénalisée
1.3 Résultats pour certaines méthodes
1.4 Conditions minimales
1.5 Examen rapide et sélectif de quelques autres méthodes
1.6 Sélection de variables dans le contexte de variables groupées
1.7 Cas non paramétrique
2 Sélection de variables pour la régression nonparamétrique
2.1 Formulation du problème et hypothèses
2.2 Cadre idéalisé : modèle de bruit blanc gaussien
2.3 Nombre de points à coordonnées entières dans une boule
2.4 Optimalité des hypothèses
2.5 Adaptativité et taux minimax de séparation
2.6 Régression nonparamétrique avec un design aléatoire
2.7 Remarques de conclusion
2.8 Quelques extensions
2.9 Preuves
3 Tests d’hypothèses basées sur les fonctionnelles quadratiques
3.1 Introduction
3.2 Tests minimax pour les fonctionnelles quadratiques diagonales
3.3 Exemples
3.4 Fonctionnelles quadratiques diagonales non positives et non négatives
3.5 Preuves des résultats énoncés en Section 3.2
3.6 Preuves des lemmes et des propositions de la Section 3.3
3.7 Preuve de la Proposition 3.13
3.8 Preuve de la Proposition 3.17
3.9 Preuves des résultats énoncés dans la Section 3.4
Conclusion
Bibliographie

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *