Description de l’utilisation de l’ACP pour des problèmes de régression

Télécharger le fichier pdf d’un mémoire de fin d’études

À propos des données astrophysiques étudiées

Dans un premier temps, nous évoquerons la détermination des paramètres fondamen-taux, température effective, gravité de surface et métallicité, avec une méthode de minimum de distance suite à une analyse en composantes principales de spectres d’étoiles de type F-G-K (Paletou et al., 2015a). Pour ce faire nous avons utilisé deux jeux de spectres bien connus de la communauté astrophysique : ceux issus du spectrographe Elodie installé dans les années 1990 au télescope de 193 cm de diamètre (dit “193”) de l’Observatoire de Haute-Provence (Baranne, A. et al., 1996) 7, et ceux issues du relevé “Spectroscopic Survey of the Solar Neighbourhood”, appelé S4N dans la suite du document, (Allende Prieto et al., 2004).
Les spectres Elodie sont des spectres à haute résolution (R ≈ 42000) 8 acquis sur une gamme de longueur d’onde visible allant de 390 à 680 nm. Ils sont aisément disponibles 9 et ils ont déjà été largement analysés en termes de paramètres fondamentaux, grâce à un outil développé initialement par Katz et al. (1998).
Les spectres du S4N, que nous avons utilisés pour valider la méthode basée sur l’analyse en composantes principales (Paletou et al., 2015a), sont issus des spectrographes installés au télescope de 2.7 m d’ouverture du Mc Donald Observatory (États-Unis) et au télescope de 152 cm à La Silla (Chili). Dans chacun des cas, il s’agit de spectres de résolution R ≈ 50000 pour une couverture spectrale de l’ordre de 360 à 1000 nm. Ils sont aussi largement disponibles ainsi que leur identification en termes de paramètres fondamentaux. C’est ainsi que nous avons pu nous baser sur des spectres réels et leurs identifications respectives, aussi bien pour Elodie que pour le S4N, afin de tester nos méthodes.
Nous avons aussi utilisé des spectres observés grâce aux spectropolarimètres de l’OMP Espadons et Narval (cf. figure 1.5), installés respectivement aux télescopes de 3.6 m CFHT (Canada-France-Hawaii-Telescope, États-Unis), et du Télescope Bernard Lyot de 2 m, au Pic du Midi de Bigorre (France). Dans les deux cas, puisqu’il s’agit d’instruments quasi-identiques, nous avons utilisé des spectres à résolution R ≈ 65000, sur une bande spectrale couvrant de manière continue le domaine optique de 380 à 1000 nm, soit de l’ultra-violet proche, à l’infrarouge proche. Ces spectres sont distribués par le service d’observation de l’INSU sous la responsabilité de l’OMP, PolarBase 10. La mise en œuvre d’outils de détermination des paramètres fondamentaux sur l’ensemble de cette ressource est à l’origine de notre projet de recherche de méthodes et donc à l’origine de cette thèse.

Regression inverse par tranches (SIR)

La régression inverse par tranche, présenté originellement par Li (1991), permet la recherche d’un sous-espace cohérent avec la variable que l’on souhaite expliquer (le pa-ramètre). SIR permet d’utiliser des données recueillies sur un grand nombre d’individus pour retrouver un lien statistique vers une caractéristique de l’individu : la valeur d’un paramètre le caractérisant. En fait, on apporte, par rapport à l’analyse en composantes principales, un a priori sur ce que l’on recherche comme information dans les données. Là où l’ACP optimise la représentation des données pour “elles-mêmes » sur le principe du maximum de variance (sans considérer la valeur du paramètre que l’on recherche), SIR optimise la représentation des données pour une variable à expliquer bien précise. En effet, si le paramètre a un impact mineur sur les données, une méthode non-supervisée comme l’ACP ne permet pas de le mettre en valeur, alors que SIR en tant que méthode supervi-sée optimisera la projection pour ce paramètre en particulier. On peut déjà déduire que SIR, étant une méthode supervisée, impose un espace de projection différent pour chaque caractéristique. Lorsque l’on utilise l’ACP pour projeter des données en vue d’estimer la valeur d’un paramètre, il n’est pas nécessaire de reprendre le processus de création du sous-espace de projection lorsque le paramètre recherché est différent. SIR étant une méthode supervisée, il est nécessaire de créer un sous-espace propre à chaque paramètre.

Principe

Considérons un vecteur de données x, et une variable à expliquer (ou paramètre) y. SIR recherche les directions formant le sous-espace de projection le plus “cohérent » 9 avec les variations du paramètre considéré. La question de comment la cohérence est évaluée est intéressante : il s’agit de maximiser une corrélation de manière indirecte 10. La démarche est donc la suivante. On va tout d’abord s’intéresser aux variations de la valeur du paramètre pour les différents individus. C’est ainsi que l’on va subdiviser la base de données en H tranches en suivant la variation de la valeur du paramètre. D’après Li (1991), ces tranches sont voulues comme contenant chacune le même nombre d’individus. Ainsi, à l’intérieur d’une tranche les valeurs prises par le paramètre sont toutes comprises dans un intervalle de valeurs et aucun individu extérieur à cette tranche ne voit la valeur de son paramètre comprise dans cet intervalle. Une fois la base divisée, SIR va rechercher le sous-espace de projection linéaire, depuis l’espace des données, qui maximise la variance inter-tranches (chaque tranche étant représentée par son centre de gravité) tout en gardant une variance totale normalisée. Comme il n’y a pas de recouvrement entre les tranches, cela revient à chercher le sous-espace qui sépare au mieux les tranches en rapprochant au maximum les individus au sein d’une même tranche.
On peut y voir des similarités avec l’analyse factorielle discriminante (McLachlan, 2004) dans un contexte de classification, à ceci près que, dans notre cas, l’aspect continu des valeurs de paramètres fait que l’ordonnancement des valeurs prises par le paramètre a une signification. Pour le problème qui nous intéresse, nous avons des valeurs de paramètres que l’on peut ordonner de manière hiérarchique : 5000 K est plus froid que 5100 K. Alors que dans un contexte de classification de formes géométriques, par exemple, on ne peut pas dire qu’un carré est au-dessus ou en-dessous d’un cercle.

Conditionnement de la matrice de covariance

Au paragraphe 2.2.3, nous avons mentionné le conditionnement de la matrice Σ et de son influence sur le fonctionnement de la méthode. En effet, dès qu’un problème implique l’inversion d’une matrice, le conditionnement de celle-ci peut avoir un énorme impact sur la sensibilité des résultats à une petite perturbation. Le conditionnement K(A) d’une matrice A s’exprime comme suit : K(A) = kAkkA−1k . (2.22).
Ce conditionnement détermine la propagation de l’erreur pendant l’inversion d’un système (Petit & Maillet, 2008). Pour le cas d’un système Ax = b, connaissant A et b, on peut obtenir x grâce à l’inverse de A : x = A−1b . (2.23).
Si l’on appelle kδbk l’erreur commise sur b et kδxk l’erreur engendrée sur x, alors on peut calculer le lien grâce à K(A), conditionnement de A : δx ≥ δb ∗ K(A) . (2.24).
Dans le cas de SIR, la détermination des directions de projections données vient des vecteurs propres d’une matrice que nous appellerons S. Cette matrice S est issue du produit de avec l’inverse de la matrice Σ. Si l’on reprend le raisonnement précédent, on peut conclure qu’une “erreur » sur se répercute sur S en étant multipliée par le conditionnement de Σ. La matrice S risque dans le cas d’un mauvais conditionnement de Σ de ne plus porter l’information de . Dans ce cas, S ne représenterait plus correctement les données au sens où l’utilisation de SIR le voudrait. Pour améliorer le conditionnement de Σ, il existe différentes approches de régularisation. Nous utiliserons la “troncature de la décomposition en valeurs singulières » (Kaipio & Somersalo, 2005) qui revient à une réduction de dimensionnalité par l’application d’une ACP a priori sur les données. Ce choix est guidé par la simplicité de cette méthode (troncature des valeurs singulières) comparée à une autre méthode de régularisation, mais aussi par la méconnaissance de la structure des données et du bruit rendant les méthodes de régularisation plus élaborés inefficaces. En réduisant l’espace de départ et en ne gardant que les composantes qui correspondent aux valeurs propres les plus grandes de Σ, le conditionnement de celle-ci décroit.

Description de l’utilisation de l’ACP pour des problèmes de régression

L’analyse en composantes principales (Jolliffe, 1986) s’inscrit comme la première étape, dans le problème de régression que nous étudions. On souhaite, grâce à celle-ci, représenter les données de la façon la plus pertinente pour permettre l’estimation des valeurs des paramètres. Ainsi, grâce à l’ACP, nous chercherons le sous-espace le plus pertinent possible pour une régression linéaire au sens des moindres carrés, ou d’autres approches permettant de tenir compte des non-linéarités comme une estimation au sens des “k-plus proches voisins » (k-PPV). Cette estimation par k-PPV consiste en une moyenne de la valeur du paramètre des individus, de la base de donnée de référence, dans un voisinage donné. Plus de détails sont présentés au paragraphe 3.1.2.
L’association de l’ACP et de l’estimation au sens des k-PPV a pu montrer de bons résultats pour l’estimation de paramètres stellaires fondamentaux (Paletou et al., 2015a).

Choix du nombre de composantes

Au chapitre 2, nous avons vu que l’ACP peut être utilisée dans un contexte de régression comme déterminant un espace de projection pour les données qui maximise leur variance.
La détermination de la dimension du sous-espace peut se faire de différentes manières. La décroissance des valeurs propres de la matrice de covariance des données Σ montre, suivant le niveau de bruit, une “cassure » (figure 3.1). Les premières valeurs propres sont beaucoup plus grandes que les suivantes. Les dernières valeurs propres, les plus “à droite », sont presque au même niveau et bien plus faibles que celles “à gauche » de la “cassure ». Ce cas se produit lorsque le niveau de bruit est suffisamment faible, c’est-à-dire que la variance dans les données est issue des différences entres les individus et que le bruit qui vient s’ajouter aux données n’a pas beaucoup d’impact sur ces différences. On peut alors déterminer la dimension optimale de l’espace des données comme étant égale au nombre de valeurs propres qui sont grandes par rapport aux autres (cf figure 3.1), car ce sont celles associées aux vecteurs propres qui portent l’information indépendante du bruit.
La figure 3.1 montre que l’énergie (représentant la variance dans les données) est très concentrée dans les premières valeurs propres. Cela signifie qu’un espace de dimension 3 est suffisant pour représenter les données en conservant ainsi la variance intrinsèque des individus en éliminant une partie du bruit avec les composantes qui ne portent pas d’information. Le bruit, qui est dans ce cas “peu énergétique », est porté en majeure partie par les vecteurs propres associés aux six dernières valeurs propres. Si l’on se place dans le cas d’un fort niveau de bruit, on peut se retrouver dans la situation de la figure 3.2.
Dans le cas d’un fort niveau de bruit que présente la figure 3.2, il est beaucoup plus difficile de savoir à partir de quelle composante l’expression de la puissance du bruit prend le dessus sur l’expression de la variance propre aux individus. Dans le cas où l’on a un fort niveau de bruit, on peut mesurer l’inertie 1 préservée et ainsi mettre un seuil en fonction du taux d’inertie que l’on accepte de perdre. Le problème est de trouver le bon taux d’inertie. Bien que ce ne soit pas optimal, fixer arbitrairement un seuil est possible. Si l’on connait la puissance du bruit, on peut déterminer à partir de quelle composante la variance des données ne reflète plus que l’expression du bruit, et fixer un seuil de manière pertinente en se basant sur cet a priori.
Nous verrons que ce n’est pas le cas des données que l’on souhaite traiter. Nous opterons plutôt pour un protocole de validation croisée 2. Le problème de cette approche est qu’elle dépend fortement de la méthode d’estimation qui suit. Un nombre de composantes optimal pour une estimation locale au sens des k-plus proches voisins n’a aucune raison d’être optimal dans le cadre d’une régression linéaire. Nous réappliquerons donc ce protocole pour chaque méthode d’estimation employée.

Choix de la méthode d’estimation

Une fois tous les individus projetés vers un sous-espace pertinent, il sera question de trouver le moyen de lier, de trouver la relation, entre l’espace des données projetées et l’espace du paramètre.
L’une des possibilités pour identifier un nouvel individu, c’est-à-dire d’estimer la valeur de son paramètre, est d’appliquer une régression linéaire permettant de passer dans l’es-pace du paramètre. Une autre méthode, qui a été utilisée en astrophysique avec Paletou et al. (2015a), consiste en la considération d’un voisinage, et à l’estimation de la valeur du paramètre par une moyenne calculée à partir des voisins considérés.

Particularité du traitement de données non-linéaires

Dans le cas d’un lien linéaire entre les données et le paramètre, une régression au sens des moindres carrés fonctionne très bien, mais ce n’est plus le cas lorsque le lien entre les données et le paramètre recherché devient non-linéaire. Par ailleurs, l’analyse en composantes principales étant une méthode de projection linéaire, elle ne permet donc pas à elle seule de prendre en compte les non-linéarités.

Régression non-lineaire

Les méthodes de régression non-linéaires classiquement utilisées dans la littérature ne sont pas utilisables pour le traitement des non-linéarités dont on ne connait pas la nature. Les méthodes communes font appel à des a priori indisponibles dans le cas des données de spectroscopie stellaire. En effet, il est souvent nécessaire de connaître le type de non-linéarités auxquelles on fait face. Ainsi, on peut appliquer une régression aux données en les projetant sur une variété caractérisée par une fonction non-linéaire, mais dans ce cas il faut savoir quel type de fonction définit ladite variété. L’approche des courbes principales (principal curves), (Hastie & Stuetzle, 1989), permet de trouver une variété optimale pour appliquer une régression aux données, même si cette approche est limitée à des variétés 1D et repose sur la non-convergence de l’algorithme.

Estimation basée sur les k-plus proches voisins

L’approche par la méthode des k-PPV ne fait pas appel à une méthode de régression linéaire. Dans le cadre d’une régression, l’hypothèse sous-jacente à l’emploi des k-PPV est que localement les valeurs du paramètre sont proches. Ainsi, cette méthode, par rapport aux régressions locales, traite tous les individus en définissant un voisinage suivant le même critère. On estime la valeur du paramètre de l’individu recherché 5 comme étant la moyenne des valeurs du paramètre des voisins. Lorsque l’on applique ce type de méthodes, la dé-finition du voisinage considéré est cruciale encore une fois. On souhaite donc définir un voisinage dont les valeurs du paramètre varient peu, voisinage dont le centre de gravité est suffisamment près de l’individu que l’on souhaite identifier pour que l’on puisse les considérer comme indiscernables. Il faut aussi faire attention de ne pas considérer trop peu de voisins, faute de quoi la méthode sera très sensible aux données aberrantes (ayant une valeur pour laquelle le bruit sort des statistiques qui le définissent).

Sélection de directions pertinentes

Ce paragraphe essaie d’apporter une solution en partant du principe que le sous-espace obtenu par la méthode de projection n’est pas partout le plus pertinent (quelle que soit la zone de l’espace où la projection est appliquée). Dans la mesure où le lien entre le paramètre recherché et les données serait non-linéaire, on espère par le biais de la méthode de projection (ici l’ACP) trouver le sous-espace de dimension la plus petite contenant la variété 1D correspondant à la variation des valeurs du paramètre. Mais il n’est pas évident que cette variété s’exprime sur tous les axes en tout point de l’espace. Il est bien possible que dans certains cas, pour certaines valeurs du paramètre, cette variété soit colinéaire (ou quasi colinéaire) à l’une des directions de l’espace, ou située dans un hyper-plan du sous-espace. Dans ce cas, considérer la totalité de l’espace pour l’estimation serait une erreur car on ferait entrer plus de bruit dans l’estimation. Un autre cas serait celui où pour une réalisation de x, un vecteur de données, la projection sur le sous-espace donne plusieurs valeurs probables pour y. Ainsi la projection sur certaines directions va tendre à montrer que l’estimateur de y peut prendre deux valeurs Y 1 ou Y 2 différentes, avec chacune des probabilités comparables, là où d’autres directions ne seront pas ambiguës 6. Dans ces zones du sous-espace, ignorer les solutions ambiguës permet de réduire l’erreur d’estimation. L’exemple simple de la figure 3.5 montre une réalisation de x dont la projection sur la première direction x1 a abouti à la valeur X1 7 et la projection sur la seconde direction x2 a donnée la valeur X2. Or, lorsque l’on trace la densité de probabilité conditionnelle à cette réalisation, on observe deux modes espacés sur la direction 1 et un seul mode sur la direction 2.

Cas d’un problème non-linéaire

Penchons-nous à présent sur un cas où les données x évoluent de façon non-linéaires par rapport à y. Par exemple, nous pouvons exprimer des données d’étude ainsi :
x1 = y3 + 1 (3.3).
x2 = sin(3y) + 2 (3.4).
= √ + 3 (3.5).
x3 3 x4 = 4 (3.6).
où les xi et les i sont respectivement les composantes des données et du bruit, associées à l’individu i. Le paramètre y est distribué uniformément sur l’intervalle [0,1], et les compo-santes du bruit suivent une distribution gaussienne d’écart type σ = 0.03.
La figure 3.12 montre assez clairement les fonctions non-linéaires liant les différentes composantes des données à la variable à expliquer. De même que précédemment, nous nous intéressons à la décroissance des valeurs propres de Σ pour déterminer la taille du sous-espace optimal. Contrairement à la figure 3.7, la décroissance des valeurs propres, figure 3.13, montre assez clairement que deux composantes sont très informatives au sens de la maximisation de la variance.

Sélection de directions sur données observées

Dans ce dernier paragraphe, nous travaillerons sur les données utilisées par Paletou et al. (2015a). Ces données sont constituées de deux bases de spectres observés. Une de ces bases de spectres, la base “Elodie » (car les spectres de cette base sont tous issus de cet instrument), sert de base de données de référence. Elle est constituée de 905 spectres de types F, G et K 11. La seconde base, la base de test que l’on appellera “S4N », est une base contenant 104 spectres de même types que pour la base « Elodie » (Allende Prieto et al., 2004). Dans cette partie nous exprimerons les erreurs en termes de biais et d’écart type pour faciliter la comparaison avec les résultats de l’article de référence (Paletou et al., 2015a).

Température effective (Teff )

De la même manière que dans le paragraphe 3.3, sont représentés figure 3.17 les in-dividus de la base de référence avec en abscisses la valeur de leur projection sur une des composantes de l’ACP, et en ordonnée les valeurs prises par la température effective Teff .
La première composante de l’ACP représentée figure 3.17 présente une forte corrélation avec les valeurs prises par la température, et cela laisse à penser que celle-ci est toujours pertinente pour l’estimation des valeurs de la température effective. En revanche, la seconde direction ne parait que peu pertinente pour l’estimation de valeurs de températures effec-tives qui seraient supérieures à 5000 K (les deux tiers les plus chauds des individus donnent tous une valeur de xT v2 autour de 0). Pour les autres directions, il est difficile de juger a priori leurs pertinences, car les formes des nuages de points sont moins marquées. En appliquant la sélection des directions comme présentée au paragraphe 3.2.4, on détermine (figure 3.18) la dimension des sous-espaces les plus pertinents pour chaque individu.
La figure 3.18 montre que les sous-espaces pertinents sont de dimension 11 ou 12 pour près de 60% des individus. Cela montre que, dans le cas de la température, le sous-espace choisi dans l’article de Paletou et al. (2015a), de dimension 12, est bien le plus pertinent.

Cas d’un problème complexe

En reprenant l’exemple des raies gaussiennes bruitées, dont on souhaite déterminer largeurs et dépressions, on obtient les résultats présentés table 4.8.
Dans cet exemple le conditionnement de la matrice Σ est tel qu’une régularisation est nécessaire (comme expliqué au chapitre 2, paragraphe 2.2.4). On améliorera le conditionne-ment en appliquant au préalable une régularisation, par troncature des valeurs singulières, sur les données comme nous l’avons fait dans Watson et al. (2017a). On appliquera une réduction de dimension basée sur une ACP en conservant l’espace de plus grande dimen-sion possible qui garantit une inversion stable de la matrice de variance-covariance. Les régressions basées sur SIR seront appliquées sur ce nouvel espace.
La table 4.8 montre que l’erreur est systématiquement inférieure lorsque l’on utilise la sélection des directions quel que soit le niveau de bruit. Cela montre que l’hypothèse, justifiant la sélection des directions, prend un intérêt pratique sur cet exemple plus com-plexe, dans un espace de plus grande dimension, car cette sélection permet une réduction systématique de l’erreur d’estimation. L’approche par k-PPV donne des erreurs beaucoup plus faibles (surtout pour le para-mètre non-linéaire) que l’approche par régressions locales (cette dernière est intéressante à haut RSB pour le paramètre linéaire). Ainsi, la sélection des directions permet d’optimi-ser le sous espace de projection indépendamment pour chaque individu, et l’approche par k-PPV est robuste par rapport aux non-linéarités.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Contexte astrophysique 
1.1 Brève histoire de la classification spectrale
1.2 Classification spectrale et paramètres stellaires fondamentaux
1.3 À propos des données astrophysiques étudiées
2 Méthodes de traitement statistique de données 
2.1 Analyse en Composantes Principales
2.1.1 Principe
2.1.2 Mise en oeuvre
2.1.3 Propriétés
2.2 Regression inverse par tranches (SIR)
2.2.1 Principe
2.2.2 Mise en oeuvre
2.2.3 Propriétés
2.2.4 Conditionnement de la matrice de covariance
2.3 Moindres carrés partiels
2.3.1 Principe
2.3.2 Mise en oeuvre
2.3.3 Propriétés
2.4.1 Principe
2.4.2 Mise en oeuvre
2.4.3 Propriétés
2.5 Conclusion
3 Régression basée sur l’ACP 
3.1 Description de l’utilisation de l’ACP pour des problèmes de régression
3.1.1 Choix du nombre de composantes
3.1.2 Choix de la méthode d’estimation
3.2 Particularité du traitement de données non-linéaires
3.2.1 Régression non-lineaire
3.2.2 Régression linéaire locale
3.2.3 Estimation basée sur les k-plus proches voisins
3.2.4 Sélection de directions pertinentes
3.3 Validation des approches
3.3.1 Cas d’un problème linéaire
3.3.2 Cas d’un problème non-linéaire
3.3.3 Cas d’un problème complexe
3.4 Application aux données astrophysiques
3.5 Sélection de directions sur données observées
3.5.1 Température effective (Teff)
3.5.2 Gravité de surface (log(g))
3.5.3 Métallicité ([Fe/H])
3.5.4 Vitesse de rotation projetée (v sin(i))
3.6 Conclusion
4 Apport de la régression inverse par tranches (SIR) 
4.1 Cas d’un problème linéaire
4.1.1 Régressions locales
4.1.2 k-plus proches voisins
4.1.3 Conclusion sur l’exemple linéaire
4.2 Cas d’un problème non-linéaire
4.2.1 Régressions locales
4.2.2 k-plus proches voisins
4.2.3 Sélection de directions pertinentes
4.3 Cas d’un problème complexe
4.4 Application sur des données synthétiques
4.5 Application aux données réelles
4.6 Conclusion sur l’utilisation de SIR
5 Étude comparative 
5.1 Méthodes de référence
5.1.1 Moindres carrés partiels
5.1.2 MATISSE
5.2 Tables comparatives
Conclusion
Bibliographie 

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *