L’Analyse en composantes principales (ACP) « classique »

Les bases de données statatistiques manipulent des objets conventionnels décrits par des variables monovaluées ( la valeur prise par une variable pour un objet est une valeur unique). Les évolutions récentes dans les systèmes de base de données permettent de stocker de nouveaux types de données (intervalles, ensembles, …)  introduisant de l’imprécision ou de la variation. Des contraintes de domaines peuvent être exprimées et des liens de hiérarchie et de composition peuvent être stockés. Ces évolutions dans les systèmes de base de données ont donné lieu à de nombreuses applications manipulant des objets décrits de façon plus proches de la réalité et donc plus complexes qui ceux habituellement traités.

En gestion des stocks, par exemple, on décrit une situation de rupture de stock comme suit « Niveau – de – stock = [100, 150] , quantité – en – cours de – commande = [50, 100] , Durée – de – livraison = [30, 45] , Etat – fournisseur {Critique, M auvais}, Etat – écoulement – produit {Moyen, Rapide}00 . On peut décrire des contraintes entre des variables, par exemple, si « Etat – fournisseur ) {critique} 00 alors « Durée – de – livraison ≥ 0 (On peut avoir des taxinomies, par exemple, dans la variable couleur les modalités blanc et jaune sont remplaçables par la modalité claire.

Des objets incluant dans leurs descriptions de telles informations sont dits symboliques (Diday, 1987, 1995)) car dans chaque case du tableau de données peuvent apparaître des valeurs multiples, parfois pondérées et liées entre elles par des règles). L’extension des méthodes d’analyse des données à de tels objets est appelé « Analyse de données symboliques ». Plusieurs auteurs se sont intéressés à l’extension des méthodes de réduction de dimension et de transformation de variables à des données complexes. Nagabushan (1988) a présenté une méthode de réduction à deux dimensions s’appliquant à des objets décrits par des variables à valeurs intervalles ; cette méthode est basée sur le développement en séries de Taylor. Ichino (1994) s’est également intéressé aux problèmes de réduction de dimension ; il propose une extension de la méthode d’Analyse en composantes principales « ACP » à des objets décrits par des variables de type intervalle, de type ensemble et même structurées. Ichino se base, pour étendre la méthode d’ACP classique à des données complexes sur la généralisation de la distance Minkowsky.

L’ANALYSE EN COMPOSANTES PRINCIPALES (ACP)  » CLASSIQUE « 

Domaine d’application

L’ACP permet d’analyser tout tableau de données statistiques X(n, p) (n lignes, p colonnes) représentant n individus décrits par p variables quantitatives. Son domaine d’application est donc très vaste. Ainsi si l’ensembe des individus doit être homogène (ensemble d’entreprises ou ensemble de personnes par exemple), l’ensemble des variables peut être hétérogène (chiffre d’affaire, nombre d’employés pour une entreprise ou taille, poids d’un individu par exemple).

But de l’ACP 

Le but de l’analyse en composantes principales est d’obtenir une réprésentation du nuage N(I) de Rp dans un espace de dimension réduirte de telle manière que l’inertie portée par cet espace soit la plus grande possible. La principale opération de l’ACP est de déterminer les axes principaux d’inertie du nuage autour de son centre de gravité. Ce sont les axes qui prennent le mieux en compte la dispersion du nuage au sens de la distance dM définie sur Rp . Ces axes principaux d’inertie appelés axes factoriels permettent de représenter les points du nuage sur des espaces de dimension réduite. Par exemple, on obtiendra une représentation plane du nuage en projetant orthogonalement au sens de la métrique M tous les points sur le plan principal d’inertie, c’est-à-dire sur l’espace de dimension 2 qui porte le plus d’inertie.

Formulation du problème de l’ACP 

Théorème 1 d’inclusion
Si Ek−1 est un sous – espace vectoriel optimal de dimension k − 1, alors la recherche d’un sous – espace vectoriel optimal de dimension k peut se faire parmi l’ensemble des sous – espaces vectoriels de dimension k contenant Ek−1.

Démonstration
Soit Fk un sous – espace vectoriel de dimension k et H = Fk + E⊥ k−1.

Fk ∩ E⊥k−1 ne peut être réduit au vecteur nul. Sinon on aurait H = Fk ⊕ E⊥k−1 et dim(H) = k + (p − (k − 1)) = p + 1.

Ce qui est absurde puisque H ⊂ Rp . Il existe donc v 6= 0 ∈ Fk ∩ E⊥k−1 . Soit ∆v l’axe engendré par v.

Soit G l’espace supplémentaire M- orthogonal à ∆υ dans Fk : Fk = G ⊕ ∆V et soit Ek = Ek−1 ⊕ ∆υ. On a IFk = IG + I∆υ car G est orthogonal à ∆υ, mais par hypothèse Ek−1 est optimal, donc Ik−1 ≤ IG d’où IEk ≤ IFk . On peut donc restreindre la recherche d’un sous – espace optimal aux sous – espaces contenant Ek−1.

Théorème 2
La recherche d’un sous – espace vectoriel E de dimension k contenant un espace vectoriel F de dimension k − 1 minimisant IE est équivalente à la recherche d’un axe ∆υ , M – orthogonal à F et mnimisant I∆υ .

Démonstration

Quel que soit l’espace E contenant F, on a une décomposition E = F ⊕ ∆υ avec ∆υ ⊥ F donc IE = IF + I∆υ : IF étant constant, minimiser IE revient à minimiser I∆υ. A partir de ces théorèmes, on ramène donc le problème de l’ACP au problème suivant :
1. Rechercher un axe E1 = ∆u1 à inertie minimum, u1 étant le vecteur unitaire engendrant E1.
2. Rechercher un axe ∆u2, M – orthogonal à ∆u1 et à inertie minimum. Soit E2 = ∆u1 ⊕ ∆u2 ; E2 est un sous – espace optimal de dimension 2.
3. Rechercher un axe ∆uk, M – orthogonal à Ek−1 et à inertie minimum. Soit Ek = Ek−1 ⊕ ∆uk, Ek est alors une solution du problème. On a Ek = ∆u1 ⊕ ∆u2 ⊕ … ⊕ ∆uk. Les axes ∆u1, ∆u2, …, ∆uk sont appelés les axes factoriels.

Remarque
On a du même coup obtenu toutes les solutions pour h < k.

Facteurs associés aux axes factoriels

A tout vecteur unitaire u de E = Rp est canoniquement associé la forme linéaire b sur Rp définie par l’opérateur de la projection sur l’axe ∆u. On a donc b(X) = tXMu que l’on notera tX.b en identifiant le vecteur Mu à la forme linéaire b,

tXMu = tXb = b(X)

Ainsi aux axes factoriels de vecteurs unitaires u1, u2, …, ur (r étant le rang de X) sont associées les formes linéaires b1, b2, …, br appelées facteurs de l’analyse en composantes principales. Il est facile de voir que le premier facteur b1 est vecteur propre de MV associé à la valeur propre λ1, que le deuxième facteur b2 est vecteur propre de MV associé à la valeur propre λ2. etc… Les facteurs caractérisent les axes factoriels aussi bien que les valeurs u1, …, ur. Ainsi, on montre de mnaière immédiate que la recherche du premier axe factoriel qui est de maximiser tuMV Mu sous la contrainte tuMu = 1 revient à la recherche de la forme linéaire b = Mu qui maximise tbV b sous la contrainte t bM−1 b = 1 ; b1 = Mu1 est la solution de ce problème. Plus généralement la recherche du k ime axe factoriel ∆uk revient à rechercher la forme linéaire b = Mu qui maximise t bV b sous les contraintes t bM−1 b = 1 et tb`M−1 b = 0 pour ` = 1, …, k − 1; bk = Muk est solution de ce problème.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Chapitre 1 : L’Analyse en composantes principales (ACP) « classique »
1.1. Domaine d’application
1.2. Cadre de l’ACP
1.2.a) Nuage de points associés au tableau des données
1.2.b) Centre de gravité du nuage N(I)
1.2.c) Métrique Dp sur l’espace des variables Rn
1.2.d) Métrique M sur l’espace des individus Rp
1.2.e) Matrice variance – covariance du nuage N(I)
1.3. Inerties
1.3.a) Inertie par rapport à un point
Théorème de Huygens
Remarques
1.3.b) Inerties par rapport à un sous – espace affine
Remarque
1.4. But de l’ACP
1.5. Formulation du problème de l’ACP
Théorème 1 d’inclusion
Théorème 2
Remarque
1.6. Résolution du problème
1.6.a) Résultats préliminaires
• Expression de l’inertie totale IT
• Expression de l’inertie portée par un axe
• Etude de V M
1.6.b) Détermination des axes factoriels
Problème 1
Problème 2
1.7. Facteurs associés aux axes factoriels
1.8. Composantes principales
1.8.a) Définition
1.8.b) Propriétés des composantes principales
Proposition 1
Proposition 2
1.9. Représentation des individus
1.10. Représentation des variables
1.11. Choix de la métrique M
1.12. Les éléments illustratifs
Chapitre 2 : Données symboliques
2.1. Définition de données symboliques
2.2. Description de données symboliques
2.3. Modèle de base
2.3.a) Remarque
Définition 1
Définition 2
• Conséquences
• Remarque
2.3.b) Concepts
2.4. Objets symboliques
2.4.a) Commentaire
2.4.b) Définition d’un objet symbolique
2.4.c) Extension d’un objet symbolique
2.4.d) Objet symbolique booléen
• Assertions booléennes
• Objet assertion simplifié
2.4.e) Objet symbolique individuel et objet symbolique de classe
• Définition
• Objet assertion individuel
• Proposition
2.4.f) Objets symbolique de différents types
• Objet histogramme
2.5. Notion de l’Analyse de Données symboliques
CHAPITRE 3 : L’ACP DE DONNES DE TYPE INTERVALLE
3.1. Introduction
3.2. Données du Problème et Objectif
3.3. Méthode des Sommets
3.3.a) Introduction
• Exemple 1
• Exemple 2
3.3.b) Algorithme de la méthode des sommets
• Explication des étapes de l’algorithme précédent
• Qualité de Représentation des individus
• Paramètres d’aide à l’interprétation
3.4. Méthode des centres
3.4.a) Introduction
3.4.b) Algorithme de la méthode des centres
• Explication des étapes de l’Algorithme précédent
• Règle
• Représentation des individus
3.5. Comparaison des deux méthodes
• Exemple des Huiles – Description des données
1 – Méthode des sommets
2 – Méthode des centres
CONCLUSION
BIBLIOGRAPHIE

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *