Analyse en composantes principales des données du type intervalle

Des méthodes statistiques ont été principalement développées pour l’analyse de variables monovaluées (la valeur prise par une variable pour un objet est unique). Cependant dans la vie courante il y a beaucoup de situation dans lesquelles ces types de variables peuvent causer la perte grave d’informations. Traitant dans plusieurs domaines, des variables quantitatives, des informations plus complètes sont sûrement obtenues en décrivant un ensemble d’unités statistiques en termes de données d’intervalles. Par exemple les valeurs maximales et minimales des températures quotidiennes enregistrées offrent une vue plus réaliste que les températures moyennes simples. Un autre exemple peut être donné par la série financière: le minimum et le maximum, des prix de transaction quotidiennement enregistrés pour un ensemble de stocks, représentent les informations les plus appropriées pour les experts afin d’évaluer la tendance et la volatilité courantes dans le même jour.

Dans ce mémoire nous ne considérons pas la valeur centrale d’un intervalle mais nous attirons l’attention sur les valeurs minimales et maximales uniquement. Celles-ci sont évaluées comme deux aspects différents relatifs au même phénomène.

Le traitement statistique de données d’intervalles, a été récemment considéré dans le contexte de l’ ANALYSE DE DONNEES SYMBOLIQUES (ADS) par [2], dont le but est de prolonger des méthodes statistiques à l’étude des structures de données plus complexes que le modèle tabulaire individusXvariables. Le mémoire présente quelques nouvelles techniques ACP pour visualiser et comparer les structures de données d’intervalles. Des unités statistiques décrites par des variables d’intervalles peuvent être considérées comme cas spéciaux de données symboliques dans lesquelles seulement des variables quantitatives sont considérées.

ANALYSE EN COMPOSANTES PRINCIPALES 

L’Analyse en Composantes Principales (ACP) est une méthode mathématique d’analyse de données qui permet d’analyser tout tableau de données représentant N individus décrits par p -variables quantitatives (où N et p sont des entiers naturels) et de rechercher les directions de l’espace qui représentent le mieux les corrélations entre p variables aléatoires. Elle est aussi connue sous le nom de transformée de KARHUNEN-LOEVE ou transformée de HOTELLING.

Lorsqu’on veut «compresser» un ensemble de p variables aléatoires, les n premiers axes de l’ACP n≤ p sont un meilleur choix du point de vue de l’inertie expliquée.

L’ACP a pour but de comprendre et de visualiser comment les effets de phénomènes a priori isolés se combinent. Lorsque l’on ne considère que deux effets, il est usuel de caractériser leurs effets conjoints via le coefficient de corrélation (son seul défaut est de ne prendre en compte que des effets conjoints linéaires, ce qui se remarque en regardant les coefficients d’une régression linéaire).Lorsqu’on se place en dimension deux, les points disponibles (l’échantillon de points tirés suivant la loi conjointe de X1 et X 2 ) peuvent être représentés sur un plan. Le résultat d’une ACP sur ce plan est de déterminer les deux axes qui expliquent le mieux la dispersion des points disponibles.

STRUCTURE DE DONNEES SYMBOLIQUES 

L’Analyse de Données Symboliques (ADS) est une méthode mathématique d’analyse de données qui permet d’étendre les méthodes d’analyse de donnés classique à des données plus complexes, dites symboliques. Elle est basée sur une modélisation du monde réel supposé constituer d’individus et de concepts. Elle consiste à analyser un ensemble d’individus tout en prenant en compte la statistique propre, les données répétées, la variation interne de chacun d’entre eux, considéré d’abord comme un cas unique. En principe, il faut utiliser en entrée d’une ADS la définition de données symboliques qui prend en compte la variation interne aux individus et leur complexité.

Définition de données symboliques et variables symboliques 

Les individus sont les unités statistiques de la population à étudier . Par exemple si nous étudions une population d’oiseaux alors chacun d’entre eux représente un individu. Les concepts sont les variables et leurs modélisations mathématiques sont données par les objets symboliques dans un espace L, dit des «objets symboliques». Exemple de concepts: taille, pays, poids,…

Les variables Yj d’un tableau de données sont dites symboliques quand les données le sont. Autrement dit, chaque cellule (case) peut contenir des données de types différents: une valeur quantitative unique, une valeur qualitative unique, plusieurs valeurs, un intervalle, plusieurs valeurs avec une pondération (histogramme, fonction d’appartenance ou régression d’une variable…) .

Description des individus

Les individus sont modélisés dans un espace de description D qui exprime leurs propriétés à l’aide des variables. Une description d ∈D est constituée d’un ou plusieurs produits exprimant ces propriétés par leur domaine de variation pour l’individu considéré. Dans un tableau de données symboliques, les descriptions des individus sont représentées par les lignes. De plus elles sont données par les connecteurs logiques: disjonction ou conjonction.

EXEMPLE DE DESCRIPTION D’UN INDIVIDU

Considérons le tableau de données précédent, on peut alors décrire le produit 3 comme suit: son poids varie entre les valeurs 3,2 ; 4,8 ; 7,4; sa ville est soit Paris ou Lyon et sa couleur varie entre 0.3 rouge et 0,7 jaune. Autrement dit,

d 3= [{ Y1= 3.2 }∨{ Y1= 4.8 }∨{ Y1= 7.4 }]∧[{ Y 2=Paris }∨{ Y 2=Lyon }]∧[{ 3= 0.3 rouge }∨{ Y 3= 0.7 jaune }] 

Notons que:
∨ Lie les valeurs qui se trouvent dans chaque case et
∧ Lie sur une même ligne les différentes colonnes.

Méthodes de statistiques descriptives unidimensionnelles appliquées à des données de type intervalle et valeurs multiples

Dans cette partie nous allons étudier comment la statistique descriptive se présente lorsque les valeurs observées sur les unités statistiques sont des données symboliques. Dans cette étude , deux types de données seront considérés : les variables multi-valuées et les variables de type intervalle. Ceci n’exclus pas le fait qu’il y ait d’autres types de variables symboliques (variables modales) sauf que nous nous intéressons le plus, dans ce mémoire ,aux données d’intervalles. Avant de traiter le problème, quelques définitions et remarques utiles dans la suite seront introduites.

L’analyse de données symboliques a pour but en plus de l’extension des méthodes classiques données symboliques (classification automatique, analyse factorielle, discrimination, arbres de décisions, régression, etc.) d’obtenir une description symbolique d’une classe de façon à obtenir des sous classes homogènes et bien discriminantes des autres classique. Par rapport aux approches classiques, l’ADS s’applique à des données plus complexes, utilise des outils adaptés à la manipulation d’objets symboliques de génération et spécialisation, de calcul d’extension et de mesures de ressemblances.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
Chapitre 1: ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
1.1 Introduction
1.2 Tableau de données
1.3 Démarche de l’ACP
1.3.1 Recherche du premier axe factoriel
1.3.1.1 Analyse factorielle du nuage des individus
1.3.1.2 Analyse du nuage des variables
1.4 Outils d’aide à l’interprétation
1.5 Conclusion
Chapitre 2: STRUCTURE DE DONNÉES SYMBOLIQUES
2.1 Introduction
2.2 Définition de données symboliques et variables symboliques
2.3 Description des individus
2.4 Objet symbolique
2.4.1 Objet symbolique Booléen
2.4.2 Extension des objets symboliques
2.4.3 Union et intersection des objets symboliques
2.5 Méthodes de statistiques descriptives appliquées à des données du type intervalles et valeurs multiples
2.6 Conclusion
Chapitre3: ANALYSE EN COMPOSANTES PRINCIPALES DES SOMMETS DES OBJETS SYMBOLIQUES (ACPS)
3.1 Introduction
3.2 Construction de la matrice normalisée
3.3 L’ACP de la matrice normalisée Z
3.4 Outils d’aide à l’interprétation
3.5 Notion de MCAR
3.6 Application de l’ACPS
PERSPECTIVES
CONCLUSION
BIBLIOGRAPHIE
Résumé

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *