La construction d’une méthode d’imputation multiple commence par le choix d’un modèle d’imputation. La compréhension des propriétés de ce modèle permet de cibler le type d’inférence qui pourra être mené par la suite sur un jeu imputé à partir de ce modèle. Ainsi, l’objet de ce chapitre est de présenter les méthodes d’imputation simple, pour des données quantitatives, qualitatives ou mixtes, utilisant les méthodes d’analyse factorielle. Nous commencerons par présenter les méthodes d’analyse factorielle, puis expliquerons comment en estimer les paramètres en présence de données manquantes.
Methodes d’analyse factorielle
Les méthodes d’analyse factorielle sont des méthodes d’analyse exploratoire multidimensionnelles utilisées pour identifier les relations entre variables ainsi que les ressemblances entre individus sur des jeux de données où le nombre de variables, et éventuellement le nombre d’individus, sont trop élevés pour envisager d’effectuer cette tâche via une succession d’analyses univariées ou bivariées. Ces méthodes reposent sur une réduction de la dimension. Le principe est de rechercher un sous-espace qui maximise l’inertie de projection du nuage des individus ou de façon équivalente, du nuage des variables. La visualisation de la projection des points sur ce sous-espace permet ensuite d’identifier les relations entre variables et les ressemblances entre individus. Nous nous intéressons ici à trois méthodes d’analyse factorielle : l’analyse des composantes principales (ACP), l’analyse des correspondances multiples (ACM) et l’analyse factorielle des données mixtes (AFDM). Chacune de ces méthodes est adaptée à un type de données particulier (quantitatives, qualitatives, mixtes, respectivement), mais leur principe général est très proche. Nous présentons ces méthodes par le biais de l’une d’entre elle : l’ACP.
Les n individus et les p variables quantitatives sont décrits par une matrice Xn×p que l’on suppose centrée. Cette matrice peut être représentée comme un nuage de n points dans R p appelé espace des variables, chacun des points de cet espace étant affecté d’un poids di (1 ≤ i ≤ n). De façon équivalente on peut représenter cette matrice par un nuage de p points dans l’espace des individus R n, chacun des points étant muni d’un poids mk (1 ≤ k ≤ p). Afin de déterminer le sous-espace qui maximise l’inertie de projection de ces points, il convient de munir chacun de ces espaces d’une métrique : D pour l’espace des variables, qui définit également le poids des individus, et M pour l’espace des individus, qui définit aussi le poids des variables.
L’objectif dans notre cadre n’est pas de représenter X graphiquement afin de comprendre l’information portée dans le jeu de données, mais d’utiliser cette information pour prédire des valeurs du tableau. La matrice X obtenue en reconstituant les données à partir des composantes principales et des vecteurs propres estimés fournit une telle prédiction. Il est important de noter que cette prédiction est obtenue en estimant un nombre réduit de paramètres indépendants : p pour le centrage de X, (n − 1) S pour estimer les composantes principales car celles ci sont centrées et pS pour l’estimation des vecteurs propres, auxquels on retranche S2 paramètres du fait des contraintes d’orthogonalité, soit un total de p+S(n−1 +p−S) paramètres. Pour S fixé, ce nombre évolue linéairement en fonction du nombre de lignes et linéairement en fonction du nombre de colonnes. Ainsi, le modèle n’est pas surparamétré même si le nombre d’individus ou le nombre de variables est grand. De plus, la présence de corrélations fortes entre les variables ne constitue pas non plus un problème car aucune inversion n’est utilisée pour effectuer l’estimation des paramètres.
L’ACM et l’AFDM peuvent être vues comme des extensions de l’ACP utilisant d’autres métriques. La présence de variables qualitatives dans ce cas impose un recodage des variables car la décomposition en valeurs singulières ne peut être appliquée que sur une matrice constituée de données quantitatives. Ainsi, dans le cadre de l’ACM, qui est la méthode adaptée à des variables qualitatives, l’ensemble des variables est recodé sous la forme d’un tableau disjonctif complet. Chaque variable qualitative est ainsi remplacée par autant d’indicatrices que le nombre de modalités de réponses qu’elle possède.
Les méthodes d’analyse factorielle se distinguent par les métriques utilisées dans l’espace des individus. La métrique sur l’espace des variables définit le poids des individus et reste identique quelque soit la nature des variables. L’estimation des paramètres de ces méthodes est effectuée à l’aide d’une décomposition en valeurs singulières. Pour pouvoir imputer selon ces méthodes, il est nécessaire de savoir estimer ces paramètres en présence de données manquantes et donc d’effectuer une décomposition en valeurs singulières avec données manquantes.
Estimation des parametres sur un jeu incomplet
Différentes méthodes ont été proposées pour estimer les paramètres des méthodes d’analyse factorielle en présence de données manquantes dans le cadre de l’ACP (e.g. Christoffersson (1970); Josse et al. (2009); Wasito et Mirkin (2005, 2006)). Parmi elles, Josse et al. (2009) ont proposé un algorithme appelé ACP itérative. Celui-ci consiste à estimer les paramètres en alternant des étapes d’imputation du jeu de données et d’estimation des composantes principales et vecteurs propres. Le tableau incomplet est d’abord complété par des valeurs initiales, puis les composantes principales et les vecteurs propres sont estimés sur le jeu rendu complet. Les données manquantes sont alors mises à jour en utilisant les données reconstituées.
Imputation simple par analyse factorielle
Les travaux précédents, permettant d’estimer les paramètres de l’ACP (Josse et al., 2009) et de l’ACM (Josse et al., 2012) en présence de données manquantes, laissaient déjà entrevoir un moyen d’effectuer de l’imputation simple pour des données quantitatives ou qualitatives. Néanmoins, les algorithmes itératifs proposés n’ont jamais été étudiés en termes de qualité de prédiction des données manquantes. Ainsi, cette section présente l’imputation simple par composantes principales à travers l’imputation par AFDM, l’imputation par ACP ou ACM pouvant être vues comme des cas particuliers. L’objectif ici n’est pas d’appliquer une méthode statistique sur un tableau incomplet mais d’évaluer les propriétés des méthodes d’imputation par méthodes en composantes principales. Par conséquent, on s’intéressera ici à la qualité de prédiction des données manquantes. Cette section correspond à l’article Audigier et al. (2014).
|
Table des matières
1 Introduction
2 Les données manquantes et leur gestion
1 Classification des données manquantes
1.1 Terminologie
1.2 Dispositifs de données manquantes
1.3 Mécanismes à l’origine des données manquantes
1.3.1 Mécanisme MCAR
1.3.2 Mécanisme MAR
1.3.3 Mécanisme NMAR
2 Méthodes pour gérer les données manquantes
2.1 Approches par pondération
2.2 Approches basées sur la vraisemblance
2.2.1 Ignorabilité
2.2.2 Maximum de vraisemblance
2.2.3 Estimation Bayésienne
2.3 L’imputation multiple
2.3.1 Fondements théoriques
2.3.2 Lien entre modèle d’imputation et modèle d’analyse
2.3.3 Imputation proper
3 Discussion
3 Imputation simple par les méthodes d’analyse factorielle
1 Méthodes d’analyse factorielle
2 Estimation des paramètres sur un jeu incomplet
3 Imputation simple par analyse factorielle
3.1 Imputation for mixed type-data using factorial analysis for mixed data
3.1.1 FAMD in complete case
3.1.2 The iterative FAMD algorithm
3.2 Properties of the imputation method
3.2.1 Relationships between continuous and categorical variables
3.2.2 Influence of the relationships between variables
3.2.3 Imputation of rare categories
3.2.4 Extensive study
3.3 Choice of the number of dimensions
3.4 Comparison on real data sets
3.5 Conclusion
3.6 References
3.7 Compléments : focus sur les données MAR
4 Imputation multiple de données quantitatives
1 Method
1.1 PCA model
1.1.1 PCA on complete data
1.1.2 PCA on incomplete data
1.1.3 Bayesian PCA on complete data
1.1.4 Bayesian PCA on incomplete data
1.2 Multiple imputation with the BayesMIPCA algorithm
1.2.1 Presentation of the algorithm
1.2.2 Modelling and analysis considerations
1.3 Combining results from multiple imputed data sets
2 Evaluation of the methodology
2.1 Competing algorithms
2.2 Simulation study with a block diagonal structure for the covariance matrix
2.2.1 Simulation design
2.2.2 Criteria
2.2.3 Results
2.3 Simulation study with a fuzzy principal component structure
2.4 Simulations from real data
3 Conclusion
4 References
5 Appendix
5 Conclusion
Télécharger le rapport complet