Approche
L’approche soutenue dans cette thèse repose sur la prise en compte interactive des artefacts afin d’aider l’analyse visuelle des projections de données, c’est-à-dire améliorer la fiabilité des interprétations faites sur les données à partir de la projection. En particulier, nous reprenons le concept de la visualisation interactive des proximités [14] afin de mettre en évidence les artefacts. Cette technique permet de visualiser, directement sur la projection par le biais de la couleur, les proximités d’origine entre individus par rapport à une référence sélectionnée par l’utilisateur (Figure 1.4).
Nous étudions également les possibilités offertes par cette approche pour des utilisateurs non nécessairement familiers des projections de données au travers d’une taxonomie des tâches d’analyse visuelle des projections.
Les projections de données sont aujourd’hui principalement utilisées par des analystes de données selon deux contextes d’application :
Dans un contexte exploratoire, c’est-à-dire sans modèle a priori de la structure sous-jacente aux données, les analystes cherchent à identifier visuellement des clusters et détecter des outliers dans les données. Les outliers identifiés peuvent correspondre à des anomalies, dont il est intéressant de trouver l’origine pour y remédier. Enumérer les clusters permet de paramétrer ensuite un algorithme de clustering automatique pour classifier les données.
Dans un contexte confirmatoire, les analystes considèrent une connaissance a priori de la structure sous-jacente aux données, c’est-à-dire une partition des données en classes qui associe une étiquette à chaque individu. Ces classes modélisent des clusters dans les données et peuvent être issues d’un modèle du phénomène observé connu par ailleurs. Au regard de ces classes, l’objectif des analystes est alors de valider si de nouvelles données satisfont le modèle ou non. Les analystes étudient la projection relativement aux étiquettes pour déterminer la proximité entre les classes, leur chevauchement éventuel et détecter des outliers de classes, c’est-à-dire des individus appartenant à un cluster composé majoritairement d’individus d’une autre classe.
Si aujourd’hui les projections sont principalement utilisées par des experts en analyse de données, la métaphore de proximité, sur laquelle les projections reposent, est relativement intuitive [134]. On peut trouver différents cas d’applications pour lesquelles les projections de données peuvent servir à des non-experts, c’est-à-dire des utilisateurs ne souhaitant pas extraire des informations relatives à la classification des données mais plutôt exploiter directement ces informations pour effectuer par exemple de la recherche d’information ou contrôler un système.
Dans un cas d’application de contrôle de système, la tâche confirmatoire, de validation des données par rapport à un modèle, peut être effectuée par des non-experts, afin de détecter visuellement un écart du système par rapport à son modèle initial. La projection permet alors de visualiser directement les informations relatives aux anomalies et de sélectionner les éléments atypiques (outliers, clusters non fidèles aux classes). Par exemple, ce scénario peut s’appliquer au suivi des profils de visiteurs d’un site web afin de détecter l’émergence d’un nouveau type de profil de visiteur, pour ensuite permettre d’aider à le caractériser. L ’étude locale des proximités entre classes sur la projection peut également être effectuée par des non-experts. Appliquée à l’analyse de portefeuilles boursiers, cette tâche permet de détecter si les actifs d’un portefeuille d’actions d’un client potentiel sont trop risqués, car trop similaires à des actions de référence identifiées comme potentiellement dangereuses.
Plan du manuscrit
Le chapitre 2 décrit les travaux reliés à la fouille visuelle de données par réduction de dimension. Nous donnons, dans un premier temps, un aperçu des techniques de visualisation de données multidimensionnelles, avant de décrire les différentes méthodes de projection, ainsi que les mesures de qualité et les techniques de visualisation associées. Par la suite, nous explicitons le pipeline de réduction de dimension ainsi que les différents biais introduits à chaque étape. Après une présentation des systèmes d’analyse exploratoire implémentant ce pipeline, mais ne fournissant pas d’outils pour prendre en compte les artefacts de projections, nous présentons les cas d’utilisation des projections. Nous introduisons finalement une taxonomie des tâches d’analyse visuelle des projections, explicitant les possibles biais dus aux artefacts de projections.
Le chapitre 3 présente les enjeux associés à la visualisation interactive des proximités [14].
Nous revisitons la conception de cette technique, que nous appelons désormais ProxiViz, au niveau de l’encodage graphique et de l’interaction de navigation.
Le chapitre 4 présente une première expérimentation contrôlée qui a été réalisée, pour une tâche de clustering visuel, de manière à confronter ProxiViz à l’état de l’art, à savoir la projection sans ajout d’information et la projection avec une coloration des zones de distorsion. Cette expérience permet également de comparer différents encodages visuels de la technique. Nous rapportons et discutons ensuite les résultats.
Le chapitre 5 présente une seconde expérimentation contrôlée qui a été réalisée pour étudier les performances de la projection sans ajout d’information et de ProxiViz, par rapport à différentes tâches d’analyse visuelle (Figure 1.4). Cette expérience permet également de quantifier l’impact des artefacts sur la précision des analyses visuelles. Nous rapportons et discutons ensuite les résultats.
Le chapitre 6 introduit une étude de l’espace de conception d’une lentille basée sur ProxiViz et permettant de nettoyer localement la projection de ses artefacts de faux voisinages. Cette étude vise à résoudre les problématiques de ProxiViz, liées aux artefacts de faux voisinages, sur la représentation des proximités d’origine, la navigation avec la technique et l’extraction des structures sous-jacentes aux données par brossage 2D sur la projection. Nous introduisons ensuite une implémentation de ce concept de lentille, nommée ProxiLens, dont nous illustrons la portée, avec un jeu de données d’images, sur les différentes tâches d’analyse visuelle des projections.
Nous concluons finalement, dans le chapitre 7, sur les différentes contributions ainsi que les perspectives de poursuite de ce travail. Ces travaux ont donné lieu à des publications que nous listons avant la section bibliographique.
Visualisation de données multi-dimensionnelles
Les données multidimensionnelles se définissent comme un ensemble d’individus ou observations X, où l’individu x i est un vecteur de m attributs x = (x i,1 ,…, x i,m ). Considérant des attributs numériques x i, j ∈ R, on parle de données multidimensionnelles si les attributs sont indépendants (dimensions) et de données multi-variées si les attributs sont dépendants (variables) [263]. Dans la suite, nous utilisons par défaut le terme dimension et le terme variable si on suppose une dépendance entre les attributs, comme la corrélation. Mais par convention, nous utiliserons le terme données multidimensionnelles plutôt que données multidimensionnelles multi-variées, même si cette terminologie est plus précise car elle ne sous-entend pas que l’on connait a priori les relations entre attributs.
L’ensemble des attributs peut être homogène si tous les attributs sont de même nature, ou hétérogène dans le cas contraire. On distingue les attributs avec des valeurs numériques (données ordinales) et ceux avec des valeurs non-numériques (données nominales). Plus précisément, on peut distinguer parmi les données ordinales celles qui sont binaires, discrètes (qualitatives), ou continues (quantitatives). On peut ensuite distinguer parmi les attributs différentes métadonnées qui décrivent le contenu des données (étiquette de classe, unité de mesure, identifiant). Des attributs synthétiques peuvent également être dérivés par calcul pour représenter des valeurs sur un échantillon particulier (comme une moyenne ou un écart type) ou bien pour combiner différents attributs de départ (comme les composantes principales). Des attributs peuvent être extraits automatiquement pour caractériser le contenu des données, comme des caractéristiques d’images [95] ou de signaux [25].
Les dimensions spatiales et temporelles sont très importantes, car directement interprétables.
Une trajectoire est un exemple de donnée spatio-temporelle. Ces deux dimensions définissent un cadre spécifique de tâches d’analyse et de navigation [10]. Prises séparément, leur encodage visuel spécialise la représentation (pour plus de détails voir l’état de l’art sur la visualisation de données temporelles [4]). La prise en compte de ces dimensions est également primordiale en visualisation de données scientifiques, qui est un domaine connexe à la visualisation d’information. Dans ce domaine, les données multi-variées se composent de champs de scalaires, de vecteurs ou de tenseurs (voir l’état de l’art de la visualisation scientifique [90]). Dans cette thèse, nous nous intéressons à des données multidimensionnelles composées de valeurs numériques et sans composantes temporelles ou spatiales.
La taxonomie des tâches bas niveau d’analyse visuelle [8] donne un aperçu des différents critères permettant de comparer les forces et faiblesses d’une technique de visualisation et des interactions avec un système : trouver une valeur dans un intervalle, filtrer les individus, calculer des valeurs dérivées sur un échantillon (moyenne, écart type), trouver un extremum sur un intervalle de valeurs, trier les individus, déterminer une plage de valeurs, caractériser une distribution, trouver des anomalies, définir une partition des données, trouver des corrélations entre variables. Dans la suite, nous noterons clustering la tâche de partionnement des données en clusters, c’est-à-dire en groupes de données similaires entre elles.
Il existe de nombreuses représentations graphiques usuelles de données multidimensionnelles [120, 54, 212] sous forme par exemple d’un nuage de points, d’une courbe, de barres, de piles, etc.. On peut catégoriser ces représentations selon le type de primitives graphiques utilisées (point, ligne, région, mélange de primitives) ainsi que le positionnement des primitives dans l’espace 2D ou 3D (repère cartésien ou polaire).
Mais ces représentations sont limitées par le nombre de dimensions prises en compte. Généralement en 2D, on compte une dimension pour chaque axe (x/y) du repère cartésien et une dimension par variable visuelle supplémentaire. Par exemple, la couleur ou la taille dans un nuage de points encodent respectivement des dimensions qualitatives ou quantitatives. Plusieurs variations des représentations standards 2D/3D, comme les graphiques à multiples courbes ou les matrices de permutation de Bertin [120], ont amorcé le design de nouvelles techniques de visualisation.
Visualisation d’information
Différents états de l’art [132, 263, 45, 107] catégorisent les principales approches existantes de visualisation d’information. Keim [128] classifie ces techniques selon le type de données à visualiser (1D, 2D, multidimensionnel, graphes / hiérarchies, textes et algorithmes), la technique de représentation (diagramme 2D/3D, projection géométrique, basé sur les icônes, orienté pixel, hiérarchique) et le type d’interactions (projection, filtrage, zoom, distorsion, “link & brush”). Cette classification a ensuite été reprise et appliquée au contexte de l’analyse visuelle de données [84].
Dans le cadre de données multidimensionnelles, nous nous intéressons principalement à trois stratégies de représentation : basée sur les icônes, orientée pixel, par projection géométrique. Nous reprenons ci-dessous quelques techniques pour illustrer chaque stratégie, sans être exhaustif.
Pipeline de visualisation et interaction
Pour construire une visualisation, les données brutes de départ doivent être transformées selon leur nature et associées à des variables visuelles de manière à obtenir une image des données à partir de laquelle on peut réaliser des tâches précises. Les différentes étapes qui permettent d’aboutir à une représentation efficace des données s’enchaînent selon un pipeline de visualisation. Différentes définitions ont été proposées pour ce pipeline, dont le modèle de référence de la visualisation d’information [45] qui se compose d’une séquence de transformations de données à travers différentes étapes, pour obtenir un rendu final sur l’écran qui peut ensuite être modifié par le biais d’interactions avec chaque étape de transformation (Figure 2.5).
Réduction de dimension
Réduire le nombre de dimensions s’avère indispensable dans différents cas d’application comme la classification, la compression ou la visualisation, qui souffrent de problèmes de temps de calcul ou de robustesse lorsque le nombre de dimensions devient trop important dans les données. Différentes approches permettent de réduire le nombre de dimensions tout en veillant à ne pas trop dégrader l’information sous-jacente aux données, comme la sélection de variables (manuelle ou automatique) ou bien l’extraction de caractéristiques [25]. Parmi ces approches de réduction de dimension, ce sont les techniques de projection de données permettant de représenter les données qui nous intéresse ici (Figure 2.6).
En effet, la projection de données permet de visualiser des données de grande dimension sous la forme d’un nuage de points 2D ou 3D tout en préservant la structure sous-jacente aux données. Nous avons vu précédemment que la projection était indépendante du nombre de dimensions contrairement aux autres représentations de données multidimensionnelles. De plus, elle permet également de visualiser les relations de similarité dans des collections d’objets (base d’images, corpus de textes, collection de musiques, ensemble de signaux). L’objectif de la projection est de représenter le plus fidèlement possible la structure sous-jacente aux données afin de détecter des outliers, trouver des clusters et étudier les relations de proximité entre ces différentes structures.
Qualité de la réduction de dimension
Il existe donc une grande diversité d’algorithmes de projection et chaque technique implique différentes hypothèses, critères et paramètres, qui sont susceptibles d’influencer le nuage de points résultant, comme par exemple le choix d’une hypothèse de linéarité ou d’un critère d’approximation de la variété qui peut être local ou global et avec une méthode spectrale ou bien par optimisation. Aussi la projection d’un même jeu de données peut changer du tout au tout (Figure 2.8 et Figure 2.9). Le choix d’une approche adaptée dépend de nombreux facteurs liés à la nature intrinsèque des données, comme la présence d’une topologie particulière ou des variations de densité importantes entre les régions de l’espace des données ; autant de caractéristiques qui peuvent influencer plus ou moins fortement chaque algorithme de projection. Ces facteurs sont difficiles à déterminer et requièrent une expérience pointue dans le domaine des projections de données.
Pour autant, il possible de quantifier après projection la qualité de la projection selon la préservation de l’information d’origine ou les caractéristiques visuelles du nuage de points. Différentes mesures de qualité existent afin d’aider des utilisateurs non-experts en projections à appréhender ces enjeux de qualité pour qu’ils puissent explorer différents choix d’algorithmes et de paramétrage dans le but de sélectionner de “bonnes” projections. La qualité peut également être utilisée dans un processus automatique pour proposer de “bonnes” projections à l’utilisateur sans qu’il n’ait à se soucier de leur configuration [23]. La visualisation de la qualité locale de la projection permet également d’essayer de mieux comprendre les particularités de la projection afin de mieux appréhender la structure des données ayant pu être altérée par la réduction de dimension.
Dans cette section, nous présentons les différentes mesures existantes dans la littérature pour déterminer la qualité de la réduction de dimension [83], au travers de différentes approches, baséessoit sur la qualité de la préservation des structures d’origine, soit sur la qualité visuelle de du nuage de points.
Pipeline de réduction de dimension
Visualiser et analyser des données de grande dimension nécessite d’abstraire les variables pour se concentrer sur les relations de similarité entre individus et en particulier sur les structures sous jacentes aux données qui en résultent. On considère ainsi soit directement un tableau individus/variables, soit directement une matrice de similarité (ou de dissimilarité) entre individus obtenue pour une certaine mesure de similarité (ou de dissimilarité). Différentes opérations sont nécessaires pour passer des données brutes à la visualisation. La section suivante décrit ce processus de réduction de dimension en précisant les biais introduits à chaque étape.
Description du pipeline
Le modèle de référence de la visualisation d’information ne met pas en valeur les biais qui sont introduits à chaque étape du processus. Nous ne nous intéressons pas ici au problème de visualisation des incertitudes, problème pour lequel le pipeline de visualisation à déjà été adapté [166, 58], mais nous nous intéressons aux biais introduits à chaque étape du pipeline de visualisation. En particulier, nous nous plaçons dans un contexte où l’on souhaite visualiser des données par réduction de dimension et nous précisons quels biais sont contrôlables en ayant recours à l’interaction de l’utilisateur, quels biais sont difficilement maîtrisables et quels biais nous nous proposons d’aider à maîtriser, en l’occurrence les artefacts de projection (Figure 2.10).
Acquisition Le pipeline de visualisation commence avec une source de données. Les données représentent un phénomène observé à travers un certain système de mesure. Collecter les données dépend du domaine d’application, mais dans tous les cas la qualité de l’information sous jacente aux données est dépendante de la précision du système de mesure et du calibrage de celui-ci. Ce processus d’acquisition permet d’obtenir des données brutes qui devront ensuite être pre-traitées pour être nettoyées de leur bruit : filtrer les aberrations, détecter les valeurs manquantes, etc., dans le but d’obtenir des données structurées sous une forme canonique [45]. Le calibrage du système de mesure par un expert permet de contrôler la qualité de l’acquisition et ainsi de maîtriser enpartie le bruit introduit à cette étape du pipeline.
|
Table des matières
1 Introduction
1.1 Motivation
1.2 Contexte
1.2.1 Visualisation Analytique
1.2.2 Visualisation par projection de données
1.2.3 Problématiques
1.3 Approche
1.4 Contributions
1.5 Plan du manuscrit
2 Etat de l’art
2.1 Visualisation d’information
2.1.1 Visualisation de données multi-dimensionnelles
2.1.2 Pipeline de visualisation et interaction
2.2 Réduction de dimension
2.2.1 Projection de données
2.2.2 Qualité de la réduction de dimension
2.3 Pipeline de réduction de dimension
2.3.1 Description du pipeline
2.3.2 Taxonomie des usages du pipeline
2.4 Taxonomie des tâches d’analyse visuelle des projections
2.4.1 Analyse Exploratoire
2.4.2 Analyse Confirmatoire
3 ProxiVizla visualisation interactive des proximités revisitée
3.1 Motivation
3.2 Encodage visuel
3.2.1 Les échelles de couleur
3.2.2 Application à la coloration des proximités
3.2.3 Support de l’encodage couleur
3.3 Interaction de navigation
3.4 Discussion
3.5 Conclusion
4 Evaluation de l’encodage visuel de ProxiViz
4.1 Motivation
4.2 Etudes utilisateurs des projections
4.3 Expérience contrôlée
4.3.1 Techniques
4.3.2 Jeux de données
4.3.3 Type d’artefacts de projection
4.3.4 Tâches
4.3.5 Conception de l’expérience
4.3.6 Participants et procédure
4.3.7 Hypothèses
4.4 Résultats
4.5 Discussion
4.6 Conclusion
5 Evaluation de ProxiViz sur différentes tâches d’analyse visuelle
5.1 Motivation
5.2 Expérience contrôlée
5.2.1 Tâches d’analyse visuelle
5.2.2 Techniques
5.2.3 Jeux de données
5.2.4 Niveau de difficulté .
5.2.5 Conception de l’expérience
5.2.6 Participants et procédure
5.2.7 Hypothèses
5.3 Résultats
5.4 Discussion
5.5 Conclusion
6 ProxiLensExploration interactive des proximités d’origine
6.1 Motivation
6.2 Espace de conception
6.2.1 Conceptualisation de la lentille
6.2.2 Représentation de la lentille
6.2.3 Interaction avec la lentille
6.3 ProxiLens
6.3.1 Interface
6.3.2 Tâches d’analyse visuelle
6.4 Discussion
6.5 Conclusion
7 Conclusion et perspectives
7.1 Contributions
7.2 Perspectives