Structuration de bases multimédia pour une exploration visuelle

Dans beaucoup de domaines, la quantité de données multimédia augmentant fortement, il est nécessaire de disposer d’outils de recherche et de navigation adaptés pour pouvoir effectuer des explorations visuelles de ces bases multimédia qui soient efficaces. Sur internet, les moteurs de recherche permettent de parcourir les données multimédia disponibles à l’aide d’une requête textuelle complétée parfois par une recherche par média semblables. Les résultats de recherche sont souvent ordonnés par pertinence décroissante. Cette pertinence peut prendre en compte ou non des informations personnelles que nous communiquons à l’aide de profils. L’exploration en devient personnalisée mais ceci nécessite des mécanismes et des techniques élaborées encore en cours de développement.

Il existent de nombreuses bases multimédia autres que celles rendues publiques sur internet. Des organisations comme les festivals de films à thèmes se constituent des médiathèques conséquentes. Dans ce contexte, les explorations visuelles peuvent être artistiques et correspondre à des balades ludiques dans la base multimédia. Cependant la plupart des autres explorations visuelles correspondent plutôt à un besoin de parcours intelligible et de recherche de média spécifique. Plus éloignées des loisirs créatifs, de nombreuses entreprises et institutions gèrent des archives multimédia volumineuses. Par exemple, dans le domaine médical, chaque examen de radiologie génère plusieurs centaines d’images numérisées. Pour un seul centre de radiologie, la masse annuelle de données multimédia produite est actuellement de plusieurs téraoctets. La mise à disposition de ces données aux radiologues, ne serait-ce que pour échanger des avis, oblige les centres à mettre à leur disposition des solutions d’exploration visuelle adaptées.

Généralités sur les visualisations

Pfitzner [Pfitzner et al., 2003] a mis en évidence cinq facteurs fondamentaux à prendre en compte pour la réalisation d’une application de visualisation d’information: les données, la âche, l’interaction, le niveau d’expertise de l’utilisateur et le contexte d’utilisation. En outre, la visualisation d’information dispose d’un modèle de référence élaboré par Card, Makinley et Schneiderman en 1999 Ce modèle est repris dans plusieurs livres comme celui sur la visualisation d’information écrit ultérieurement par Card [Card, 2007].

Le modèle part des données brutes en leur faisant subir un ensemble de transformations pour aboutir à des tables de données. Ces transformations peuvent consister en l’extraction de différents descripteurs. Des opérations de mappage permettent ensuite d’obtenir des structures visuelles. Ce peut être par exemple une projection dans un espace 2D. Des transformations permettent finalement d’obtenir la vue proposée à l’utilisateur. Ces transformations peuvent être par exemple la déformation de l’espace 2D via l’adjonction d’un zoom. Dans un deuxième temps, l’utilisateur final peut interagir avec tous les niveaux du modèle. Il peut modifier la vue par exemple dans le cas d’un zoom en déplaçant le centre d’intérêt du focus. Il peut modifier la structure visuelle en demandant à avoir un autre mappage comme par exemple, passer d’une vue géographique 2D de type carte routière à une vue permettant des déplacements en 3D. Il pourrait aussi modifier la table de données en demandant l’extraction de nouveaux descripteurs. Ce modèle de référence peut permettre d’analyser et décrire toutes les visualisations existantes quelles que soient leurs variabilités apparentes. Cependant, pour choisir une visualisation adaptée au besoin, il reste à savoir évaluer la qualité de ces visualisations et à prendre en compte la satisfaction de l’utilisateur.

Un processus de cartographie sémantique

Dans le cas de la visualisation des connaissances, Tricot [Tricot, 2006] propose un processus de cartographie sémantique avec plusieurs espaces informationnels : brut, structuré, représenté et visualisé. La construction de la visualisation et son processus d’interaction avec l’utilisateur sont analogues à ceux du modèle de référence de la visualisation d’information.

Dans notre contexte, la dénomination de la cartographie sémantique (en particulier celle d’espace structuré) nous semble intéressante pour notre approche car adaptable à nos bases documentaires de type multimédia qui n’ont pas de structure intrinsèque. La première étape consiste donc bien à extraire des descripteurs. Que ceux-ci soient numériques, ordinaux, cardinaux ou binaires, ce sont eux qui apportent une structure à la base. Ensuite tout le processus décrit précédemment peut être déroulé. La base documentaire brute étant donnée, il reste à définir les trois autres espaces. Nous commençons par la visualisation qui doit répondre aux besoins des utilisateurs. Nous poursuivons par la structuration que nous pouvons apporter au données brutes et nous finissons par la représentation qui doit être la passerelle entre la structuration des données et la visualisation voulue.

Classification des visualisations

Shneiderman [Shneiderman, 1996] a mis en place la taxonomie Type by Task Taxonomy (TTT). Elle est certainement celle qui a le plus influencé la visualisation d’information [Chen, 2010]. Cette taxonomie est basée sur le type de données représentées et sur les tâches effectuées par l’utilisateur. Elle distingue 7 types de données : 1D, 2D, 3D, temporelles, multidimensionnelles, hiérarchiques et relationnelles. Et 7 tâches : avoir une vue d’ensemble, zoomer, filtrer, obtenir des détails, lier les représentations, disposer d’un historique des actions réalisées et exporter une partie des informations vers d’autres applications. Une tâche complexe comme par exemple, « Focus and Context » peut être décrite comme une combinaison des tâches « avoir une vue d’ensemble », « zoomer » et « lier les deux représentations » [Jaeschke et al., 2005]. Cockburn [Cockburn et al., 2009] compare trois tâches complexes : Vue d’ensemble + Détails, Zoom et Vue d’ensemble + Zoom en notant qu’aucune des trois ne se distingue nettement. Pour ce qui concerne les données, de nombreuses taxonomies basées sur le TTT ont été proposées. Bruley [Bruley et Genoud, ntes] a séparé les données 1D, 2D et 3D en deux catégories selon un point de vue spatial d’une part, et un point de vue non structuré d’autre part. Tory [Tory et Möller, 2002] a quant à lui proposé une séparation entre des données continues et des données discrètes. Mais comme le précise Jaeschke [Jaeschke et al., 2005], une quantité de taxonomie ont été proposées en extension de la TTT, mais aucune n’a jamais été aussi largement adoptée que le travail de Shneiderman. Cependant, Shneiderman considérait sa classification incomplète et prévoyait que les applications à venir allaient requérir des structures de données nouvelles et spécialisées.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Table des matières
Liste des tableaux
Liste des figures
1 Introduction
2 Le processus de visualisation et les besoins de structuration
2.1 Généralités sur les visualisations
2.2 Un processus de cartographie sémantique
2.3 Classification des visualisations
2.4 Des données structurées
2.5 Une liste des représentations envisageables
2.6 Synthèse, bilan et objectifs
2.6.1 Synthèse : un processus pour l’élaboration d’une visualisation
2.6.2 Bilan et objectifs
3 L’état de l’art
3.1 Données et mesures
3.1.1 Variables qualitatives
3.1.2 Variables quantitatives
3.1.3 Similarités, dissimilarités et distances
3.1.4 Les p-distances
3.1.5 La distance de Mahalanobis
3.1.6 Indice et distance de Jaccard
3.1.7 Autres indices de similarité
3.2 Structuration par projection
3.2.1 Analyse en Composante Principale (ACP)
3.2.2 Positionnement multidimensionnel (MDS)
3.2.3 Isometric Mapping (Isomap)
3.2.4 Cartes auto adaptatives (SOM)
3.2.5 Isotop
3.2.6 Autres techniques
3.2.7 Choix d’une projection
3.3 Structuration par classification
3.3.1 Classes, partitions et hiérarchies
3.3.2 Classification automatique
3.3.3 Classification supervisée
3.3.4 Classification semi-supervisée
3.3.5 Classification semi-supervisée interactive et active
3.3.6 Synthèse
3.4 Le Clustering Spectral
3.4.1 Théorie spectrale des graphes
3.4.2 Le Clustering Spectral automatique
3.5 Bilan
4 Mesures de ressemblances et corrélation
4.1 La base de la CITIA et sa vérité terrain par paires
4.1.1 Présentation générale
4.1.2 Obtention d’une vérité terrain
4.2 Des données aux mesures de dissimilarités
4.3 La corrélation de rang
4.3.1 Le tau de Kendall
4.3.2 Le gamma de Goodman-Kruskal et l’indice de discrétion
4.4 Sélection de descripteurs
4.4.1 Comparaisons des dissimilarités
4.4.2 Comparaisons avec l’aléatoire
4.5 Fusion de descripteurs
4.5.1 La méthode de fusion par tri successif
4.5.2 Résultats
4.5.3 Améliorations envisagées
4.5.4 Évaluation de la méthode à l’aide d’une validation croisée
4.5.5 Appréciation de la méthode
4.5.6 Bilan
4.6 Classification par corrélation .
4.6.1 Les données du challenge MediaEval
4.6.2 Corrélation de rang et partitions
4.6.3 La méthode de classification par corrélation de rang
4.6.4 Expérimentation sur la classification par genre du challenge MediaEval
4.6.5 Performances et résultats
4.7 Bilan
5 Conclusion