Plate-forme ouverte pour contenus et traitements multimédias en ligne

La société numérique d’aujourd’hui vit à l’heure des contenus multimédias provenant de la télévision, d’Internet, de téléphones mobiles… Une des fonctionnalités de certaines plates-formes multimédias pouvant gérer ces contenus numériques est d’en permettre l’accès soit à des utilisateurs voulant interagir avec ceux-ci, soit à diverses applications effectuant certains traitements sur ces contenus. Un premier verrou lié à ces plates-formes renvoie à l’accès à tout type de média dans un contexte d’interactivité et d’interopérabilité. L’interactivité des utilisateurs implique le contrôle des actions sur le contenu et la potentialité pour l’utilisateur de communiquer avec la plate-forme. Au niveau de l’interopérabilité, nous parlons de la capacité à dialoguer et interagir ainsi qu’à échanger des données entre différentes applications disposant de différentes caractéristiques.

Ce fut l’un des objectifs du projet européen Jules Verne où la réponse proposée s’appuie sur le nouveau concept “MP4 Click & GetTM”. Ce projet considèrait des applications monolithiques avec médias en local. Il s’agissait de scènes 3D, programmées en MPEG-4 et où l’ouverture du système était assurée par des accès JAVA à des services web. L’interactivité était assurée également par un moteur JAVA qui accède aux éléments de la scène.

Introduction aux systèmes multimédias 

Les services de diffusion multimédia ont connu un essor considérable ces dernières années, les usagers d’Internet y puisant sources d’information, possibilités d’échange et de partage de divers types de médias tels que vidéos, images, sons ou encore objets graphiques 3D. Ces médias peuvent ensuite être, en toute liberté sur le moment ou le lieu, visualisés, commentés, envoyés à d’autres utilisateurs ou à des communautés. Pour accéder aux contenus, de complexes systèmes multimédias ont été créés suscitant de nombreuses recherches tant au niveau académique qu’industriel. Dans la plupart des systèmes multimédias, une ou plusieurs bases de données multimédias composent le cœur du système : c’est l’élément de stockage pour tous les modules qui nécessitent de retrouver ou d’ajouter des contenus. En premier lieu, le système multimédia dont nous discutons ici doit disposer d’un mécanisme d’enrichissement. Celui-ci repose sur un module d’extraction d’information, soit bas niveau telle que la couleur, la texture ou la forme en fonction des contenus à analyser (vidéo, image, son et 3D), soit haut niveau avec la détection d’objet ou la gestion du résumé d’une vidéo. Pour exploiter ces informations, la seconde phase de l’enrichissement des contenus consiste à les exprimer dans un langage de représentation comme celui défini par exemple par la norme MPEG-7. Par la suite, les données indexées sont organisées dans la base de données multimédias pour une recherche efficace. Au fur et à mesure, les contenus de descriptions sémantiques s’enrichissent à l’aide d’ontologies, ou de procédures plus ou moins sophistiquées d’apprentissage. Dans ce dernier cas, le système peut demander une analyse des résultats des requêtes formulées par les utilisateurs et indiquer le degré de pertinence des contenus retrouvés. Cela ajoute des éléments d’information permettant aux systèmes d’améliorer leurs performances de recherche au fil de l’eau. L’enrichissement des médias à différents niveaux aboutit à la structuration de contenus auto-définis, auto-présentés et auto-positionnés. La limite la plus fréquemment rencontrée pour ces modules d’enrichissement tient à leur caractère fermé : le contrôle et la maîtrise des méthodes et outils sous-jacents étant du ressort de groupe propriétaire. La deuxième partie du système multimédia considéré est liée à la fonctionnalité d’accès aux contenus par les utilisateurs où deux principaux modes d’interaction sont possibles. Le premier consiste à exploiter des outils d’agrégation de contenus en utilisant en autre la norme RSS . Cette approche, permet au système de mettre le focus sur différents contenus spécifiques. L’autre manière d’accéder revient à utiliser les outils mis à disposition par les systèmes multimédias, comme le parcours de catégories, les mots-clés ou les moteurs de recherche. Ces derniers analysent la requête de l’utilisateur, pouvant être en autres sous forme textuelle ou par l’exemple. Après avoir interrogé la base de données multimédias, le système présente et visualise les résultats retrouvés. Une des limitations actuelles de l’accès se situe dans le fait qu’il n’est pas universel au sens où tous les systèmes ne sont pas interconnectés. Aujourd’hui, à partir d’un moteur de recherche classique, les utilisateurs doivent correctement spécifier leurs requêtes (mots-clés bien choisis) et naviguer à travers de multiples systèmes multimédias. C’est probablement l’origine d’un domaine de recherche en émergence sur des systèmes multimédias dits ouverts afin de permettre à tout système externe d’accéder aux contenus et à leurs descriptions. Cette ouverture est généralement réalisée au travers d’APIs . L’apparition de telles APIs contribue également à une meilleure accessibilité des contenus. Ainsi, un moteur de recherche pourra centraliser la requête d’un utilisateur, puis interroger différents systèmes pour retrouver les contenus correspondant au mieux à la requête. Une telle ouverture pourrait éventuellement remettre en cause les modèles d’affaires fondés sur des systèmes et solutions propriétaires. Mais, quels avantages y-a-t-il à partager contenus et descriptions ? La question reste objet à débat à tout niveau. Une autre limitation est la non normalisation de ces APIs ce qui rend l’interrogation d’un grand nombre de systèmes très laborieuse.

Enrichissement des contenus

Description de contenus audiovisuels 

Dans le contexte de la société de l’information et de la communication, comment gérer et stocker les données audiovisuelles (image, vidéo, audio, graphiques 2D, 3D), afin de les ré-exploiter de façon intelligente et optimale ? Le concept de description (semi-automatique) consiste à associer aux contenus multimédias des métadonnées ou des descriptions significatives exploitables par des moteurs de recherche ou d’autres applications. La suite de ce chapitre introduit différentes méthodes de description pour les contenus audiovisuels. A partir d’une image numérique, de nombreuses informations bas niveau peuvent être extraites. Ces  recherche de contenus et le calcul de descripteurs d’un niveau sémantique plus élevé. La couleur, la texture ainsi que la forme des entités visuelles sont les principales caractéristiques visuelles globales bas niveau pouvant être extraites à partir d’une image numérique. Un descripteur de mouvement peut être également extrait dès lors que les entités visuelles sont créées (vidéos et 3D/2D). Elles ont été principalement utilisées par les premiers moteurs de recherche d’images dans les années 1990. A partir des différents descripteurs bas niveau, d’autres descripteurs, que nous exposons dans la section suivante, ayant un niveau sémantique plus élevé, peuvent être élaborés. Une introduction à l’indexation vidéo et à l’extraction de caractéristiques fait l’objet de l’annexe A-1 de ce manuscrit. Ci-dessous, une introduction à l’indexation d’objets 3D est présentée en raison de son exploitation directe dans nos travaux de thèse. Aujourd’hui, les développements des cartes graphiques 3D, leur adoption dans des ordinateurs et, maintenant dans des téléphones mobiles, ainsi que le déploiement massif des jeux, ont conduit les contenus 3D à un niveau de diffusion se rapprochant de celui des contenus visuels et audio traditionnels. Les contributeurs universitaires et industriels proposent des solutions originales pour tous les éléments touchant à la chaîne du 3D, comme la production (scanner 3D et outils de création), la transmission (compression et logiciels de streaming) et le rendu (matériel et logiciel consacrés au rendu 3D). La disponibilité croissante de ces contenus lance de nos jours de nouveaux défis en termes d’indexation et de recherche automatisées pour les grandes bases de données 3D. L’indexation la plus fréquente au niveau des modèles consiste à utiliser un descripteur de forme. Trois familles d’approches existent pour rechercher un objet:

• requête par l’exemple : cf. le répertoire de forme d’AIM@SHAPE ,
• une requête directe en fournissant un descripteur : cf. le moteur de recherche de l’université de Konstanz ,
• la requête par l’exemple en fournissant un modèle 3D, en créant une forme 3D à partir d’un outil 3D, ou en esquissant un dessin 2D du modèle 3D : cf. le moteur de recherche à l’Université de Princeton .

Par la suite, les modèles retrouvés peuvent être visualisés. La majorité des descripteurs d’objets 3D analyse la géométrie et la connectivité des maillages 3D. Des informations au sujet des normales, de la couleur des triangles ou des sommets, ou encore de la texture peuvent être aussi associées. Les descripteurs de forme 3D décrits dans la littérature peuvent être structurés selon une approche statistique, structurale, par transformée ou variationnelle. Pour un état de l’art des descripteurs de formes 3D et des approches 3D et 2D/3D, le lecteur est invité à consulter [Zah04]. Afin de mesurer la similarité de deux objets, il est nécessaire de définir et calculer la distance entre leurs descripteurs. Pour une discussion sur la pertinence des mesures de similarité, le lecteur est invité à consulter [Joh08]. Une analyse de différents projets d’indexation (cf. A-2) montre à l’évidence que ce domaine fait l’objet d’actives recherches depuis plus de dix ans. Les avancées réalisées soulignent la complexité et l’ambition du sujet.

Ontologies et web sémantique 

Les ontologies sont des spécifications formelles explicites de termes d’un domaine et de relations entre elles [Gru93]. Elles permettent de définir un vocabulaire commun pour les utilisateurs voulant partager des informations dans un domaine donné. Plusieurs raisons conduisent à développer des ontologies : partager la compréhension commune entre les utilisateurs et les développeurs d’application, réutiliser le savoir d’un domaine, distinguer entre savoir sur un domaine et savoir opérationnel. Le développement d’une ontologie n’est pas une finalité en soi, il permet de définir un ensemble de données et leur structure pour être utilisées par d’autres programmes. A l’aide de ces définitions compréhensibles par les machines, nous pouvons imaginer des requêtes sémantiques pour les moteurs de recherche. En annexe (cf. A-3), est présenté le langage du web sémantique ainsi que différents projets et applications sur ce thème.

Normes de description des contenus numériques 

Norme MPEG-7 

Le groupe MPEG (Moving Picture Experts Group) a développé la norme MPEG-7, ainsi que les normes qui ont fait sa renommé, MPEG-1 (1992), MPEG-2 (1994) et MPEG-4 (1998). MPEG-1 et MPEG-2 ont rendu accessible la vidéo et l’audio avec les Vidéos CD, les MP3, le digital audio broadcasting (DAB), le DVD Digital Television (DVB and ATSC) et plusieurs tests de vidéo à la demande et de services commerciaux. La norme MPEG-4 est la première norme multimédia en temps réel, permettant l’interaction entre plusieurs objets. La norme MPEG-7 [Mar04], appelé « Multimédia Content description Interface », apporte plusieurs outils pour la description des contenus audiovisuels. On peut accéder à ces informations grâce à un équipement spécifique ou un logiciel. MPEG-7 n’est donc dédié ni à une architecture, ni à un média particulier, mais permet de normaliser un nouveau moyen de recherche multimédia et ce, pour un très grand nombre d’applications. On peut établir une description MPEG-7 d’un fichier MPEG-2 ou MPEG-4, mais on peut faire de même avec un document d’un autre format, un film analogique ou un journal papier. Il s’agit d’une norme de représentation du contenu des documents avec pour utilisation principale les documents multimédias. Les principaux éléments de la norme MPEG-7 (Figure 3) sont :
• un ensemble de descripteurs (Descriptor – D), un descripteur étant une représentation d’un attribut audio, visuel (feature), dont il définit la syntaxe et la sémantique de cette représentation,
• un ensemble de schéma de description (Description Scheme – DS) spécifie la structure et la sémantique des relations entre ses composants, qui peuvent être aussi bien des descripteurs que d’autres schémas de description,
• un langage de définition de description (Description Definition Language – DDL), fondé sur XML Schema permettant de créer de nouveaux schémas de description, de nouveaux descripteurs et de modifier les schémas de descriptions existants. Ce langage présente néanmoins un inconvénient car il ne permet pas la définition sémantique des éléments créés,
• des schémas de codage (Coding Schemes) pour avoir des mécanismes adéquats de codage des divers descripteurs et schémas de description satisfaisant aux requêtes de type, efficacité de compression, résistance aux erreurs dans le cas des transmissions sur des canaux bruités, accès aléatoires, etc. MPEG-7 a actuellement retenu un mécanisme générique de codage, appelé BiM (Binary format for Metadata).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
CHAPITRE 1 : INTRODUCTION AUX SYSTEMES MULTIMEDIAS D’INDEXATION
1. Enrichissement des contenus
1.1. Description de contenus audiovisuels
1.2. Normes de description des contenus numériques
1.3. Apprentissage des plates-formes multimédias
2. Accès aux contenus
2.1. Principe de syndication
2.2. Requêtes multimédias et modes de présentation des résultats
2.3. Plate-forme multimédia ouverte
3. Conclusion
CHAPITRE 2 : CONTRIBUTIONS AUX SYSTEMES MULTIMEDIAS
1. Introduction
2. Spécifications d’un système multimédia
3. Extension de la norme MPEG-7 pour MMW.com
3.1. Langage XML et norme MPEG-7
3.2. Extension de la norme MPEG-7 pour la gestion d’un MAMS
3.3. Description des objets 3D
3.4. Base de données pour la gestion des descriptions MPEG-7
4. Accès aux contenus MPEG-4
4.1. Principe général
4.2. Fonctionnalités de l’API de communication développée
4.2.1. Gestion des utilisateurs
4.2.2. Management des fichiers multimédias
4.2.3. Management des lieux
4.2.4. Management des commentaires
5. Conclusion
CHAPITRE 3 : IMPLANTATION DU “MAMS” MYMULTIMEDIAWORLD.COM ..
1. Contexte d’enrichissement des contenus
1.1. Description textuelle
1.1.1. Généralité
1.1.2. Classification sémantique des contenus
1.2. Extraction automatique de contenu
1.2.1. API pour l’extraction de descripteurs 3D
1.2.2. Trois descripteurs de formes 3D implantés dans MMW.com
2. Interface utilisateur : interactivité et interopérabilité
2.1. Ajout de contenus
2.2. Visualisation et accès aux contenus
2.2.1. Accès et recherche des contenus
2.2.2. Visualisation des contenus
CHAPITRE 4 : APPLICATIONS DE MMW.COM
1. Benchmark d’algorithmes multimédias en ligne
1.1. Evaluation de systèmes multimédias
1.2. Modélisation du benchmark en ligne
1.3. Benchmark des algorithmes de compression 3D
1.4. Benchmark des descripteurs de forme 3D
2. Multimédia à la demande
CONCLUSION

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *