Propriétés spatiales, temporelles et interactives des scènes multimédia
La définition d’un document multimédia proposée par C. Roisin [99] décrit une entité constituée ‘d’un ensemble d’éléments d’information de base reliés par des relations de différentes nature (relations de composition, spatiales, temporelles et de navigation)’. La classification des modèles de description de scène que nous proposons dans ce chapitre s’appuie également sur les trois principaux aspects d’une présentation multimédia qui définissent l’expérience multimédia proposée aux utilisateurs, à savoir les propriétés spatio-visuelles, temporelles et interactives que l’on rencontre usuellement dans l’état de l’art .
Les modèles de description de scène permettent la représentation concrète des présentations, telles qu’elles peuvent être restituées à l’utilisateur au travers d’un lecteur multimédia compatible avec le format de scène modélisé. Notre étude s’est intéressée à l’expression des caractéristiques essentielles d’une présentation, à savoir la mise en scène des média qui la constituent, à partir des différents moyens d’accès à l’information dont dispose l’utilisateur:
− l’observation des média affichés à un instant donné. Ainsi, la dimension spatiale d’une présentation s’exprime informatiquement sous la forme de différents modèles de positionnement et de visibilité. Le style appliqué aux médias mais également les accessoires décoratifs qui les agrémentent font partie intégrante des propriétés spatio-visuelles de la scène dans notre classification puisqu’ils sont très souvent indéfectiblement liés à l’organisation spatiale de la présentation.
− l’observation des média par leur renouvellement automatiquement au cours du temps. Aux propriétés statiques des modèles spatiaux, s’ajoute la chorégraphie des média au sein d’une présentation qui nécessite la gestion de leur présence et de leur synchronisation. La temporalité de la scène dans son ensemble participe également à l’expérience multimédia de l’utilisateur face à une présentation.
− l’observation des médias sélectionnés par interactivité. Lorsque le lecteur multimédia le permet, la présentation des média est susceptible d’être dirigée par l’utilisateur lui-même. Au delà de la seule modélisation des actions de l’utilisateur, les différents modes de contrôle des média et de navigation définissent le comportement interactif de la présentation.
Cette classification des propriétés de scène a été utilisée dans notre approche Scalable MSTI pour constituer des groupes de transformation en vue de l’adaptation de la présentation d’un document (ou d’un service) multimédia. Ainsi, la sélection d’un groupe de propriétés spatiales d’une scène permet, par exemple, d’adapter l’ensemble des média affichés simultanément en fonction des caractéristiques de l’écran. De la même manière, la sélection d’un groupe de propriétés temporelles peut apporter un accès séquentiel à des médias qui ne peuvent s’afficher simultanément par manque d’espace sur l’écran. Enfin, la sélection d’un groupe de propriétés interactives ouvre l’accès à des média complémentaires à la demande de l’utilisateur, en fonction de ses souhaits par exemple.
Les modèles de description de scène introduits dans cette classification n’ont pas fait l’objet d’une comparaison systématique de leurs avantages et de leurs inconvénients. En effet, chaque modèle de description de scène présenté dans ce chapitre est susceptible de répondre aux besoins particuliers d’un domaine d’application. Parfois, ces modèles peuvent également être combinés avantageusement. Par ailleurs, cet inventaire ne constitue pas une liste exhaustive des modèles de description de scène. En effet, les modèles de document sont seulement une représentation partielle des présentations multimédia dont la complexité progresse rapidement avec l’augmentation des capacités des récepteurs (et des réseaux) et l’exigence croissante des éditeurs (et des utilisateurs). Les modèles de document sont donc amenés à évoluer régulièrement. Pour faire face à ce foisonnement, nous suggérons que les traitements appliqués aux documents multimédia reposent, dans la mesure du possible, sur des approches extensibles. Notre modèle Scalable MSTI prend en compte ce constat en s’appuyant notamment sur une transformation de scène conçue sur la seule séparation des propriétés spatiales, temporelles et interactives d’une scène.
L’adaptation de scène multimédia
Définition – Environnement d’usage
Les modèles de description de scène décrits au Chapitre 3 font l’hypothèse que les instructions d’une scène seront correctement traitées lors de la lecture du document (ou du service) multimédia. Cependant, ces conditions idéales de lecture ne sont pas toujours vérifiées et une telle hypothèse peut conduire à la dégradation de la présentation restituée. Ainsi, la qualité d’une scène multimédia ne se mesure pas uniquement à sa capacité à exprimer fidèlement une présentation claire et ergonomique. En effet, la restitution adéquate d’une présentation nécessite également une compatibilité entre la scène d’un document (ou d’un service) et les conditions de visionnage de celle-ci [134].
L’environnement d’usage d’un document (ou d’un service) multimédia est constitué de l’ensemble des contraintes imposées par l’infrastructure technique mise en œuvre pour la restitution d’une présentation mais inclut également les préférences de l’utilisateur. Cette différenciation régulièrement admise entre les contraintes techniques et les souhaits de l’utilisateur, comme par exemple chez S. Boll, ne transparait pas nécessairement dans les langages, comme MPEG-21 UED [66] ou encore W3C CC/PP [125], qui sont utilisés pour exprimer explicitement un environnement d’usage donné. En revanche, même si nous ne faisons pas cette différenciation, la personnalisation des média d’un document par rapport aux centres d’intérêt de l’utilisateur, telle que traitée par A. Scherp dans la plateforme MM4U [101], n’a pas été abordée lors de nos travaux car elle est difficilement envisageable dans le contexte de la diffusion. Les seules préférences de l’utilisateur prises en compte dans nos travaux concernent des souhaits généraux comme, par exemple, l’intérêt pour une partie de la présentation, la lisibilité de la présentation ou encore le temps qui peut être consacré au visionnage de la présentation.
Architecture d’un moteur d’adaptation
Afin de prendre en compte la variété des environnements d’usage et garantir aux créateurs de contenu une restitution fidèle de leur production, une approche pragmatique consiste à concevoir des scènes multimédia uniquement à partir de fonctionnalités correctement prises en charge dans la majorité de ces environnements d’usage. Cette stratégie reste cependant frustrante pour les éditeurs qui doivent diffuser des documents multimédia dont l’attractivité se voit bridée par les environnements d’usage les plus contraignants. Cette pratique est également décevante pour les utilisateurs qui disposent d’équipements électroniques sophistiqués mais qui ne peuvent pas bénéficier de présentations multimédia avancées.
L’adaptation de scène multimédia répond à cette problématique en produisant des scènes multimédia conçues pour satisfaire les contraintes d’un environnement d’usage donné, exprimées sous la forme de paramètres d’adaptation (ou encore d’un contexte d’adaptation dans le standard MPEG-21 DIA [66]). Ainsi, l’adaptation de scène multimédia peut s’exprimer sous la forme d’un processus en deux étapes, comme décrit ci-après [91]. Premièrement, un moteur de prise de décision pour l’adaptation (ADTE) transforme les contraintes de l’environnement d’usage en paramètres d’adaptation en rapport avec la scène multimédia. Deuxièmement, un moteur de transformation de données (BAE) exécute la transformation de la scène.
Taxonomie des techniques d’adaptation de scène
Une des difficultés majeures de l’adaptation de scène multimédia est la préservation des aspects sémantiques d’une présentation lors de la transformation de sa description de scène. Par conséquent, de nombreux travaux de l’état de l’art portant sur l’adaptation de scène ont été menés en vue de la mise au point d’une prise de décision pertinente pour l’adaptation des présentations multimédia. Ceux-ci sont organisés dans ce chapitre de façon à souligner quelques caractéristiques fondamentales qu’ils ont en commun. En revanche, les différentes approches de l’état de l’art utilisées par les moteurs de transformation pour l’adaptation de scène sont présentées dans ce chapitre selon des caractéristiques techniques abstraites issues de la représentation XML [116]: remplacement ou propagation de la valeur d’attributs et mise à jour d’éléments. Ces transformations sont volontairement non spécifiques à l’adaptation de scène. En effet, le choix d’une transformation de scène générique facilite l’adoption des fonctionnalités qui en découle, à savoir l’adoption des fonctions d’adaptation de la scène multimédia dans notre cas. Cette conception de l’adaptation de scène en tant que transformation de scène usuelle, comparable à celles qui permettent l’évolution de la présentation d’un service multimédia, constitue un fondement de notre modèle Scalable MSTI.
Lors de cette étude, quatre grandes catégories d’approche pour l’adaptation de scène ont été identifiées:
− L’adaptation de scène guidée par les média consiste à configurer la transformation de la scène à partir de décisions d’adaptation prises au niveau des média. Ces approches sont notamment une réponse pragmatique aux besoins de certains média exigeant une infrastructure technique avancée mais réduisent aussi le champ d’application de l’adaptation de scène.
− La publication de scènes adaptées s’applique aux plateformes de génération de contenu où il est envisageable d’intégrer l’adaptabilité de la scène à la liste des objectifs du modèle de document utilisé pour la création des présentations. Ces approches permettent notamment l’automatisation de la production de présentations adaptables mais peuvent brider les fonctionnalités multimédia des présentations par une représentation trop abstraite ou par des règles d’adaptation trop rigides.
− La sélection de scènes alternatives consiste à choisir parmi un ensemble fini de présentations possibles celle dont la scène multimédia est compatible avec l’environnement d’usage. Ces approches garantissent aux créateurs de contenu une flexibilité éditoriale importante sur les présentations adaptées mais peuvent nécessiter en contrepartie un effort d’édition plus important pour la préparation de scènes multiples.
− La plasticité de scène permet la description des comportements adaptatifs de la présentation en tant que propriétés intrinsèques de la scène multimédia. Ces approches bénéficient de la flexibilité d’une formulation mathématique des scénarios d’adaptation d’une présentation mais souffrent d’une complexité d’édition plus importante qui peut notamment conduire à la limitation du champ d’application de l’adaptation de scène.
Face à la multiplicité des techniques d’adaptation de scène, une quête idéaliste consisterait à chercher à unifier toutes ces méthodes au travers d’une nouvelle proposition qui cumule leurs avantages identifiés ci-dessus tout en résolvant leurs difficultés. Selon nous, un tel objectif parait utopique car l’adaptation de scène est toujours un compromis entre le besoin d’une maîtrise éditoriale de la présentation résultant de l’adaptation et la simplicité des nouveaux paradigmes d’édition à mettre en œuvre dans une chaîne de production multimédia pour prendre en charge l’adaptation. En revanche, ces différentes approches ne sont pas exclusives. Par conséquent, bien que la technique d’adaptation de scène adoptée par notre modèle Scalable MSTI repose essentiellement sur la sélection de scènes alternatives, elle peut être avantageusement complétée par la plasticité de scène ou s’articuler avec l’adaptation de scène guidée par les média.
|
Table des matières
CHAPTER 1 INTRODUCTION
1.1 BACKGROUND AND MOTIVATIONS
1.2 OBJECTIVES AND OVERVIEW OF THE PROPOSED SOLUTION
1.3 SUMMARY OF THE CONTRIBUTIONS
1.4 INDUSTRIAL CONTEXT OF OUR WORK AND OUTPUTS
1.5 OUTLINE OF THE DISSERTATION
1.6 PUBLISHED WORK
1.6.1 Research papers
1.6.2 Contributions to the MPEG standardization body
1.6.3 White papers
1.6.4 RADIO+ project specifications
CHAPTER 2 MULTIMEDIA DIGITAL RADIO SCENARIOS
2.1 AUDIO AND MULTIMEDIA DATA SYNCHRONIZATION
2.2 LIVE AND ASYNCHRONOUS MULTIMEDIA DATA
2.3 MULTIMEDIA INTERACTIVITY
2.4 WHY AND WHAT PRESENTATION ADAPTATION IS NEEDED ?
CHAPTER 3 SCENE DESCRIPTION MODELS
3.1 DEFINITIONS
3.1.1 Multimedia scene and presentation
3.1.2 Media components
3.1.3 Scene description
3.1.4 Presentation model, document model and scene description model
3.2 SPATIO-VISUAL MODELS
3.2.1 The positioning of media components
3.2.1.1 Absolute and relative fixed positioning
3.2.1.2 Topological positioning
3.2.1.3 Directional positioning
3.2.2 The visibility of media components
3.2.2.1 Visual activation
3.2.2.2 Alpha compositing
3.2.2.3 Viewport cropping
3.2.3 Style properties
3.2.3.1 Media components style
3.2.3.2 Scene style
3.3 TEMPORAL MODELS
3.3.1 The presence of media components
3.3.1.1 Interval-based sequence
3.3.1.2 Interval-based multi-timeline
3.3.1.3 Point-based timeline
3.3.2 The synchronization of media components
3.3.2.1 Timeline-based synchronization
3.3.2.2 Event-based synchronization
3.3.3 The timing of the scene
3.3.3.1 Timed properties
3.3.3.2 Animations
3.4 INTERACTIVE MODELS
3.4.1 The control of media components
3.4.1.1 External control parameters
3.4.1.2 Internal control parameters
3.4.2 Navigation schemes
3.4.2.1 Directional arcs
3.4.2.2 Finite state machine
3.4.3 User inputs
3.4.3.1 Button-based interactions
3.4.3.2 Focus-based interactions
3.5 CONCLUSION
CHAPTER 4 MULTIMEDIA SCENE ADAPTATION
4.1 THE USER’S CONTEXT
4.1.1 Environment constraints
4.1.2 User preferences
4.2 SCENE ADAPTATION APPROACHES
4.2.1 Media-based scene generation
4.2.1.1 Media-neutral scene adaptation
4.2.1.2 Media-driven scene adaptation
4.2.2 Custom scene publishing
4.2.2.1 Meta-model scene adaptation
4.2.2.2 Meta-format scene adaptation
4.2.3 Scene alternatives selection
4.2.3.1 Explicit alternative-based scene adaptation
4.2.3.2 Guided alternative-based scene adaptation
4.2.4 Scene plasticity
4.2.4.1 Interpolation-based scene adaptation
4.2.4.2 Constrained-based scene adaptation
4.3 SCENE TRANSFORMATIONS
4.3.1 Scene attributes replacement
4.3.1.1 Init-based scene update
4.3.1.2 Time-based scene update
4.3.1.3 Event-based scene update
4.3.2 Scene attributes spreading
4.3.2.1 Replication
4.3.2.2 Inheritance
4.3.2.3 Bubbling
4.3.2.4 Routing
4.3.3 Scene elements update
4.3.3.1 Insertions
4.3.3.2 Deletions
4.3.3.3 Replacements
4.3.3.4 Moves
4.4 CONCLUSION
CHAPTER 5 TOWARDS MULTIMEDIA SCENE SCALABILITY
5.1 ADAPTATION REQUIREMENTS
5.1.1 Generic adaptation process
5.1.2 Autonomous adaptation process
5.1.3 Low-overhead adaptation process
5.1.4 Dynamic adaptation process
5.1.5 Enhanced adaptation process
5.1.6 Controlled adaptation process
5.1.7 State of the art analysis
5.2 MEDIA-DRIVEN PRESENTATION ADAPTATION
5.2.1 Principles
5.2.1.1 The media decision-taking engine
5.2.1.2 The inferred scene adaptation decision
5.2.1.3 The scene transformation engine
5.2.2 Experiments and results
5.2.2.1 The testing environment
5.2.2.2 Adaptation efficiency
5.2.2.3 Adaptation flexibility
5.2.3 Conclusion
5.3 CONTEXT-DRIVEN PRESENTATION SELECTION
5.3.1 Principles
5.3.1.1 Scene and context matching
5.3.1.2 Progressive scene updates
5.3.2 An MPEG-4 BIFS example
5.3.2.1 Key-state scene updates
5.3.2.2 Intermediate-state scene updates
5.3.3 Experiments and results
5.3.3.1 The testing environment
5.3.3.2 Processing efficiency
5.3.3.3 Memory efficiency
5.3.3.4 Bandwidth efficiency
5.3.3.5 Adaptation flexibility
5.3.4 Conclusion
CHAPTER 6 CONCLUSION
Télécharger le rapport complet