Généralités sur les documents vidéo
Introduction
Etant donné que notre problématique de thèse est la conception et la réalisation d’un outil semiautomatique d’annotation et de recherche des documents vidéo du web que nous avons batisé SOVAT (SOccer Video Annotation Tool), le chapitre 1 présente donc une description générale de ce qu’est les documents vidéo. Nous allons d’abords explorer le domaine du multimédia, afin de comprendre les origines du terme vidéo. Ceci dit, une définition des divers médias est donnée : le texte, l’image, l’audio et la vidéo où nous allons voir que le texte a un impact direct/indirect sur l’image, la vidéo et leurs annotations. Nous présenterons par la suite les différents descripteurs de vidéo qui sont nécessaires pour l’annotation. A la fin, nous conclurons ce chapitre par une discussion sur ce qui a été présenté.
Que signifie le multimédia
Actuellement, tout le monde manipule des documents multimédias (diaporama, vidéo, pages web…). Le mot multimédia représente un ensemble d’informations et de ressources numériques : textes, images 2D, 3D, tableaux, graphiques, sons, animations, vidéos. Il désigne la manipulation parallèle et interactive de plusieurs médias, d’où son nom représente la mixture des deux termes multi et média. C’est donc l’ensemble des techniques et des produits pour manipuler l’information multimédia, c’est-à-dire : enregistrer, modifier ou communiquer en même temps de l’information de type : textes, sons, images, ou vidéos (Gibbs, 1991) (Steinmetz, 1990). Pour bien exploiter les documents multimédia et hypermédia, il faut obligatoirement ajouter la notion d’interactivité, d’où on parle de documents hypermédia interactifs. Ces derniers sont la navigation sur des documents hypermédias telles que des pages Web et où l’intervention de l’utilisateur est nécessaire pour démarrer, arrêter, ou faire pause sur un document hypermédia, etc. En 1994, l’usage du mot multimédia est devenu très courant dans les secteurs technologiques (de l’informatique, l’audiovisuel, l’électronique grand public et la télécommunication) où le marché de l’informatique numérique se développe rapidement (Gibbs et al., 1994). D’après Alain Le Diberder1 : « Au milieu des années 90, multimédia fut le terme retenu par l’industrie de l’informatique pour décrire la « convergence » des applications informatiques jusqu’alors distinctes : des logiciels pour le traitement de texte, pour l’édition, la production graphique, la production, la manipulation de photos, et l’édition sonores, la production, la manipulation et l’édition vidéo, etc. Les objets sources tels que les images, les graphiques, les fichiers textes, le son et les images animées sont combinés à des logiciels d’édition qui engendrent un seul et même fichier. Cela offre de nouvelles possibilités interactives pour naviguer entre des documents multimédias autrement variés i.e le Contenu. Multimédia est une autre façon de dire management de données informatiques ». De plus, avec les réseaux de communication et les outils de traitement multimédia interactif, ceci engendre un élargissement considérable du domaine i.e. la possibilité d’y joindre des fichiers images, des fichiers son, en 3 dimensions, d’insérer des éléments de marquage qui permettent d’établir des liens vers d’autres sources d’information, des balises de structuration du document lui-même.
Les avantages du multimédia
D’après le proverbe chinois ; « Parle-moi et j’oublierai, montre-moi et peut être que je me souviendrai, implique-moi et je comprendrai », chaque personne est capable d’apprendre selon ses visions, ses capacités et ses inspirations. D’où, l’utilisation du multimédia a permis aux développeurs de creuser dans ces diversités. En réalité, les recherches ont montré que les gens ne se rappellent que de 20% de ce qu’ils regardent et de 30% de ce qu’ils entendent. Lorsqu’ils voient et entendent, ils se rappellent de 50%. Cependant, lorsque nous introduisons du multimédia, ils se rappellent de 80%. Parmi les avantages cités en littérature, nous pouvons dire que le multimédia permet : • Plusieurs styles d’apprentissage ; • Fournit un excellent moyen de transmission de contenu ; • Utilise une variété d’éléments média pour renforcer une idée ; • Active plusieurs sens créant des expériences riches ; • Améliore le plaisir des utilisateurs ; • Permet à l’utilisateur de contrôler les expériences Web.
Le flux multimédia
Avec l’ère du numérique, nous pouvons aller d’un contenu texte pauvre à des documents multimédias riches, selon l’hétérogénéité des environnements. Garantir un affichage adapté à tout profil utilisateur, exige des techniques efficaces qui prennent en considération les médias et la structuration des flux. De ce fait, une bonne manipulation des médias est nécessaire en vue de son adaptation au contenu. Sur la Figure 1.1, nous pouvons voir que le multimédia est divisé en deux grandes classes (Roisin, 1999) : les médias discrets où leur contenu est délivré de façon instantanée, tels que les images et le texte ; et les médias continus qui sont caractérisés par la durée de présentation tels que le son, la vidéo et l’animation. Ils peuvent aussi être caractérisés par leur mode de perception : les objets visibles, c’est-àdire que l’on peut afficher : texte, image, vidéo, animation ; et les objets auditables comme les sons. La notion du temps même si elle l n’a pas de sens pour les médias tels que le texte et l’image, elle est très importante pour les flux, puisqu’un flux comprend divers médias reliés par des relations structurelles, temporelles et logiques.
Les éléments clés du multimédia
En multimédia, nous retrouvons cinq éléments qui sont : le texte, l’image, l’audio, la vidéo et l’animation
Le texte Le texte est l’élément multimédia le plus courant. Le texte exprime les informations que le développeur essaie de transmettre aux utilisateurs. Même si les images attirent de l’attention, le texte est également une bonne idée à inclure, au cas où l’image ne s’afficherait pas.
L’image Une image attire de l’attention beaucoup plus rapidement qu’un simple vieux texte. Presque chaque application multimédia contient des images. Les images les plus courantes sont JPEG et PNG. De plus, Photoshop et Paint.NET créent des effets visuels de haute technologie communs aux images.
L’audio La plupart du temps, les fichiers audios sont déployés à l’aide de lecteurs multimédias. Quelques formats audios incluent Real Audio, MIDI, Wave, WMA et MP3. Le développeur compressera le format pour diminuer la mémoire de stockage et le temps de lecture.
La vidéo La vidéo, quant à elle, est beaucoup plus complexe qu’une image. Quelques formats vidéo numériques sont Flash, MPEG, AVI, WMV et QuickTime. La diffusion de vidéos numériques peut augmenter la vitesse de lecture. Texte Image Audio Vidéo Animation Physiquement, un document (ou un flux) vidéo est un ensemble de sous-médias ou « pistes » organisés suivant un axe temporel. Chacune de ces pistes est présentée comme un flux d’éléments et tous ces flux sont synchronisés entre eux. Ces différents flux peuvent contenir des images animées, du son (un flux ou une composition de plusieurs flux audio émis en parallèle à une fréquence fixe) ou du texte accompagné des informations permettant de le synchroniser avec les autres flux (Mbarek, 2005). Pour analyser une vidéo, on doit donc structurer une grande quantité d’informations diverses et hétérogènes. Une vidéo peut être décomposée selon différents niveaux de détails (Tapau, 2012) (Bhaumik et al., 2017) • Niveau scène (Scenes) : il correspond à un groupe de séquences vidéo qui sont homogènes par rapport à un critère sémantique. Une scène doit respecter trois règles de continuité : en espace, temps et action ; • Niveau plan (Shots) : il correspond à une succession d’images d’une vue continue d’une caméra; • Niveau image/image-clé (Frames/ Keyframes) : il correspond à l’ensemble d’images représentatives de chaque plan pouvant résumer son contenu ;
La hiérarchie des trois niveaux sur la Figure 1.2 n’est pas exhaustive. On peut réaliser des décompositions à un niveau plus élevé sur une séquence vidéo, ou à un niveau plus bas : niveau objet, correspondant à des régions spatiales ou spatio-temporelles reliées à des objets saillants. Ce dernier niveau nous concerne directement dans notre travail de thèse du moment où l’on est en face d’une annotation vidéo basée sur des régions d’images.
L’animation
L’animation attire la plupart des gens pour présenter une image dynamique et Adobe Flash est l’outil le plus courant pour créer des animations. Les animations sont l’élément multimédia le plus créatif et amusant !
|
Table des matières
Tables des matières
Introduction générale
Contexte et motivation
Problématique de la thèse
Objectifs de la thèse
Contributions de la thèse
Organisation de la thèse
Partie I : Etat de l’art
Chapitre 1 : Généralités sur les documents vidéo
1.1 Introduction
1.2 Que signifie le multimédia
1.3 Les avantages du multimédia
1.4 Le flux multimédia
1.5 Les éléments clés du multimédia
1.5.1 Le texte
1.5.2 L’image
1.5.3 L’audio
1.5.4 La vidéo
1.5.5 L’animation
1.6 Description du document vidéo
1.6.1 Les descripteurs visuels
1.6.2 Les descripteurs audios
1.6.3 Les descripteurs de mouvements
1.6.4 Les descripteurs sémantiques
1.7 Conclusion
Chapitre 2 : Les ontologies
2.1 Introduction
2.2 Le domaine des ontologies
2.2.1 Définition Philosophique
2.2.2 Définition Informatique
2.3 Le formalisme des ontologies
2.4 Implémentation des ontologies
2.5 Le Web Sémantique
2.5.1 RDF
2.5.2 RDFS
2.5.3 OWL
2.5.4 OWL Functional syntax
2.5.5 SPARQL
2.5.6 SWRL
2.6 Conclusion
Chapitre 3 : L’apprentissage profond (ou Deep Learning
3.1 Introduction
3.2 Les réseaux de neurones à convolutions
3.3 Les types de couches
3.3.1 Les couches à convolutions
3.3.2 Les couches ReLU
3.3.3 Les couches Pooling
3.3.4 Les couches de normalisation
3.3.5 Les couches totalement connectées (Fully connected layers)
3.4 Les architectures des CNNs
3.4.1 Le Net-5
3.4.2 AlexNet
3.4.3 ZF Net
3.4.4 VGG Net
3.4.5 GoogLeNet
3.4.6 ResNet
3.5 Les CNNs pour la vision par ordinateur
3.5.1 La classification
3.5.2 La Classification selon la localisation
3.5.3 La détection d’objet dans la vidéo
R-CNN
Fast R-CNN
Faster R-CNN
Mask R-CNN
3.6 Quelques plateformes d’implémentation des réseaux de neurones
3.6.1 Python
3.6.2 TensorFlow
3.6.3 Keras
3.7 Conclusion
Chapitre 4 : Annotation et recherche de vidéos sur le web : Etat de l’art
4.1 Introduction
4.2 Annotation d’images
4.2.1 L’annotation vu comme traduction automatique
4.2.2 Les modèles fixes
4.2.3 Analyse de corrélation canonique
4.2.4 Les modèles profonds
4.3 De l’analyse de l’image vers l’analyse de la vidéo
4.3.1 Concepts de base
4.3.2 La reconnaissance d’actions dans la vidéo
4.3.3 L’annotation vidéo comme ressource textuelle
4.3.4 Les modèles d’actions
4.3.5 Les activités composites
4.4 La vidéo du web comme base d’annotation
4.5 Caractéristiques des annotations vidéo
4.5.1 Notion d’annotation
4.5.2 Vers l’annotation d’objets dans la vidéo
4.6 Les techniques d’annotation vidéo
4.6.1 L’annotation manuelle
4.6.2 L’annotation automatique
4.6.3 L’annotation semi-automatique
4.7 Quelques sites web pour l’annotation de vidéo en ligne
4.7.1 Vimeo
4.7.2 Youtube
4.7.3 DailyMotion
4.7.4 Clipper
4.7.5 Fox sports
4.7.6 Footballhighlightsvideo
4.7.7 La FIFA
4.8 Etude des systèmes d’annotation vidéo dans le domaine du football
4.9 Comparaison des outils d’annotation vidéo du web
4.10 Conclusion
Partie II : Contributions
Chapitre 5 : Solution basée sur une approche ontologique et l’apprentissage profond
5.1 Introduction
5.2 Extraction des caractéristiques basé sur l’apprentissage profond (Module de bas niveau)
5.3 Le framework Mask R-CNN
5.3.1 Aperçu
5.3.2 La phase d’apprentissage du réseau
5.4 L’architecture globale de notre outil semi-automatique d’annotation de vidéo du web SOVAT
5.5 Description de notre ontologie (Module de haut niveau ou sémantique)
5.5.1 La description hiérarchique de l’ontologie
5.5.2 La catégorie Video-Objects
5.5.3 La catégorie Video-Actions
5.5.4 La catégorie Video-Sequences
5.5.5 Les DataProperty de notre Ontologie
5.5.6 Les ObjectPropety de notre Ontologie
5.6 Comparaison de notre ontologie du football avec l’état de l’art
5.7 Conclusion
Chapitre 6 : Implémentation, Expérimentation et Comparaison du prototype SOVAT SOccer
6.1 Introduction
6.2 Modélisation UML du prototype SOVAt
6.2.1 Diagramme de cas d’utilisation de l’outil SOVAT
6.2.2 Diagramme de séquences de l’outil SOVAT
6.2.3 Diagramme de déploiement de l’outil SOVAT
6.3 Conception et implémentation de notre outil SOVAT
6.3.1 Notre Base de données images et vidéos
6.3.2 Implémentation du Mask R-CNN (Module du bas niveau)
6.3.3 Peuplement de l’ontologie (Module du haut niveau ou sémantique)
6.3.4 Les règles SWRL
6.4 Expérimentation et résultats de notre prototype réalisé
6.5 Comparaison de notre prototype avec ceux de l’état de l’art
6.6 Discussion des résultats
6.7 Conclusion
Conclusion générale et perspectives futures
Annexe A : Quelques règles SWRL
Annexe B : Démos de présentation de notre outil d’annotation SOVAT
Références Bibliographiques
Télécharger le rapport complet