Extension 3D de High Efficiency Video Coding (3D-HEVC)

Mémoire de fin d’études systèmes intelligents et réseaux

LES FORMATS DES VIDEOS

Un flux vidéo est composé d’une succession d’images qui défilent à un rythme fixe pour donner l’illusion du mouvement, par exemple 25 images ou bien 30 images par seconde. On trouve généralement un flux audio et d’autres informations comme des sous-titres, des menus, des chapitrages, des interactions et des métadonnées, des informations de propriétés sur la vidéo comme la date de création, le nom de la vidéo, son auteur, etc.
Il existe une multitude de formats vidéo, AVI (Audio Video Interleave) de Microsoft, MPEG (Moving Picure Expert Group) de l’organisme du même nom, FLV (Flash Video) d’Adobe. Ce qu’il faut savoir, c’est qu’un format résulte de deux concepts techniques distincts : les conteneurs et les CoDecs.

Le concept du conteneur

Le conteneur décrit la structure du fichier. Il est utilisé pour stocker la vidéo, son flux d’images, flux audio et métadonnées, selon un schéma bien défini. Il précise notamment quel codec vidéo et potentiellement audio sont utilisés. Il peut également intégrer des sous titres ou des chapitrages. Le principal objectif du conteneur est donc d’organiser la coexistence entre l’image, le son, éventuellement du texte et d’autres données liées. Dans le langage du monde vidéo, on parle de multiplexage.
On peut imaginer un conteneur comme une boite avec plusieurs objets à l’intérieur mais rangés d’une façon bien définie. Le conteneur utilisé est généralement identifié grâce à l’extension du fichier de la vidéo. C’est pour cette raison que cette notion est souvent confondue avec la notion de format, car il arrive que le nom du format soit identique au nom de son conteneur.

Le concept du CoDec

On retrouve donc dans chaque conteneur les données audio et vidéo. Mais en amont, ces données doivent être encodées pour correspondre au format attendu en optimisant la compression avec perte de qualité minimum. C’est le rôle de CoDec, abréviation de « Codeur/Décodeur ». Il propose une méthode pour encoder les signaux vidéo et audio selon un format attendu par le conteneur (figure 1.2). S’il l’on reprend l’image de notre conteneur en tant qu’une boite, le codec décrit la méthode pour ranger ou déballer correctement les différents objets composants la vidéo. L’efficacité d’un codec se mesure d’une part dans ses capacités de compression, mais aussi de décompression, c’est-à-dire à rétablir la vidéo lors de sa diffusion au plus près de sa qualité d’origine et dans un débit performant.
Ce qu’il faut comprendre c’est que les conteneurs les plus utilisés supportent différents CoDecs, et un CoDec ne peut pas être utilisé avec n’importe quel conteneur. Il y a une question de compatibilité (tableau 1.2).

CODAGE DES VIDEOS 2D

Les images de type I

Sont des images codées en mode Intra-Frame. Ce sont des images de référence appelées également images clés (KeyFrame en anglais). Ce sont des images autonomes, c’est-à-dire qui peuvent être décodées sans références à d’autres images (Fig 1.3). Elles permettent d’assurer la cohésion de la séquence vidéo, comme elles permettent aussi de garantir la qualité résultante de la compression. La première image de la séquence vidéo est de type I, en général il y en a une ou deux par seconde.

Les images P

Les images de type P, sont des images codées en mode Inter-Frame. Ce sont des images prédictives qui fait référence aux parties (macroblocs¹) des images I et/ou P antérieures pour le codage de l’image (figure 1.3). Une image P nécessite généralement moins de bits qu’une image I, mais elle peut être sensible aux erreurs en raison de la dépendance complexe vis-à-vis des images P et/ou I antérieures.

Les images B

Les images de type B, sont des images aussi codées en mode Inter-Frame. Ce sont des images Bi-prédictives ou images prédites bi-directionnellement, appelées aussi images prédites en arrière (backwards-predicted frames ne anglais) [1]. Les images B sont assez similaires aux images P, à la différence qu’elles peuvent être prédites à partir de deux images de référence, une antérieure et l’autre postérieure à l’image courante (figure 1.3), ce qui donne une meilleure compression, mais induit un retard au niveau de décodeur, puisque il doit décoder la prochaine image I ou P, afin d’être utilisées comme référence future par l’image B. le codage/décodage des images B est donc plus complexe et requiert des mémoires de grandes tailles.

La structure de GOP

Un GOP² débute toujours par une image I. Ensuite, plusieurs images P suivent à des intervalles réguliers. Dans les espaces entre deux images P ou entre une image P et une image I, une ou plusieurs images B soit intercalées. Certains codeurs vidéo permettent d’utiliser des GOP contenant plus d’une image I.
Plus le flux généré par un codeur contient des images codées en mode intra (I), plus il est éditable. Cependant, la taille des images codées en intra (en termes de bits) est plus importante que celle des images P ou B. Augmenter le nombre d’images I au sein du GOP aura donc pour conséquence l’augmentation de la taille de la vidéo encodée.
Afin de limiter la bonde passante ou l’espace de stockage nécessaire, les vidéos pour la diffusion sur internet n’ont généralement qu’une seule image I par GOP.

La taille de GOP

La distance entre deux image I successives est appelée la taille du GOP. Les standards de codages utilisent généralement des GOP de taille entre 15 et 18, ce qui signifie qu’il y a une image I toutes les 14 ou 17 images (combinaison d’images P et B) (figure 1.4).
La structure de GOP est souvent indiquée par deux nombres, par exemple M=3 et N=12. Le premier indique la distance entre deux images d’ancrage références (I ou P), le second indique la distance entre deux images codées en intra (I), c’est la longueur du GOP. La structure du GOP de l’exemple où M=3 et N=12 est alors IBBPBBPBBPBBP.

Guide du mémoire de fin d’études avec la catégorie High Efficiency Video Coding (HEVC)

Étudiant en université, dans une école supérieur ou d’ingénieur, et que vous cherchez des ressources pédagogiques entièrement gratuites, il est jamais trop tard pour commencer à apprendre et consulter une liste des projets proposées cette année, vous trouverez ici des centaines de rapports pfe spécialement conçu pour vous aider à rédiger votre rapport de stage, vous prouvez les télécharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de télécharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres étudiants dans leurs propres travaux, est classé dans la catégorie technique de Codage 3D-HEVC où vous pouvez trouver aussi quelques autres mémoires de fin d’études similaires.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
Chapitre 1 :Codage des vidéos 2D (H.264)
1.1 Les formats des vidéos
1.1.1 Le concept du conteneur
1.1.2 Le concept du CoDec
1.2 Les types des images et fonctionnement
1.2.1 Les images I
1.2.2 Les images P
1.2.3 Les images B
1.3 La structure et la taille de GOP
1.3.1 La structure de GOP
1.3.2 La taille de GOP
1.4 Espace de représentation des données images
1.4.1 Espaces couleurs
1.4.2 Echantillonnage d’espace couleur YCrCb
1.5 La prédiction en mode Intra-Frame
1.5.1 Prédiction intra de blocs 16×16 de luminance
1.5.2 Prédiction intra de blocs 4×4 de luminance
1.5.3 Prédiction intra de blocs de 8×8 de chrominance
1.6 La prédiction en mode Inter-Frame
1.6.1 Estimation du mouvement
1.6.2 Compensation du mouvement
1.7 Transformation, Quantification, Codage Entropique
1.7.1 Transformation
1.7.2 Quantification
1.7.2.1 Quantification scalaire
1.7.2.2 Quantification vectorielle
1.7.3 Codage Entropique
1.7.3.1 Run length Encoding (RLE)
1.7.3.2 Ziv, Lempel et Welsh (LZW)
1.7.3.3 Codage à longueur variable
1.7.3.3.1 Codage de Huffman
1.7.3.3.2 Codage Arithmétique
1.7.3.4 Context-based Adaptive Variable Length Coding (CAVLC)
1.7.3.5 Context-Adaptive Binary Arithmetic Coding (CABAC)
1.8 Rate-distortion Optimization Cost
Chapitre 2: Hight Efficiency Video Coding (HEVC)
2.1 Echantillonnage et la représentation de l’image
2.2 La structure de codage
2.2.1 Blocs et Unités
2.2.2 Coding Tree Block & Coding Bloc
2.2.3 Bloc de Prédiction
2.2.4 Transform Tree and Transform Block
2.3 Intra Prédiction
2.3.1 Intra Prédiction Angulaire
2.3.2 Intra Prédiction Planar
2.3.3 DC Intra Prédiction
2.4 Inter Prédiction
2.4.1 Advanced Motion Vector Prediction
2.4.1.1 les candidats spatiaux
2.4.1.2 les candidats temporels
2.4.2 ModeMerge
2.4.2.1 les candidats spatiaux
2.4.2.2 Les candidats temporels
2.5 Transformation, Quantification, Codage
2.5.1 La transformation
2.5.2 Quantification
2.5.3 Codage entropique
2.6 D’autre outils
Chapitre 3: Extension 3D de Hight Efficiency Video Coding (3D-HEVC)
3.1 3D Video Coding
3.1.1 Stereo Video Coding
3.1.2 Multi-view Video Coding
3.1.3 Multi-view plus Depth Video Coding
3.2 La structure de codage Multi-view plus Depth
3.3 Technique de Codage 3D-HEVC
3.3.1 Advanced Texture Coding in 3D-HEVC
3.3.1.1 La prédiction de disparité compensée
3.3.1.2 Neighbouring Block-Based Disparty Vector Derivation (NBDV)
3.3.1.3 Inter-view motion prédiction
3.3.1.4 Prédiction de Résiduel inter-vue
3.3.2 Advanced Depth Coding in 3D-HEVC
3.3.2.1 Carte de profondeur et la prédiction de disparité
3.3.2.2 le codage intra des cartes de profondeurs
Chapitre 4 : Implémentations & résultats
4-1 Fast encode decision for texture coding in 3D-HEVC
4-1-1 Analyse statistique
4-1-1-1 Analyse le Mode Merge
4-1-1-2 le niveau de subdivision des blocs
4-1-2 Algorithme & résultats
4-2 Low complexity depth mode decision for 3D-HEVC
4-2-1 Fast depth inter mode selection
4-2-2 Adaptive Depth intra décision
4-2-3 Algorithme et résultatsConclusion
Bibliographie