Télécharger le fichier pdf d’un mémoire de fin d’études
Les standards de codage vidŽo numŽrique
Historique
La nŽcessitŽ de dŽÞnir des normes de compression vidŽo sÕest imposŽe lors de lÕav•nement des sup-ports de stockage amovibles et lÕacc•s aux tŽlŽcommunications. Il Žtait alors indispensable de dŽcrire des mŽthodes universelles de codage/dŽcodage pour permettre aux utilisateurs de visualiser une vidŽo numŽrique indŽpendamment du matŽriel utilisŽ. Historiquement, deux grands organismes de standardisation de codage vidŽo cohabitent : lÕITU-T ( International Telecommunication Union) et le comitŽ MPEG (Moving Picture Experts Group) crŽŽ en 1988 et dŽpendant de lÕISO/IEC (Inter-national Organization for Standardization/International Electrotechnical Commission ). En 2001, la volontŽ de conjuguer leurs efforts donne naissance au groupe de travail JVT (Joint Video Team) dŽdiŽ ˆ la crŽation et au dŽveloppement de spŽciÞcations de nouveaux procŽdŽs de codage vidŽo. LÕhistorique des diffŽrentes familles de normes H.26x et MPEG-x Žtablies par lÕITU-T, MPEG ou JVT est illustrŽ sur la Þgure 2.2.
La norme H.261 [2] a ŽtŽ con•ue pour les applications de visiophonie destinŽes au rŽseau RNIS (RŽ-seau NumŽrique ˆ IntŽgration de Services ) ˆ des dŽbits multiples de 64 kbit/s et pour des rŽsolutions dÕimage QCIF et CIF. Cette norme a ŽtŽ dŽÞnie en utilisant les principaux procŽdŽs de compression encore largement employŽs ˆ ce jour : estimation et compensation de mouvement, calcul et trans-formation DCT du rŽsidu de prŽdiction, quantiÞcation et codage entropique. Le standard H.263 [3] visait ˆ augmenter les performances en compression ˆ tr•s bas dŽbit et a ŽtŽ successivement amŽliorŽ dans H.263+ [6] et H.263++ [7] pour prendre en compte de nouveaux proÞls dÕutilisation tout en diminuant les dŽbits dÕencodage.
La norme MPEG-2 [4] a ŽtŽ notamment dŽÞnie pour les applications liŽes ˆ la tŽlŽvision numŽrique grand public. Bien que datant de 1995, cette norme est encore exploitŽe ˆ grande Žchelle puisquÕelle a ŽtŽ adoptŽe par le consortium DVB (Digital Video Broadcasting) pour les services de TV numŽ-rique par voie hertzienne terrestre et satellite. Elle est Žgalement employŽe comme format de codage du DVD. La norme MPEG-4 [1] dŽÞnit un standard de compression gŽnŽrique prenant en charge la manipulation dÕobjets variŽs dans une sc•ne permettant notamment une reprŽsentation sŽman-tique dÕune sŽquence. Elle englobe de nombreux procŽdŽs de codage regroupŽs en diffŽrentes parties dont chacune dÕelle est dŽdiŽe ˆ un type dÕapplication particulier. Ainsi, une multitude dÕapplica-tions multimŽdia peut •tre adressŽe, par exemple le tŽlŽchargement et le streaming via Internet, la visioconfŽrence ou encore la rŽalitŽ virtuelle distribuŽe.
EnÞn, le rapprochement entre lÕITU-T et MPEG a abouti ˆ la dŽÞnition du standard H.264/AVC (AVC pour Advanced Video Coding) [8], aussi connu sous le nom de MPEG-4 Part 10, dont les premi•res spŽciÞcations furent publiŽes en 2003. La premi•re extension, connue sous le nom de H.264/AVC FRExt (Fidelity Range Extensions ) [133] fut ÞnalisŽe en 2004 et apporta de nouveaux outils dÕencodage plus performants. De fa•on gŽnŽrale, la norme H.264/AVC ne propose pas de bouleversement profond des techniques de codage habituelles des prŽcŽdentes normes, mais repose sur une multitude dÕamŽliorations des procŽdŽs existants, ce qui permet au Þnal dÕobtenir un facteur de compression plus de deux fois supŽrieur ˆ MPEG-2 et MPEG-4 (partie 2), avec un accroissement de la complexitŽ du dŽcodeur de lÕordre de quatre fois celui de MPEG-2. Les performances en compression couplŽes ˆ lÕeffort produit par les industriels pour fournir des architectures matŽrielles efficaces ont entra”nŽ lÕhŽgŽmonie de cette norme : elle a notamment ŽtŽ adoptŽe par DVB pour succŽder au MPEG-2 et par la Blu-ray Disc Association.
Tous les standards vidŽo introduits jusquÕici utilisent les m•mes principes de base, lesquels seront exposŽs ultŽrieurement. La norme H.264/AVC FRExt, la plus rŽcente et la plus performante ˆ ce jour, est en partie dŽcrite dans la suite de ce rapport car elle constitue le support des travaux rŽalisŽs dans le cadre de cette th•se.
Comme principaux concurrents dÕH.264/AVC, nous pouvons citer VC-1 [10] standardisŽ par la SMPTE ( Society of Motion Picture and Television Engineers) en 2006 et portŽ par lÕentreprise Microsoft. La comparaison entre VC-1 et H.264/AVC a donnŽ lieu ˆ des dŽbats soutenus au sein des communautŽs de scientiÞques et dÕutilisateurs. La difficultŽ pour les dŽpartager montre que leurs performances sont plus ou moins Žquivalentes.
Dans la communautŽ du logiciel libre, plusieurs standards ouverts ont vu le jour aÞn de proposer des formats dÕencodage vidŽo libres de droit. Les plus connus sont Theora sous licence BSD et Dirac soutenu par la BBC et qui a la particularitŽ de reposer sur une transformation de type ondelettes. MalgrŽ ces tentatives, lÕutilisation de ces standards reste marginale. En cause, leurs faibles performances en compression qui les placent au niveau de MPEG-2.
Un nouveau venu dans le paysage des solutions de codage vidŽo risque de provoquer un boulever-sement en proposant une alternative crŽdible au H.264/AVC : il sÕagit de Google et de son format ouvert WebM principalement dŽdiŽ ˆ la transmission de mŽdias audiovisuels sur le rŽseau Internet. La partie vidŽo du standard WebM est basŽe sur VP8 et a ŽtŽ publiŽe sous licence Creative Commons. LÕun des points forts de WebM est son syst•me de licence dÕexploitation attribuŽe gratuitement contrairement ˆ H.264/AVC fonctionnant selon un principe de royalties.
Les enjeux ˆ venir
Nous lÕavons vu en 1.2, les prochaines annŽes vont conna”tre lÕexplosion de la consommation de vidŽo numŽrique via les rŽseaux de tŽlŽcommunication. Face ˆ ces nouveaux dŽÞs, les comitŽs MPEG et ITU-T proposent dÕŽlaborer un nouveau standard de codage vidŽo appelŽ HEVC (High Efficiency Video Coding) pour succŽder ˆ H.264/AVC. Les objectifs de HEVC sont de rŽduire le dŽbit de 50% par rapport ˆ H.264/AVC tout en conservant une qualitŽ subjective identique. De plus, la complexitŽ calculatoire du dŽcodeur ne doit pas dŽpasser plus de trois fois celle dÕH.264/AVC, aÞn de rester en de•ˆ des progr•s techniques rŽalisŽs concernant la puissance des ordinateurs sur cette pŽriode. Les spŽciÞcations compl•tes du standard HEVC sont attendues aux environs de juillet 2012.
La compression vidŽo
Nous nous intŽressons ici ˆ un sous-ensemble de mŽthodes de codage vidŽo qui regroupe les plus efficaces et les plus communes. Cette Žtude sera la base du travail effectuŽ dans les chapitres suivants.
Quelques notions de base
Plusieurs concepts fondamentaux sont partagŽs par une majoritŽ des codeur-dŽcodeurs (codecs). Nous nous proposons de les prŽsenter succinctement. Tout dÕabord, les schŽmas de codage prŽsentŽs ici sont de type hybride : le dŽcodeur est partie intŽgrante du codeur et effectue lÕopŽration inverse de dŽcodage pendant le traitement, ce qui permet dÕutiliser la partie du signal dŽcodŽ pour prŽdire la suite du signal. Les techniques dŽcrites ci-dessous sont prŽsentŽes dans lÕordre chronologique de traitement du procŽdŽ dÕencodage.
Sous-Žchantillonage des composantes chromatiques
Les donnŽes brutes des sŽquences vidŽo numŽrique sont traditionnellement reprŽsentŽes dans lÕespace colorimŽtrique RGB 4, o• chaque composante couleur, pour une image de la sŽquence vidŽo, est caractŽrisŽe par une matrice dÕŽlŽments reprŽsentant lÕintensitŽ de la couleur. Un pixel est alors dŽÞni par lÕassociation des trois couleurs primaires RGB ˆ une position donnŽe. Le principal inconvŽnient de cet espace colorimŽtrique est que chaque composante couleur est dÕŽgale importance, cÕest pour cette raison que dÕautres syst•mes de reprŽsentation prenant en compte des aspects de perception visuelle sont souvent prŽfŽrŽs, en particulier le mod•le YCbCr (ou YUV). La composante Y correspond ˆ la luma, caractŽrisant lÕinformation de luminance de lÕimage, tandis que CbCr reprŽsentent les deux composantes chromatiques. Les transformations rŽversibles pour passer de lÕespace RGB ˆ YCbCr, dŽÞnies dans [5], sont donnŽes par : Y = 0.299R + 0.587G + 0.114B
Filtrage
Le Þltrage est un procŽdŽ de post-traitement, en gŽnŽral facultatif (exceptŽ pour les normes de codage vidŽo les plus rŽcentes), du fait de sa complexitŽ calculatoire ; mais son efficacitŽ est indŽniable. Les schŽmas de codage basŽ sur une transformŽe DCT partitionnent lÕimage en blocs de petites tailles. Une quantiÞcation agressive engendre une forte rŽduction de dŽbit au prix dÕune dŽgradation importante, qui se matŽrialise par des effets de blocs perceptuellement g•nants. Le Þltrage, connu sous le nom de deblocking Þlter [88], peut remŽdier en partie ˆ ce probl•me en lissant les pixels aux fronti•res des blocs.
La norme H.264/AVC
Introduction
Dans la norme H.264/AVC, seule la partie dŽcodage est normalisŽe, laissant le soin aux diffŽrents en-codeurs de sŽlectionner les param•tres dÕencodage. En effet, certains outils de codage, par exemple les mŽthodes de prŽdiction, sont en compŽtition au niveau de lÕencodeur. Il revient alors ˆ lÕencodeur de choisir le plus appropriŽ selon ses propres crit•res de choix. Pour ces raisons, les performances des en-codeurs matŽriels ou logiciels ne sont pas identiques et dŽpendent des choix dÕimplŽmentation soumis au compromis dÕefficacitŽ en compression/complexitŽ calculatoire. Par exemple, certaines applica-tions de type temps rŽel nŽcessitent un encodage ˆ la volŽe. Pour cela des heuristiques sont utilisŽes aÞn de sŽlectionner le mode dÕencodage probablement le plus efficace et ainsi rŽduire la complexitŽ calculatoire. DÕautres applications, par exemple destinŽes au stockage, ne sont pas contraintes par le temps dÕencodage. Dans ce cas, plusieurs passes dÕencodage permettent dÕoptimiser les param•tres dÕencodage le plus Þnement pour une compression maximale.
Le standard dŽÞnit des proÞls en fonction des utilisations souhaitŽes :
Baseline Profile pour les applications disposant de peu de ressources, largement rŽpandu dans les applications destinŽes aux mobiles ;
Main Profile pour les applications de diffusion et de stockage grand public ; Extended Profile prŽvu spŽciÞquement pour la diffusion en streaming ;
High Profile pour rŽpondre aux besoins des applications les plus exigeantes en terme dÕefficacitŽ de codage.
La synth•se de texture
LÕobjectif de la synth•se de texture probabiliste peut •tre formulŽe comme suit : crŽer une nouvelle image ˆ partir dÕun exemple de texture de telle sorte que la nouvelle image soit suffisamment dif-fŽrente de lÕoriginale mais quÕelle semble produite par le m•me processus stochastique sous-jacent ([29]). Comme vu prŽcŽdemment, il existe plusieurs types de texture (dŽterministes, alŽatoires). De ce fait, la littŽrature est composŽe de nombreuses mŽthodes de synth•se de texture, chacune Žtant souvent adaptŽe ˆ une catŽgorie spŽciÞque de texture. Nous recensons deux types de mŽthodes de synth•se : paramŽtriques et non paramŽtriques.
Les mŽthodes paramŽtriques
Les mŽthodes paramŽtriques utilisent des param•tres statistiques pour dŽcrire une texture. Elles se dŽcomposent en deux phases : tout dÕabord la texture en entrŽe est ÒanalysŽeÓ pour en extraire des param•tres statistiques, qui sont ensuite appliquŽs sur un bruit blanc pour ÒsynthŽtiserÓ une texture visuellement proche de lÕoriginal. Toute la question rŽside dans le choix de la reprŽsentation de la texture dÕentrŽe pour une analyse statistique efficace et le choix des param•tres statistiques utilisŽs pour la caractŽriser au mieux.
Suivant la modalitŽ des images ˆ Žtudier, la signature la plus discriminante de la texture est ˆ re-chercher soit dans des mŽthodes qui exploitent directement les propriŽtŽs statistiques de la texture (matrices de co-occurrence, fonction dÕautocorrŽlation, mod•le de Markov…), soit dans des mŽ-thodes qui exploitent les propriŽtŽs statistiques ˆ partir dÕun plan transformŽ dans lequel la texture est rŽŽcrite (densitŽ spectrale, mŽthode des extrema locaux, mŽthodes de transformation de Fourier, dŽcomposition pyramidale…). La dŽcomposition pyramidale, basŽe sur une reprŽsentation hiŽrar-chique de lÕimage, est particuli•rement bien adaptŽe ˆ ce contexte dÕutilisation, puisquÕelle permet de capturer diffŽrents traits caractŽristiques dÕune texture en fonction du niveau de dŽcomposition. Parmi les dŽcompositions pyramidales les plus courantes, deux sont particuli•rement privilŽgiŽes en analyse/synth•se de texture :
la pyramide laplacienne [32] est construite par la diffŽrence entre deux niveaux dÕune pyramide gaussienne. Plus prŽcisŽment, un niveau k de la pyramide laplacienne est le rŽsultat dÕune soustraction dÕun niveau k dÕune pyramide gaussienne et de sa version estimŽe par expansion du niveau supŽrieur k 1. Le procŽdŽ est rŽcursif sur la sous-bande basse-frŽquence pour obtenir un nombre de dŽcompositions variable.
la pyramide ÒsteerableÓ [61, 129] est une dŽcomposition linŽaire multi-Žchelles et multi-orienta-tions par ondelettes du signal. Ce type dÕondelettes poss•de plusieurs propriŽtŽs supplŽmen-taires par rapport aux ondelettes orthogonales traditionnelles, notamment en ce qui concerne lÕinvariance en translation et en rotation, et de robustesse dž ˆ sa redondance. Elle est utilisŽe dans le contexte de la synth•se dÕimage car elle permet de saisir des traits caractŽristiques de texture concernant son orientation et poss•de de tr•s bonnes propriŽtŽs de reconstruction, contrairement aux Þltres de Gabor ([114]).
Les param•tres statistiques de texture sont analysŽs ˆ chaque niveau de la pyramide (coefficients dÕasymŽtrie, dÕaplatissement, variance, autocorrŽlation, corrŽlation croisŽe, histogramme de couleurs etc. des sous-bandes). La procŽdure de synth•se est rŽcursive : le procŽdŽ est initiŽ par une image de bruit blanc Gaussien dŽcomposŽe sur une pyramide. Puis une procŽdure Òcoarse to ÞneÓ impose des statistiques sur les sous-bandes ˆ chaque Žtage de la pyramide.
David Heeger et James Bergen furent parmi les premiers ˆ prŽsenter un procŽdŽ de synth•se basŽ sur une dŽcomposition pyramidale du signal [73]. Leur approche part du principe que les propriŽtŽs dÕune texture peuvent •tre mesurŽes statistiquement ˆ partir des rŽponses ˆ des Þltres linŽaires adaptŽs. Pour cela, deux types de dŽcomposition sont employŽes : la pyramide Laplacienne et la pyramide ÒsteerableÓ. Pour chaque sous-bande, un histogramme est gŽnŽrŽ en fonction de la valeur de ses coefficients. La synth•se va ensuite consister ˆ faire ÒcorrespondreÓ les histogrammes dÕun bruit blanc aux histogrammes de la texture dÕentrŽe. La reconstruction du signal dans le domaine spatial fournira une texture visuellement similaire mais diffŽrente de la texture dÕorigine. Bien que les rŽsultats ne soient pas satisfaisants pour tous les ÒtypesÓ de textures, et notamment pour les textures composŽes de structure, ces travaux sont tr•s couramment citŽs dans le domaine de la synth•se. Par exemple, sur la Fig.3.2, nous observons lÕefficacitŽ de la mŽthode sur des textures alŽatoires (ligne du haut) contrairement aux textures composŽes de structures (deuxi•me ligne).
Les travaux de De Bonet [29] et Portilla et al. [115] ont Žtendu le concept en affinant le nombre et la nature des param•tres statistiques utilisŽs, dans le but dÕamŽliorer la prise en compte des structures durant le processus dÕanalyse/synth•se. La Fig. 3.3 illustre les rŽsultats obtenus par lÕalgorithme de synth•se de texture proposŽ par De Bonet. Nous constatons que la mŽthode donne de meilleurs rŽsultats par rapport ˆ la mŽthode de Heeger (voir Fig. 3.2) notamment pour les textures dŽterministes. Bar-Joseph et al. [19] proposent un algorithme de mixage de textures, basŽ sur les travaux de De Bonet [29], dont le but est de gŽnŽrer une image ˆ partir de plusieurs Žchantillons de textures diffŽrentes.
A gauche, les Žchantillons sources de texture. A droite, les textures gŽnŽrŽes.
Les mŽthodes non paramŽtriques
Les mod•les prŽsentŽs sont dits non paramŽtriques dans le sens o• la fonction de probabilitŽ des pixels nÕest pas explicitement construite : elle est approximŽe ˆ partir dÕun Žchantillon de texture source. Les textures sont modŽlisŽes par un champ de Markov alŽatoire, o• un pixel est dŽÞni exclusivement
ˆ partir de ses voisins immŽdiats (nous supposons que la distribution de probabilitŽ dÕun pixel est donnŽe par la valeur de ses voisins et est indŽpendante du reste de lÕimage). Il existe deux grandes familles dÕalgorithmes de synth•se de texture non paramŽtriques : les mŽthodes basŽes pixel et les mŽthodes basŽes bloc.
Les mŽthodes basŽes pixel
Les mŽthodes basŽes pixel ont ŽtŽ initiŽes par Popat et Picard [113] puis Efros et Leung [57]. Le principe de la mŽthode dŽcrite dans [57] est le suivant : disposant dÕun Žchantillon de texture, on cherche ˆ synthŽtiser une nouvelle image pixel par pixel via un processus itŽratif. En supposant un mod•le de Markov pour le pixel p ˆ synthŽtiser, on cherche donc ˆ Žtablir sa distribution connaissant les voisins dŽjˆ synthŽtisŽs de p, notŽe (p). La meilleure prŽdiction de p, notŽe pö, est dŽÞnie par la relation : pö = argmin d( (p), ), Iech (3.1)
|
Table des matières
Introduction Générale
I Préliminaires
1 Contexte général et motivations
1.1 Introduction
1.2 Problématique
1.3 Enjeux et retombées
1.4 Contributions
1.5 Organisation du document
2 Codage vidéo : environnement et état de l’art
2.1 Introduction
2.2 Les standards de codage vidéo numérique
2.2.1 Historique
2.2.2 Les enjeux à venir
2.3 La compression vidéo
2.3.1 Quelques notions de base
2.3.1.1 Sous-échantillonage des composantes chromatiques
2.3.1.2 Codage par prédiction
2.3.1.3 Transformation
2.3.1.4 Quantification
2.3.1.5 Réordonnancement
2.3.1.6 Codage entropique
2.3.1.7 Filtrage
2.3.2 La norme H.264/AVC
2.3.2.1 Introduction
2.3.2.2 Prédiction intra-image
2.3.2.3 Transformation et quantification
2.3.2.4 Codage entropique
2.3.2.5 Conclusion
2.3.3 La norme MPEG-4 Visual
2.3.3.1 Mode objets
2.3.3.2 Mode sprite
2.3.3.3 Conclusion
II Analyse/synthèse de texture
3 Codage vidéo par analyse/synthèse de texture
3.1 Introduction
3.2 Qu’est ce qu’une texture ?
3.3 La synthèse de texture
3.3.1 Les méthodes paramétriques
3.3.2 Les méthodes non paramétriques
3.3.2.1 Les méthodes basées pixel
3.3.2.2 Les méthodes basées blocs
3.3.3 Conclusion
3.4 La restauration par synthèse d’image
3.4.1 Etat de l’art
3.4.2 Contribution : adaptation des critères d’ordre dans une méthode de restauration non paramétrique
3.4.3 Conclusion
3.5 Codage vidéo par analyse/synthèse de contenu
3.5.1 Les schémas de codage basés contenu avec évaluation perceptuelle
3.5.2 Les schémas de codage basés sur une qualité objective
3.5.2.1 Principe du template matching
3.5.2.2 Template matching basé sur la priorité de reconstruction des blocs
3.5.2.3 Template matching pondéré
3.5.2.4 Compensation en illumination
3.5.2.5 Template matching appliqué au codage inter-frame
3.5.2.6 Conclusion
3.6 Conclusion
4 Nouvelle méthode de codage vidéo par template matching
4.1 Introduction
4.1.1 Template matching et codage vidéo
4.1.2 Motivation
4.2 Schéma prédictif adapté par template matching
4.2.1 Etape 1 – construction de la liste des N meilleurs candidats
4.2.2 Etape 2 – codage/décodage de l’indice du meilleur prédicteur
4.2.3 Discussion
4.3 Expérimentations et résultats
4.3.1 Détails techniques de l’implémentation
4.3.1.1 Signalisation d’un nouveau mode de prédiction intra-image
4.3.1.2 Implémentation du template matching à candidats multiples
4.3.2 Résultats
4.3.2.1 Incidence de la taille de la liste LN
4.3.2.2 Comparaison avec les méthodes antérieures de la littérature
4.3.2.3 Introduction de la recherche au demi-pixel
4.3.3 Discussion
4.3.3.1 Utilisation du mode STMP
4.3.3.2 Coût de codage de la signalisation et des résidus
4.3.3.3 Probabilité d’apparition des indices i
4.3.3.4 Evolution en fonction du débit
4.4 Conclusion
III Restauration d’image
5 Régularisation d’image basée sur la variation totale
5.1 Problème théorique et méthodes numériques
5.1.1 Définition du problème
5.1.2 Régularisation d’un problème inverse mal posé
5.1.2.1 Régularisation de Tikhonov
5.1.2.2 Régularisation basée sur la variation totale
5.1.2.3 Généralisation
5.1.3 Méthodes numériques
5.1.3.1 Résolution par un algorithme de descente de gradient
5.1.3.2 Courbure d’un espace discret
5.2 Exemples d’applications
5.2.1 Débruitage
5.2.2 Déconvolution
5.2.3 Décomposition d’une image en structure/texture
5.2.4 Inpainting
5.2.4.1 Domaine spatial
5.2.4.2 Domaine ondelette
5.2.5 Amélioration des images compressées avec perte
5.2.6 Codage d’image
5.3 Conclusion
6 Codage vidéo par prédiction dans le domaine transformé
6.1 Introduction
6.1.1 Positionnement par rapport à l’état de l’art
6.1.2 Introduction au formalisme
6.2 Modèle de restauration des coefficients DCT
6.3 Amélioration d’image par restauration des coefficients DCT
6.3.1 Restauration de coefficients DCT aléatoirement perdus
6.3.2 Amélioration des images décodées
6.4 Codage d’image fixe par prédiction des coefficients DCT
6.4.1 Schéma de codage
6.4.2 Expérimentations et résultats par rapport à la norme JPEG
6.5 Codage vidéo par prédiction intra-bloc des coefficients DCT
6.5.1 Adaptation du modèle théorique aux contraintes de codage vidéo de type H.264/AVC
6.5.2 Schéma de codage vidéo proposé
6.5.3 Spécificités du codage vidéo et choix d’implémentation
6.5.4 Expérimentations et résultats
6.6 Conclusion
IV Conclusion et perspectives
Bibliographie
Télécharger le rapport complet