Synchronisation automatique d’un contenu audiovisuel avec un texte qui le décrit

Segmentation de l’arrière-plan

En général, les méthodes les plus populaires qui visent à segmenter l’arrière-plan construisent un modèle de l’arrière-plan (la scène originale) qui permet de le soustraire d’une scène future afin d’identifier les objets du premier plan (les objets mobiles). La valeur d’un pixel dans une nouvelle trame est comparée à la valeur correspondante dans le modèle, si elle est nouvelle alors ce pixel est considéré comme associé à un objet du premier plan (dans cette trame). La technique de base la plus utilisée pour modéliser l’arrière-plan est un modèle de mélanges gaussiens associé à l’intensité des pixels. Un modèle d’arrière-plan utilisant une distribution gaussienne unique présente des limites dans le cas où l’arrière-plan subit des changements majeurs (pluie, arbre dans le vent, etc…). D’autres méthodes plus efficaces sont dérivées de cette technique comme celles qui utilisent plusieurs distributions (61) ou des distributions non paramétriques ((45), (51), et (56)). Les auteurs de (61) ont proposé d’utiliser le modèle de mélange gaussien pour chaque pixel au lieu d’utiliser la même distribution pour tous les pixels. Le problème de la prise en compte de l’ombre portée a été traité dans (63) par exemple en combinant cette technique avec une autre technique qui élimine l’ombre, ce qui a amélioré les résultats de modélisation et la soustraction d’arrière-plan. Parmi les techniques à distributions non paramétriques, les utilisations fréquentes de la méthode proposée par (45) ((57), (50), (52)), prouvent que celle-ci est efficace pour modéliser et extraire l’arrière-plan. Selon les auteurs, cette méthode basée sur la technique de quantification par Codebook présente un avantage sur les méthodes basées sur la mixture de gaussiennes et les autres méthodes non paramétriques ((51)) en raison de sa capacité à traiter des flux. Chacun des travaux dérivés de cette technique ((56), (60), (53), (57), (50), (52)) modifie des caractéristiques de la méthode, soit en ajoutant des paramètres, ou en ajoutant un autre Codebook (60), ou bien en modifiant le processus de mise à jour du modèle pour améliorer sa performance (56) ou pour optimiser le calcul (53). La littérature scientifique en analyse de vidéo est riche de travaux traitant le problème de la soustraction d’arrière-plan, mais notre contribution ne vise ni à comparer ces méthodes ni à proposer une nouvelle technique. Nous avons besoin d’une solution efficace pour quantifier toutes les valeurs dans l’historique des couleurs d’un pixel. Nous avons choisi d’utiliser la technique du Codebook proposée et utilisée dans (45) pour effectuer cette quantification en raison de son efficacité et de ses performances. Toutefois cette solution est indépendante de notre contribution. Elle peut être remplacée par une autre technique de quantification si besoin. La mise en œuvre de cette solution sera discutée et présentée durant la présentation de notre travail.

Technique de quantification – Codebook

Définition Dans le domaine du traitement automatique de contenus vidéo, la quantification des triplets RGB est une technique utilisée pour construire un modèle de l’arrière-plan. Ce type d’outils est largement utilisé dans les travaux de classification des pixels de premier et d’arrière-plan (en particulier pour la vidéo surveillance). L’utilisation principale consiste à construire un modèle identifiant les couleurs de l’arrière-plan, et par suite à soustraire ces informations de la scène à chaque instant pour ne conserver que l’information des pixels correspondant à des objets d’intérêt supposés composer le premier plan. Notre travail ne vise pas à segmenter les éléments qui composent spatialement une scène mais à détecter tout changement permanent de chaque pixel. Nous avons discuté dans la section précédente des méthodes les plus populaires pour construire un modèle d’arrière-plan par quantification (Mélange de gaussiennes et Codebook). Dans notre approche, le choix de la méthode de quantification n’est pas crucial. Nous avons sélectionné la méthode de quantification par Codebook en raison de sa simplicité, et de son aptitude à traiter des flux1 dont les caractéristiques sont susceptibles d’évoluer au cours du temps. Son principe, relativement standard en quantification, consiste, pour une séquence de valeurs RGB prises par un pixel au cours du temps, à associer aux triplets les plus proches un niveau de quantification appelé Codeword. L’ensemble de tous les Codewords d’un pixel forme son Codebook. Dans le contexte de notre travail principal (“Synchronisation d’une vidéo avec le texte qui le décrit”), nous ne considérons actuellement que de courts enregistrements. Mais nous choisissons d’implémenter toutes nos méthodes de manière à ce qu’elles soient adaptées plus tard au traitement de longs flux. Il existe de nombreuses variantes visant à identifier les groupes de triplets proches (ne serait-ce qu’en raison des multiples possibilités de définir la notion de “proximité” entre triplets), et de leur associer un Codeword. Nous avons choisi la méthode de KIM et al. (45) décrit dans le paragraphe suivant.
Méthode de KIM et al. (45) Les valeurs RGB des pixels sont affectées d’une façon ou d’une autre par des facteurs externes comme le bruit, la variation de luminance, etc… Nous considèrerons que les variations induites par ces phénomènes sont de faible amplitude. Le premier objectif de la quantification est alors d’associer une seule et même couleur aux multiples triplets qui peuvent être associés à un pixel au cours du temps en raison de ces faibles variations. Mais comment savoir si deux valeurs RGB doivent être associées à un seul ou à deux niveaux de quantification différents ? À défaut de choisir un espace de représentation moins sensible aux changements d’éclairage, les auteurs ont étudié comment les valeurs RGB représentant un même point d’une scène varient sous l’effet d’un changement d’illumination. Selon leurs expérimentations, les triplets RGB obtenus sous différentes conditions d’éclairage standard se distribuent dans un sous-espace de forme allongée, étiré selon l’axe reliant le centre de gravité des triplets à l’origine du repère (Figure 10). Les auteurs ont choisi de représenter ce sous-espace par un cylindre. Ce cylindre est considéré comme étant un Codeword : l’ensemble des triplets RGB situés à l’intérieur sont associés à un même niveau de quantification.

Filtrage des SNC

Comme nous l’avons déjà mentionné, un Codeword est considéré stable s’il est répété sur une durée supérieure à “L” sans interruption. Mais ce cas peut être rare sur des données réelles potentiellement bruitées par d’autres phénomènes que des variations de luminance (dans la Figure 18 : on peut noter l’apparition d’un Codeword lié au bruit qui a interrompu la continuité de la répétition du deuxième Codeword stable). C’est pourquoi nous proposons de filtrer les SNC avant de commencer la recherche des limites d’actions.
Le choix du filtre Il est important de mentionner que le but de ce filtrage n’est pas d’éliminer les Codewords correspondants au premier ou à l’arrière-plan, mais d’éliminer les Codewords liés au bruit. Pour distinguer cette catégorie, nous considèrerons que le bruit que nous cherchons à filtrer correspond à des valeurs aberrantes et ponctuelles susceptibles d’apparaître au milieu de la séquence. Nous formulerons donc l’hypothèse que ce bruit est de type “poivre et sel”. Si tel est bien le cas, il peut être traité par un filtre médian (non-linéaire). L’application de ce filtre est effectuée via une fenêtre glissante, dont il reste à fixer la taille. Toutefois, nous allons devoir adapter le filtre médian pour l’adapter à nos données. Un filtre médian est utile dans les cas où les valeurs de la séquence filtrée sont significatives, comme dans le cas d’une séquence d‘intensités de pixels par exemple. L’ordonnancement, puis le choix de la valeur médiane s’effectue par rapport à toutes les valeurs dans la fenêtre. Dans notre cas, la SNC contient des numéros de Codewords indépendants et non-comparables en termes d’intensité (le numéro de Codeword correspond à son ordre d’apparition dans la vidéo). Par suite, le but n’est pas choisir le Codeword ayant un numéro médian. Nous choisissons d’utiliser la valeur la plus fréquente dans la fenêtre. De cette manière, un Codeword aberrant est remplacé par le Codeword le plus fréquent dans son voisinage (fenêtre).
Taille de la fenêtre Rappelons que notre objectif est de trouver dans une SNC des segments de longueur supérieure ou égale à un “L” (déjà défini – cf. 3.5.2) qui ne contiennent qu’un seul Codeword. Par suite, le choix d’une fenêtre de taille “L” apparaît comme raisonnable pour maintenir la longueur des séquences de répétition de code. Ce filtrage n’est bien sûr possible que tant que le nombre de valeurs aberrantes reste petit.

Détection de copies (“video copy detection”)

En général, le but de la détection des copies est de limiter la violation des copyrights sur les contenus vidéo. Les techniques dans ce domaine analysent et interprètent le contenu d’une base de données audiovisuelle pour savoir si un segment donné est répété d’une manière identique ou modifiée. Parmi les problèmes abordés par ce type de travaux, nous trouvons la capacité de distinguer les copies d’un segment et les segments similaires, ainsi que celle de détection des copies qui ont subi des modifications (coupures, bruit additionnel, recadrage, etc…). La plupart des travaux dans ce domaine utilisent un ensemble des descripteurs locaux ou globaux pour calculer une signature correspondant au segment cherché (la requête). Par suite, ils calculent les signatures des vidéos de la base de données. Les segments ayant la même signature que la requête sont considérés comme étant des copies. Plusieurs techniques utilisent des descripteurs et des informations globales comme l’histogramme de couleurs, l’intensité, les limites de plan, le mouvement, etc… ((5), (13), (11), (22) et (23)). Les auteurs de (13) proposent une méthode pour trouver les copies piratées sur Internet en calculant une signature s’appuyant sur les limites de plans. D’autres techniques utilisent des descripteurs calculés sur des régions locales et sur des points d’intérêt spatio-temporels (10) et (15). La technique généralement utilisée consiste à calculer la signature du segment requête en fonction de la caractéristique étudiée (distribution des couleurs, mouvement et texture), et ensuite à trouver les segments candidats dans la base de données. Une comparaison et une évaluation détaillée de ces méthodes est effectuée par (19). Les travaux dans ce domaine s’appuient sur un segment requête pour en chercher des copies dans la base de données. Par contre, dans notre travail, nous ne disposons pas de segment requête car nous ne savons pas d’avance quel contenu est répété dans la vidéo. D’autre part, ces techniques sont conçues pour détecter des copies situées dans de grands contenus (flux TV) ou dans un grand nombre d’enregistrements différents (dans une base de données). Nous ne nous intéressons qu’à des répétitions dont les occurrences sont consécutives (au sein d’une même vidéo).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 Introduction générale
Sujet et motivation
Plan de la thèse
Chapitre 2 Contexte : État de l’Art, Définitions et Hypothèses
État de l’art général
Objectif
Plan de travail
L’analyse du texte
2.4.1 Restriction
2.4.2 Les Informations textuelles requises
2.4.3 Étude du contenu
2.4.4 Hypothèses de travail
2.4.5 Format attendu des informations
Verrous scientifiques
Chapitre 3 Segmentation des actions dans une vidéo
Introduction
3.1.1 Problématique
3.1.2 Objectifs
3.1.3 Principe général de la méthode proposée
État de l’art
3.2.1 Introduction
3.2.2 Détection des événements dans une retransmission sportive
3.2.3 Segmentation de l’arrière-plan
3.2.4 Détection des changements sur l’arrière-plan
Technique de quantification – Codebook
3.3.1 Définition
3.3.2 Méthode de KIM et al. (45)
3.3.3 Modifications proposées
3.3.4 Construction et utilisation
Automate de décision
3.4.1 Identification des Codewords d’arrière-plan
3.4.2 Localisation des transitions
3.4.3 Filtrage des SNC
Système de vote
3.5.1 Intégration des votes des pixels
3.5.2 Durée minimum d’occupation d’un état stable – L
3.5.3 Algorithme final
3.5.4 Détection des limites
Résultats et évaluation
3.6.1 Le Corpus
3.6.2 Méthode d’évaluation
3.6.3 Facteurs agissant sur le résultat
Conclusion
Chapitre 4 Détection des Répétitions
Introduction
État de l’art
4.2.1 Structuration de flux télévisé
4.2.2 Détection de copies (“video copy detection”)
4.2.3 Détection de périodicité dans une vidéo
4.2.4 Détection des actions répétées séparées
Méthode du YIN (Cheveigné et al. (1))
4.3.1 Problématique et but de la Méthode YIN
4.3.2 La méthode
4.3.3 Analyse et compréhension des résultats produits
4.3.4 Limitations
Présentation générale de notre contribution
Caractérisation des répétitions
Matrice YIN
Localisation des répétitions
4.7.1 Forme géométrique
4.7.2 Détection des triangles
4.7.3 Extraction des triangles
4.7.4 Extraction des paramètres des répétitions
Expérimentations et évaluation
4.8.1 Corpus et Résultats
4.8.2 Les résultats sur une vidéo réelle
4.8.3 Évaluation
4.8.4 Limitations
4.8.5 Conclusion et Intégration dans le système de synchronisation
Conclusion – Perspectives
Chapitre 5 Synchronisation
Hypothèses
Matrices de confiance
5.2.1 Plan de synchronisation
5.2.2 Définition
5.2.3 Production des coefficients
5.2.4 Matrice de l’outil de segmentation d’actions (outil de type 1)
5.2.5 Matrice de l’outil de détection des répétitions (outil de type 2)
5.2.6 Le cas d’une distribution non-gaussienne
5.2.7 Matrices des répétitions séparées
Fusion des matrices
5.3.1 Fusion pondérée
Extraction des associations
5.4.1 Extraction simple
5.4.2 Association récursive
Résultats et évaluation
5.5.1 Le corpus
5.5.2 Résultats
5.5.3 Évaluation
Chapitre 6 Conclusion et Perspectives
Outil de détection des répétitions
Outil de détection des répétitions – coût de calcul
Le flux audio
Les conditions
Distribution bidimensionnelle
Extraction des associations
Affiner les limites des segments synchronisés
Reconnaissance d’actions
Vidéo et texte structurés
Publications