Méthodes existantes pour la délinéarisation automatique
Exploitation des métadonnées
Les métadonnées associées aux flux télévisuels sont des informations de description relatives aux grilles de programmation des flux. Elles sont fournies par les chaînes de télévision suivant leurs prévisions de diffusion. L’objectif de ces métadonnées est de renseigner les téléspectateurs sur les programmes prochainement diffusés ou en cours de diffusion. Ces métadonnées contiennent, par conséquent, des horaires approximatifs de programmes, des titres de programmes et éventuellement des résumés plus ou moins détaillés comportant la liste des acteurs, des invités ou des participants, les thèmes abordés, etc. De manière directe, les métadonnées peuvent servir à réaliser une délinéarisation grossière des flux TV. Les horaires et durées indiqués s’interprètent alors comme des indications de début et de fin de segments de programmes. Ces segments de programmes possèdent des titres et des descriptions. Les segments qui séparent les segments de programmes deviennent des segments de groupe d’inter programmes. Malheureusement, le résultat de la délinéarisation est imprécis, incomplet et il n’est pas toujours disponible. De plus, les inter-programmes n’y sont pas présents individuellement. Les principaux travaux autour des métadonnées ne modifient pas les métadonnées. Ils les utilisent pour les personnaliser et recommander certains programmes aux téléspectateurs [LKYH05, RGL+04], pour créer des résumés vidéo des programmes [KSY07], ou pour simplement indexer les programmes [LGS06]. Nous présentons, tout d’abord, les différents types de métadonnées qui existent. Ensuite nous étudions la précision et la qualité de ces métadonnées. Enfin, nous présentons une approche originale qui permet d’enrichir ces métadonnées.
Présentation des métadonnées
Il y a principalement deux types de métadonnées : les métadonnées qui sont associées et diffusées avec le flux audiovisuel ou bien les métadonnées qui peuvent être récupérées à la demande auprès de sites internet ou d’organisations spécialisées.
Métadonnées diffusées avec le flux
Les métadonnées diffusées avec le flux dépendent des standards et des modes de diffusion. Dans le cas de la télévision analogique européenne, les métadonnées sont disponibles dans le format télétexte [ETS97b]. Le télétexte peut contenir des informations, la météo et des guides des programmes diffusés sur une semaine. Les informations textuelles sont cachés dans le signal analogique à travers des données non audiovisuelles diffusées (système VBI, Vertical Blanking Interval). Ces données dites inactives correspondent aux temps libres entre deux balayages du faisceau d’électrons de la télévision analogique. En ce qui concerne les flux numériques, la norme DVB [ETS97a] (Digital Video Broadcasting) inclut directement le transport d’informations textuelles (DVB-SI) en plus des images et du son. Ces données sont alors « multiplexées » ou encore fusionnées pour former le signal numérique binaire transmis. Les métadonnées numériques transportées utiles pour la délinéarisation sont connues sous le nom Event Information Table (EIT). Elles sont de deux types :
– l’EIT schedule qui offre des guides des programmes diffusés sur une semaine. En pratique, ces EIT sont rarement disponibles ;
– l’EIT present and follow qui renseigne sur le programme en cours de diffusion et sur le programme suivant. Ces EIT sont les plus utilisées.
Les EIT peuvent être remplacées par un système de description de métadonnées plus avancé comme le standard TV-Anytime [ETS09]. Cependant, la précision et la disponibilité de ces métadonnées dépend toujours du bon vouloir des chaînes.
Pour assurer la précision temporelle des métadonnées plusieurs protocoles ont été inventés [BS02]. En particulier, le Program Delivery Control [ETS98] (PDC) du télétexte analogique permet d’envoyer des marqueurs de programmes. À chaque programme est associé un marqueur spécifique qui est inclus dans le télétexte tout au long de la diffusion du programme. Le début et la fin d’un programme correspondent simplement au début et à la fin de la diffusion du marqueur. Dans le format numérique DVB, des champs de descriptions sont prévus pour le transport des marqueurs PDC. Le format DVB possède aussi son propre protocole de marquage à travers les tables RST (Running Status Table) mises à jour continuellement. Ces tables RST contiennent une information binaire signalant si un programme identifié dans les EIT par son Event ID est en cours ou non. Les tables RST sont malheureusement rarement implémentées [Toz04]. Comme ces marqueurs signalent aussi la fin de la publicité avec le début du programme, très peu de chaînes les diffusent.
Métadonnées disponibles en dehors du flux
Les métadonnées disponibles sur internet ou auprès de sociétés sont généralement des guides des programmes prévus sur une semaine. Ils sont appelés Electronic Program Guides (EPG). Nous pouvons citer par exemple tvtv comme fournisseur payant de guides de programmes sur internet pour les enregistreurs numériques personnels. Il existe des serveurs d’EPG payants pour les entreprises comme emapmedia ou plurimedia . Et il y a aussi quelques logiciels gratuits tels ZGuideTV qui récupèrent les guides de programmes sur des sites internet de magazines comme Télépoche ou Téléloisirs en France. Il est à noter que la dénomination EPG représente aussi, souvent, un format générique de guide de programmes quelque soit son mode de communication (télétext, DVB, web).
Dans la suite de la thèse, l’EIT désignera plus précisément les informations de délinéarisation obtenues par le service EIT present and follow. Elles sont fournies par les chaînes au fur et à mesure de la diffusion. L’EPG désignera un guide électronique des programmes d’une semaine. Il est fourni par les chaînes environ une fois par semaine et il est rarement mis à jour, une fois diffusé.
|
Table des matières
Introduction générale
1 Méthodes existantes pour la délinéarisation automatique
1.1 Exploitation des métadonnées
1.1.1 Présentation des métadonnées
1.1.1.1 Métadonnées diffusées avec le flux
1.1.1.2 Métadonnées disponibles en dehors du flux
1.1.2 Étude expérimentale
1.1.2.1 Incomplétude des programmes de l’EPG et de l’EIT
1.1.2.2 Imprécision temporelle de l’EPG et de l’EIT
1.1.3 Enrichissement des métadonnées
1.1.4 Synthèse
1.2 Exploitation des signaux audio et vidéo
1.2.1 Approches apparentées à la délinéarisation
1.2.2 Approches consacrées à la détection de la publicité
1.2.2.1 Utilisation de caractéristiques intrinsèques
1.2.2.2 Reconnaissance
1.2.2.3 Détection à partir des répétitions
1.2.3 Approches dédiées à la délinéarisation des flux
1.2.3.1 Extraction des programmes uniquement
1.2.3.2 Extraction des inter-programmes
Reconnaissance
Détection à partir des répétitions
1.2.4 Synthèse
2 Découpage du flux en segments à partir des répétitions
2.1 Définition des répétitions
2.2 Méthodes existantes de détection des répétitions
2.3 Notre méthode de détection des répétitions
2.3.1 Fonctionnement général de la méthode sur une portion de flux
2.3.2 Description en unités « images clés »
2.3.2.1 Calcul des images clés
2.3.2.2 Détection des images monochromes et des silences
2.3.2.3 Descripteurs des images clés : les DC
2.3.2.4 Descripteurs des images : les DI
2.3.3 Détection des images clés répétées
2.3.4 Construction des occurrences des répétitions à partir des images clés répétées
2.3.4.1 Construction d’une matrice de similarité entre clusters
2.3.4.2 Construction des occurrences des répétitions à partir des clusters similaires
2.3.4.3 Extension des occurrences des répétitions
2.3.5 Gestion de la continuité
2.4 Notre méthode de découpage à partir des répétitions
2.5 Résultats
2.5.1 Contexte expérimental
2.5.2 Protocole d’évaluation
2.5.2.1 Détection des répétitions d’inter-programmes
2.5.2.2 Découpage du flux
2.5.3 Expériences 1 : étude de l’automaticité et de la généricité
2.5.3.1 Choix du rayon des clusters
2.5.3.2 Variation de la quantité de flux à traiter
2.5.3.3 Extension de l’étude au flux d’une autre chaîne TV
2.5.3.4 Configuration des paramètres de la construction des répétitions
2.5.4 Expériences 2 : étude de la continuité
2.5.4.1 Choix de la durée de l’historique
2.5.4.2 Choix de la durée des portions de flux à traiter périodiquement
2.5.4.3 Stabilité des traitements
2.5.5 Expériences 3 : étude de l’efficacité
2.5.5.1 Analyse de la détection des répétitions
2.5.5.2 Analyse du découpage à partir des répétitions
2.5.6 Synthèse
2.6 Exploitation de la détection des répétitions pour la détection de bandes annonces
2.6.1 Méthode de détection de bandes annonces
2.6.2 Expérimentation de la détection de bandes annonces
3 Classification des segments
3.1 Méthodes existantes pour la classification de segments audiovisuels
3.2 Notre méthode de classification
3.2.1 Présentation générale
3.2.2 Notions de base
3.2.2.1 Les prédicats de segment
3.2.2.2 Les règles de classification
3.2.3 Module de description logique
3.2.3.1 Prédicats simples
La durée
Le nombre d’occurrences de la répétition
La fréquence des plans
Le nombre de jours
Le nombre de jours consécutifs
Les jours de début de semaine
La diffusion une seule fois par jour
La localisation
L’écart moyen de localisation
3.2.3.2 Prédicats relationnels
Définition du voisinage
La position
L’occurrence
3.2.3.3 Prédicats contextuels
La densité de répétitions
Le contexte des répétitions
3.2.4 Module d’apprentissage
3.2.4.1 L’apprentissage de la classification
3.2.4.2 Généralités sur la programmation logique inductive
3.2.4.3 Aleph
Construction de la règle de classification la plus spécifique
Généralisation de la règle de classification la plus spécifique
Évaluation des règles de classification construites
Biais
3.2.4.4 La validation des règles logiques
3.2.5 Module de classification
3.2.5.1 Hiérarchie des règles de classification
3.2.5.2 Algorithme d’application des règles
3.2.5.3 Décision de la classe de chaque segment
3.3 Résultats
Conclusion générale