Depuis plusieurs années, le média vidéo est devenu prépondérant dans notre façon d’accéder à l’information et au divertissement, prenant peu à peu la place du média textuel. Selon le cabinet d’audit GfK 7, chaque famille française possédait en 2007 1,8 téléviseur en moyenne et laissait ce téléviseur allumé environ six heures par jour. Cette modification des comportements a conduit à une augmentation importante du nombre de documents multimédias produits et diffusés chaque année. En France, l’Institut National de l’Audiovisuel (INA), chargé depuis le 1er janvier 1995 de la mise en œuvre du dépôt légal de la radio-télévision, possède des collections multimédias qui comptent plus de 4 millions d’heures de programmes, collections qui s’enrichissent chaque année d’environ 900 000 heures. La mise en place de la Télévision Numérique Terrestre (TNT) et l’ajout de 18 nouvelles chaînes de télévision ont encore augmenté cette quantité, puisque depuis le 1er décembre 2008, ce sont 88 chaînes de télévision et 20 chaînes de radio qui sont collectées 365 jours par an. À ces données professionnelles sont venues s’ajouter récemment les vidéos accessibles sur Internet, faisant exploser le volume de documents multimédias disponibles. À titre d’exemple, 13 millions d’heures de vidéos ont été ajoutées sur le site YouTube en 2010.
Afin de rendre exploitables les données archivées par leur institut, les documentalistes de l’INA mettent en place, chaque année, l’analyse et l’indexation de près de 90 000 émissions de télévision et de radio en produisant un résumé et une indexation thématique, sous forme d’une liste de mots clés, de l’émission. Cependant, l’explosion du nombre de vidéos disponibles rend indispensable l’établissement de méthodes automatiques pour l’analyse et la description des flux multimédias. Cet effort de structuration, sans lequel les milliers d’heures de vidéos disponibles resteraient inutilisables, peut prendre différentes formes. L’extraction et la caractérisation de programmes télévisés à partir d’un flux télévisuel, par exemple, permettent de rendre plus accessibles à des utilisateurs les informations contenues dans le flux. Pour cela, il est nécessaire de repérer les frontières de début et de fin de programmes d’une part et de proposer une représentation du contenu des programmes d’autre part. La structuration de données multimédias peut également se situer au niveau des émissions elles-mêmes. Dans ce cadre, l’objectif de la structuration est d’autoriser l’accès des utilisateurs à un point précis de la vidéo. Cela peut correspondre à une action dans une vidéo de rencontre sportive (un but dans un match de football par exemple) ou à un segment de la vidéo dans lequel apparaît une personnalité connue .
Structuration automatique de flux TV : état de l’art et positionnement
L’augmentation du nombre de documents multimédias disponibles rend indispensable le développement de méthodes automatiques permettant de structurer et de décrire ces documents afin de faciliter l’accès aux informations qu’ils contiennent. Cette structuration peut prendre différentes formes selon qu’elle cherche à extraire l’architecture interne d’un document ou qu’elle a pour but l’organisation d’une collection. Dans le premier cas, différentes représentations du contenu du document peuvent être envisagées pour permettre un accès rapide à l’information qu’il renferme : résumés automatiques, vidéos ou textuels, tables des matières, etc. Dans le second cas, la structuration cherche à positionner les documents les uns par rapport aux autres afin de faciliter la compréhension globale de l’utilisateur par rapport à la collection. Le principal objectif de ce chapitre est de présenter les différents travaux de structuration automatique de documents audiovisuels à travers ces deux motivations que sont la structuration de documents et la structuration de collections.
État de l’art
L’accès à l’information contenue dans des documents multimédias peut s’effectuer de deux façons. L’utilisateur peut chercher à visualiser rapidement un point d’intérêt dans une vidéo particulière, comme un but dans un match de football ou une partie d’une émission abordant un thème particulier. Dans ce cas, il est nécessaire de développer des techniques permettant d’extraire la structure interne des vidéos, L’utilisateur peut également souhaiter suivre les évolutions d’un sujet d’actualité au cours du temps, étudier la façon dont différents médias traitent d’un même fait d’actualité ou accéder à toutes les émissions partageant des caractéristiques similaires (la présence des mêmes personnes au sein de la vidéo par exemple).
Structuration de documents
Par analogie avec les documents textuels, dont la gestion a été depuis longtemps organisée au sein de bibliothèques et autres moteurs de recherche textuels, l’accès à l’information incluse dans les documents multimédias nécessite l’indexation du contenu de ces documents. Cette indexation peut prendre la forme d’une table des matières ou d’un résumé qui fournissent à l’utilisateur une indication sur la structure d’un document. Cette structuration peut être effectuée à différents niveaux de la vidéo, du plus petit, comme l’image, au plus large tels que les flux télévisuels .
Le niveau de structuration de documents le plus élémentaire est la segmentation en plans. Elle consiste à isoler, dans une vidéo, les séries d’images acquises de manière continue par une caméra et séparées par des transitions de différentes natures, transitions brusques, fondus enchaînés, balayages, etc. Les méthodes de segmentation en plans reposent généralement sur la détection de ces transitions par des méthodes fondées sur des mesures de similarités de caractéristiques bas niveau (Lienhart, 2001; Yuan et al., 2007; Smeaton et al., 2010). Ce niveau de structuration étant trop petit pour que le résultat soit sémantiquement interprétable par un utilisateur, la structuration en plans est souvent considérée comme la première étape indispensable à une structuration de plus haut niveau telle que la segmentation en scènes.
La segmentation en scènes, connue aussi sous le nom de macro-segmentation, permet le chapitrage automatique d’une vidéo et offre ainsi la possibilité de déterminer une table des matières du document traité. Sous cette appellation, on retrouve des travaux ayant des objectifs relativement différents, la notion de scène ne possèdant pas de définition claire. La nature d’une scène dépend, en effet, du type ou genre de la vidéo considérée, les scènes étant vues comme un groupe de plans cohérents qui présente un sens pour l’utilisateur. Or, cette cohérence va se baser sur différentes modalités selon que l’on se place dans le cadre d’un film – dans ce cas l’unité de lieu ou de temps va prévaloir – ou dans un journal télévisé dans lequel l’unité thématique sera primordiale. Pour pallier ce problème, la solution envisagée par de nombreux travaux, élaborant ce qu’on appelle des systèmes spécifiques, consiste à se restreindre à un cadre d’analyse très contraint permettant d’avoir une définition précise de la notion de scène. Ces systèmes spécifiques se concentrent sur des genres de programmes ayant une structure très forte et peu variable. Dans (Kijak, 2003) ou (Delakis, 2006) par exemple, les auteurs cherchent à identifier les phases de jeu dans des matches de tennis. Pour cela, ils utilisent des modèles de Markov cachés pour fusionner des informations provenant à la fois de l’image et de la bande son (Kijak, 2003), éventuellement combinés avec des indices textuels, comme les annonces de points (Delakis, 2006). La structuration de journaux télévisés (JT) a également fait l’objet de nombreuses études, que ce soit par le biais de systèmes spécifiques, comme dans (Eickeler and Muller, 1999) où les auteurs proposent le découpage de JT en phases plateaux et reportages en s’appuyant sur des indices vidéos, ou grâce à des techniques de segmentation thématique. La segmentation thématique d’émission autorise en effet la visualisation rapide de la structure du document. Cette structuration peut être effectuée en détectant le présentateur du journal télévisés qui annonce les nouveaux reportages et donc les changements thématiques. Les nombreux travaux qui se sont intéressés à la détection du présentateur peuvent être regroupés en deux grandes familles. Dans la première, les méthodes développées consistent à comparer tous les plans de la vidéo à un modèle, appris préalablement de façon supervisée, représentant les plans dans lesquels apparaît le présentateur (Smoliar et al., 1995). La seconde famille regroupe des travaux mettant en place une détection non supervisée fondée sur des techniques de clustering visant à regrouper des plans ayant un contenu visuel similaire et apparaissant tout au long de la vidéo (Ide et al., 2001; Santo et al., 2006). Cependant ces techniques sont, comme les systèmes spécifiques, très dépendantes du types de données à structurer et nécessite la présence d’un présentateur dans l’émission pour fonctionner. Dans (Slaney and Ponceleon, 2001), les auteurs proposent une méthode plus générique ne faisant pas d’hypothèses a priori sur la structure de l’émission à segmenter. Dans ce travail, les auteurs combinent une technique employée en traitement du signal, la scale space segmentation, et une méthode de traitement automatique des langues, l’indexation sémantique latente. Cette combinaison, appliquée sur la transcription manuelle d’une émission de CNN news, permet d’extraire une structure thématique, et donc une table des matières, du programme traité.
Structuration de collections
Les méthodes de structuration présentées dans la sous-section précédente ont pour objectif la mise en évidence de la structure interne des documents afin de proposer aux utilisateurs une table des matières ou un résumé du contenu du document. La structuration de vidéos peut également se faire au niveau de la collection de documents. Dans ce cas, les méthodes développées ont pour but d’organiser la collection afin de rendre son contenu plus facilement accessible à l’utilisateur.
La classification des vidéos est une des techniques de structuration de collections qui consiste à attribuer un ou plusieurs index à un document audiovisuel. La classification en genres est un cas particulier de classification qui cherche à associer un genre ou un sous-genre à une vidéo. Dans (Oger et al., 2010), Oger et al. s’intéressent à la classification des vidéos en six genres : clips de musique, publicité, dessins animés, documentaires, journaux télévisés, sport et films. Pour cela, les auteurs utilisent les transcriptions automatiques de la parole prononcée dans les documents afin de prendre en compte les particularités stylistiques de chaque genre. Ils s’intéressent également à des indices ayant prouvé leur efficacité dans des tâches de caractérisation de genre de textes écrits, telles que les séquences de mots les plus fréquentes. Dans le projet CoP (Content Processing, (Fischer et al., 1995)), Fischer et al. utilisent une méthode de détection de coupures et de mouvements dans la vidéo ainsi que des informations statistiques sur les couleurs afin de classer différentes vidéos en quatre genres : informations, sport, publicité et dessins animés. Ils prennent également en considération des statistiques audios, telles que la fréquence et l’amplitude du signal. Dans cet article, Fisher et al. analysent les caractéristiques des films (mouvements, longueur des scènes, etc.) pour leur associer un genre et cherchent ensuite à faire correspondre ce genre avec ceux appris automatiquement sur un grand nombre de données. Roach et al. (Roach et al., 2001) utilisent, quant à eux, un classifieur statistique pour catégoriser les émissions à partir d’indices à la fois vidéos et audios qui sont dans un premier temps employés séparément puis combinés linéairement. Si la classification d’émissions en genres se fonde sur un ensemble défini de classes qui est habituellement fermé, Roach et al. introduisent dans leur étude une nouvelle classe à laquelle appartiennent les émissions dont le genre n’est pas spécifié. Leur travail est, de ce fait, plus proche d’une vérification de l’appartenance d’une vidéo à un genre particulier que d’une classification proprement dite. Même si les études semblent privilégier la combinaison d’indices, qu’ils soient vidéos et audios ou audios et textuels, certains travaux se basent sur un seul type d’indices, comme (Liu et al., 1998) qui opère une classification des programmes télévisuels en n’étudiant que les indices audios. Liu et al. utilisent, ainsi, huit propriétés au niveau des trames et quatorze propriétés au niveau du clip vidéo. Ces propriétés sont extraites afin d’entraîner les modèle de Markov cachés ergodiques utilisés pour classer les émissions en cinq genres distincts.
Si la classification en genres des émissions permet de regrouper les documents qui partagent une caractéristique stylistique commune, certains travaux se sont penchés sur le regroupement de documents vidéos abordant les mêmes thématiques. Ces études utilisent la parole prononcée dans les vidéos comme indice de similarité entre deux vidéos. Un travail représentatif de ce qui se fait en parole peut être trouvé dans (Yang et al., 1999). Dans cet article, Yang et al. représentent les documents par des vecteurs de mots clés, pondérés grâce à un poids tf -idf . Une mesure cosinus est ensuite utilisée pour calculer la similarité entre les paires de documents et une approche k-NN effectue la classification proprement dite. En plus de vecteurs de mots clés pondérés, (Hsu and Chang, 2006) se base sur des indices visuels bas niveau, tels que la détection de visual near-duplicates et sur des concepts sémantiques haut niveau extraits automatiquement à partir de la vidéo. Ces concepts visuels sont ceux définis dans le cadre de la campagne d’évaluation TRECVID (Smeaton et al., 2006) et peuvent être de natures très différentes (visage, ciel, personne qui marche, scène extérieure, etc.). Ces indices sont combinés linéairement et une approche k-NN est utilisée pour estimer la pertinence d’un document vidéo par rapport à un thème.
|
Table des matières
Introduction
I Positionnement
1 Structuration automatique de flux TV : état de l’art et positionnement
1.1 État de l’art
1.1.1 Structuration de documents
1.1.2 Structuration de collections
1.2 Positionnement
1.2.1 Objectifs de structuration
1.2.2 Approche retenue
1.3 Bilan du chapitre
2 Transcriptions automatiques de programmes TV
2.1 Système de reconnaissance automatique de la parole
2.1.1 Principe
2.1.2 Sorties
2.1.3 Le système Irene
2.2 Transcriptions automatiques de programmes TV
2.2.1 Particularités de transcriptions de programmes TV
2.2.2 Description des corpora
2.3 Bilan du chapitre
3 Indices utiles à l’adaptation de la cohésion lexicale
3.1 Gestion des spécificités des transcriptions automatiques de programmes TV
3.1.1 Mesures de confiance
3.1.2 Relations sémantiques
3.1.2.1 Techniques de premier ordre
3.1.2.2 Techniques de deuxième ordre
3.1.2.3 Techniques de troisième ordre
3.1.2.4 Caractérisation des relations sémantiques
3.1.2.5 Relations utilisées dans cette thèse
3.2 Utilisation de la prosodie
3.3 Bilan du chapitre
II Segmentation thématique
4 Détection de rupture et maximisation de la cohésion lexicale pour la segmentation thématique linéaire : état de l’art et positionnement
4.1 Thème : définition
4.1.1 Définition du thème dans la littérature
4.1.2 Le thème dans le cadre de données audiovisuelles
4.2 Segmentation thématique
4.2.1 Segmentation thématique fondée sur la cohésion lexicale
4.2.1.1 Méthodes locales fondées sur la détection de rupture de la cohésion lexicale
4.2.1.2 Méthodes globales basées sur la mesure de la cohésion lexicale
4.2.2 Évaluation de la segmentation thématique
4.3 Approche retenue
4.3.1 Segmentation thématique basée sur la maximisation du critère de cohésion lexicale
4.3.1.1 Prétraitements
4.3.1.2 Mesure de la cohésion lexicale
4.3.1.3 Algorithme de segmentation thématique
4.3.2 Combinaison de la mesure et de la détection de rupture de cohésion lexicale
4.3.2.1 Détection de rupture de la cohésion lexicale
4.3.2.2 Introduction des informations de rupture dans l’algorithme de segmentation
4.4 Bilan du chapitre
5 Adaptation de la cohésion lexicale aux particularités des documents oraux
5.1 Gestion des spécificités des transcriptions automatiques de programmes TV
5.1.1 Mesures de confiance
5.1.2 Relations sémantiques
5.1.3 Interpolation
5.2 Utilisation de la prosodie
5.3 Bilan du chapitre
III Structuration d’émissions
6 Mise en relation de segments thématiquement homogènes
6.1 Structuration par la mise en relations de segments thématiques : principe
6.1.1 État de l’art
6.1.2 Méthode retenue
6.2 Mise en relation de segments de programmes TV
6.2.1 Modification de la représentation vectorielle
6.2.2 Modification du calcul de la similarité entre vecteurs
6.3 Applications
6.3.1 Association de notices documentaires et de reportages télévisés
6.3.2 Délinéarisation de flux télévisuels
6.4 Bilan du chapitre
7 Structuration thématique hiérarchique
7.1 Segmentation thématique hiérarchique : principe et état de l’art
7.1.1 Hiérarchie au sein des thèmes
7.1.2 Segmentation thématique hiérarchique : état de l’art et positionnement
7.1.2.1 État de l’art
7.1.2.2 Positionnement et approche retenue
7.1.3 Évaluation de la segmentation thématique hiérarchique
7.2 Segmentation hiérarchique de programmes TV
7.2.1 Modification de la probabilité généralisée
7.2.1.1 Normalisation
7.2.1.2 Divergence
7.2.1.3 Proportion
7.2.1.4 Résultats
7.2.2 Chaînes lexicales
7.2.2.1 Calcul des chaînes lexicales
7.2.2.2 Prise en compte des chaînes lexicales pour segmenter un segment thématiquement homogène
7.3 Perspectives
7.4 Bilan du chapitre
Conclusion