Durant les dernières décennies, la télévision a pris une place importante dans la vie de l’être humain. En France, par exemple, environ 96 % des foyers en 2014 sont équipés d’au moins un poste de télévision (CSA, 2015). En outre, selon des études réalisées en 2017, un français passe en moyenne plus de 3 heures et demi par jour en face de son téléviseur et un tiers des français regardent également des programmes TV sur un autre écran, à savoir, un ordinateur, une tablette ou un smartphone (Médiamétrie, 2017b,a). Au vu de cette grande demande, de nombreuses chaînes TV occupent aujourd’hui le paysage de l’audiovisuel. Nous comptons, fin 2016, 214 chaînes conventionnées ou autorisées par le Conseil Supérieur de l’Audiovisuel (CSA) pour une transmission en métropole qui diffusent leur contenu audiovisuel (CSA, 2017). Afin de faciliter la gestion et l’accès à cette masse de données audiovisuelles en continuelle croissance, des traitements automatisés sont devenus indispensables. Diverses problématiques ont ainsi émergé et chacune d’elles a été traitée comme un axe de recherche à part entière. Certains travaux ont proposé de catégoriser automatiquement le contenu audiovisuel en genres d’émission. D’autres travaux de recherche se sont focalisés sur la structuration de ces contenus à l’échelle du plan, de la scène ou de l’émission. Une troisième problématique, qui a suscité l’attention de beaucoup de chercheurs, consiste à produire des représentations compactes des contenus sous forme de résumés vidéo, de séquences de vignettes, etc.
L’entreprise EDD
EDD, anciennement appelée « L’Européenne de Données », est une entreprise créée en 1985 spécialisée dans la gestion des ressources multimédias (presse, radio, TV et réseaux sociaux). Elle collecte, indexe, analyse et distribue quotidiennement environ 80 000 nouveaux documents (articles de presse et de magazines spécialisés, dépêches, communiqués, etc.) accompagnés de centaines de flux TV et radio. Depuis 2013, ces flux sont transcrits automatiquement au moyen du système de reconnaissance automatique de la parole du LIA (Linarès et al., 2007) dénommé SPEERAL.
EDD a pour objectif d’accompagner les professionnels en mettant à leur disposition des services de veille médiatique portant sur les archives et l’actualité de la politique, des personnalités, des marchés et des entreprises françaises. Via une plateforme en ligne dédiée, elle propose :
— des outils de recherches avancées dans un corpus étendu sur les 15 dernières années (pour les articles de presse) et sur les 12 derniers mois (pour les séquences pertinentes de la télévision et la radio).
— des données nécessaires à une analyse des retombées médiatiques (à réaliser de manière autonome ou avec l’aide des consultants spécialisés de l’entreprise) comme les indicateurs de volumétrie ou les équivalents publicitaires.
— la consultation de la presse du jour, disponible avant 6h, et de la retransmission de la radio et la télévision à 10 minutes du passage en antenne.
— des panoramas quotidiens de l’actualité (presse, radio et TV) ainsi que des services de notification en temps réel des affaires sensibles des clients inscrits. Ces services sont réalisés sur mesure par des consultants internes.
Traitement de données séquentielles
Le contenu audiovisuel manipulé par EDD, à savoir la retransmission des chaînes TV, se présente sous la forme d’un flux continu de données. En effet, ces chaînes diffusent d’une manière quasiment ininterrompue leurs matières audiovisuelles. Ce contenu consiste en un enchaînement d’événements pouvant être observé à différents niveaux de granularité (suite d’émissions, de scènes, de plans, etc.). Les suites d’événements diffusées à travers les flux télévisuels représentent donc un ensemble de données séquentielles. La particularité de telles données réside dans le fait que chaque événement dépend habituellement des événements qui le précèdent. À titre d’exemple, la grille de programmes d’une chaîne donnée définit l’horodatage des différents genres d’émission mais également un modèle de séquencement de ces genres au fil de la journée. Pour la chaîne TF1, par exemple, une tranche de dessins animés (en début de matinée) est très souvent suivie d’un bulletin météo puis d’une émission de téléachat.
Certaines méthodes d’apprentissage automatique sont plus capables que d’autres à intégrer des données séquentielles. D’un côté, certaines méthodes ont prouvé leur efficacité, dans des tâches de classification automatique, tels que le modèle Support Vector Machine (SVM) l’algorithme des k plus proches voisins et les arbres de décision. De tels algorithmes, que nous appelons dans ce manuscrit des « algorithmes classiques », considèrent une entrée comme un vecteur de caractéristiques indépendantes les unes des autres. D’un autre côté, de nombreuses méthodes d’apprentissage automatique adaptées au traitement des données séquentielles ont été proposées. Des méthodes, telles que les modèles de Markov cachées (HMM), les champs aléatoires conditionnels (CRF) et les réseaux de neurones récurrents (RNN) ont la particularité de tirer profit des relations qui peuvent exister entre les événements successifs d’un flux donné. Les dernières années ont témoigné de l’efficacité des RNN de type Long Short-Term Memory (LSTM) (Hochreiter et Schmidhuber, 1997). Ces architectures se distinguent également par une capacité à mieux intégrer les longues séquences.
Traitement automatique du contenu télévisuel
À ce jour, un grand panel de chaînes TV diffusent leurs programmes d’une manière continue. Face à cette grande masse croissante de matière audiovisuelle, des moyens automatisés pour faciliter l’indexation et l’accès à ce contenu sont devenus indispensables. De manière générale, les travaux de recherche dans ce domaine se sont concentrés autour de trois problématiques. En premier lieu, la classification automatique du contenu audiovisuel consiste à attribuer à chaque document une étiquette appartenant, par exemple, à une taxonomie prédéfinie de genres d’émission . Pour ce qui est de la structuration du contenu audiovisuel, cette problématique se compose de deux volets.
Taxonomie des genres télévisuels
La définition des genres dans le contexte de la télévision a été depuis son début conditionnée, non seulement par le format du contenu audiovisuel lui même, mais aussi par l’histoire relative à leur définition dans d’autres contextes. En effet, la télévision a adopté les taxonomies déjà appliquées dans des formes de média plus anciens (radios, journaux) et d’art (films, théâtre et littérature). Ces taxonomies ont été adaptées au contexte de la télévision et ne cessent, depuis, d’évoluer. De nouveaux genres apparaissent, certains genres subissent des « mutations » tandis que d’autres genres trouvent de moins en moins de place dans les grilles de programmes des chaînes TV .
Afin de raffiner la programmation des émissions selon les attentes des téléspectateurs, l’information du genre est capitale (Poli, 2007). En effet, les genres représentent l’unité élémentaire lors de la conception des grilles de programmes qui définissent le style éditorial d’une chaîne. La prise en compte des genres lors de la programmation du flux télévisuel est également nécessaire pour une chaîne donnée afin de maximiser la capacité à concurrencer les autres chaînes. Deux stratégies opposées sont souvent utilisées par les chaînes en concurrence (Benzoni et Bourreau, 2001). La première, le « blunting », consiste à diffuser une émission de genre identique à celui d’une autre émission transmise au même moment dans une chaîne concurrente. La seconde, la « contre-programmation », consiste à proposer une émission d’un genre différent afin de forcer le changement des habitudes des téléspectateurs ou viser un public différent. Par ailleurs, un nombre de chaînes de télévision, appelées chaînes spécialisées ou thématiques, consacrent la totalité de leur temps de diffusion à un nombre restreint de genres. BFM TV, par exemple, diffuse majoritairement des émissions d’actualité ou de débat, tandis que RMC découverte se limite aux documentaires et aux émissions de téléréalité et de réalité scénarisée .
|
Table des matières
1 Introduction
1.1 Contexte général
1.2 L’entreprise EDD
1.3 Traitement de données séquentielles
1.4 Problématique
1.5 Structure du document
I Etat de l’art
2 Traitement automatique du contenu télévisuel
2.1 Introduction
2.2 Taxonomie des genres télévisuels
2.2.1 Taxonomies exhaustives
2.2.2 Taxonomies réduites pour des traitements automatiques
2.3 Classification en genres d’émission
2.4 Structuration du contenu télévisuel
2.4.1 Structuration des flux TV
2.4.2 Segmentation en scènes des émissions TV
2.4.2.a Méthodes génériques
2.4.2.b Méthodes spécifiques au genre d’émission
2.5 Résumé automatique de contenu télévisuel
2.6 Conclusion
3 Apprentissage supervisé pour le traitement de données séquentielles
3.1 Introduction
3.2 Méthodes de classification classiques
3.2.1 Arbres de décision
3.2.2 Classification naïve bayésienne
3.2.3 Méthode des k plus proches voisins
3.2.4 Machines à vecteurs de support
3.3 Modèles adaptés aux séquences
3.3.1 Modèles de Markov cachés (HMM)
3.3.2 Champs aléatoires conditionnels (CRF)
3.3.3 Modèles n-gramme
3.4 Réseaux de neurones pour la modélisation des séquences
3.4.1 Concepts de base
3.4.2 Réseaux de neurones récurrents (RNN)
3.4.3 Long Short-Term Memory (LSTM)
3.4.4 Long Short-Term Memory Bidirectionnels (BLSTM)
3.4.5 Représentations vectorielles de séquences (Sequence Embedding)
3.5 Conclusion
II Contributions
4 Prédiction du genre d’une émission TV : tâche et protocole expérimental
4.1 Introduction
4.2 Description de la tâche
4.3 Taxonomie proposée
4.4 Corpus de données
4.5 Métriques d’évaluation
4.6 Conclusion
5 Classification de séquences provenant d’un seul flux
5.1 Introduction
5.2 Algorithmes de classification classiques
5.3 Modèles adaptés aux séquences
5.4 Utilisation des représentations vectorielles de séquences (SE)
5.5 Utilisation séparée de l’historique des autres chaînes
5.6 Conclusion
6 Classification de séquences au moyen de flux parallèles
6.1 Introduction
6.2 Long Short-Term Memory Parallèles (PLSTM)
6.2.1 Combinaison de séquences parallèles : limites
6.2.2 Formulation théorique
6.2.3 Expériences et résultats
6.2.3.a Modèle n-gramme multiflux
6.2.3.b Approche PLSTM
6.2.3.c Comparaison entre l’approche PLSTM et le modèle ngramme multiflux
6.2.3.d Analyse des classes peu fréquentes
6.3 Représentations vectorielles de séquences parallèles pour une classification SVM (MSE-SVM)
6.3.1 Formulation théorique
6.3.2 Expériences et résultats
6.3.2.a Modèle SVM multiflux
6.3.2.b Approche MSE-SVM
6.3.2.c Comparaison entre les approches MSE-SVM et PLSTM
6.4 Représentations vectorielles de séquences parallèles : ajout d’informations issues du contexte (AMSE-SVM)
6.4.1 Formulation théorique
6.4.2 Expériences et résultats
6.4.2.a Les AMSE unicontextuelles
6.4.2.b Les AMSE bicontextuelles
6.4.2.c Analyse des classes peu fréquentes
6.5 Conclusion
7 Conclusion et perspectives
7.1 Prédiction d’événements au moyen de séquences de données
7.1.1 Séquences provenant d’un seul flux
7.1.2 Séquences parallèles provenant de plusieurs flux
7.2 Perspectives
Liste des illustrations
Liste des tableaux
Bibliographie
Bibliographie personnelle
Annexes
Télécharger le rapport complet