Segmentation et identification audiovisuelle de personnes dans des journaux télévisés

Identification dans les journaux télévisés : motivations et description de la problématique

Depuis plusieurs dizaines d’années, des chercheurs mettent au point des programmes pour l’extraction automatique d’informations dans des vidéos afin de valoriser des archives audiovisuelles et des collections dont la taille et le nombre augmentent régulièrement. Les technologies impliquées incluent la transcription automatique de la parole, l’indexation du contenu, l’identification des personnes présentes et la catégorisation des types de scènes (reportage, publicité, scènes d’extérieur/intérieur). Ces dernières années, des projets comme QUAERO , AXES [van der Kreeft 2014] et NewsRover [Jou 2013] continuent d’améliorer et de combiner ces différents domaines. Ils proposent des systèmes aidant les utilisateurs à exploiter les archives audiovisuelles pour répondre aux 5 questions décrivant les différentes facettes d’un sujet d’actualité : Qui ? Où ? Quand ? Quoi ? Pourquoi ? À cette fin, le projet GDELT [Kwak 2014] de l’entreprise Google, ambitionne de suivre tous les médias du monde dans presque tous les coins de tous les pays [. . . ] dans plus de 100 langues à chaque moment de chaque jour. Parmi les différentes problématiques liées à ces travaux, cette thèse traite de l’identification des personnes. Ce problème tient une place importante car, dans les sujets d’actualité, les idées et les thèmes peuvent souvent être vues par le prisme de leurs principaux acteurs. De plus, l’accès aux moments d’intervention de chaque personne constitue un moyen d’accès à la structure de la vidéo : une personne correspond généralement à une scène ou un sujet.

L’identification des locuteurs et des visages dans des vidéos peut être supervisée à partir de ressources externes. Est alors appris un modèle biométrique de la personne que l’on souhaite retrouver. Cependant, les ressources nécessaires à un tel apprentissage (exemples annotés manuellement) sont généralement coûteuses à obtenir ce qui limite le nombre de personnes identifiables avec cette stratégie. C’est pourquoi de nombreuses approches utilisent en complémentarité des sources de nommage déjà présentes dans la vidéo. Par exemple, elles extraient automatiquement les noms prononcés ou ceux présents dans les cartouches superposés à l’image qui sont utilisés pour annoncer les locuteurs.

Dans un cas comme dans l’autre, il est nécessaire de détecter les visages et les locuteurs, puis de regrouper les détections qui correspondent à la même personne. Dans le cadre de cette thèse, on considère que la détection est déjà effectuée. Nos travaux se concentrent sur les étapes de regroupement. La reconnaissance du locuteur et celle du visage sont des thématiques de recherche populaires depuis plusieurs dizaines d’années ([Pruzansky 1963, Bledsoe 1966]) mais il existe encore des facteurs de variabilité intra-personnes que même les représentations récentes ont du mal à compenser. La présence et l’importance de ces facteurs varient selon le type de vidéos ; par exemple selon que l’on traite des reportages en extérieur ou des débats en studio. La section suivante présente les corpus et les protocoles d’évaluation utilisés dans nos expériences. Cela permettra en outre d’illustrer la problématique et ses difficultés selon les situations.

Annotations disponibles pour REPERE

Les annotations incluent la transcription manuelle ainsi que l’identité de chaque locuteur. Les visages sont également identifiés sur une image-clé par plan (ou une image-clé toutes les 10 secondes pour une partie du corpus). Ces annotations comportent le nom de la personne et sa position dans l’image. Les instants d’apparition et de disparition de ce visage sont précisés. Les visages d’une taille inférieure à un seuil (une aire d’environ 10000 pixels, la taille du visage étant déterminée visuellement par l’annotateur) n’ont pas été annotés. Les textes apparaissant à l’écran ont aussi été transcrits, notamment celui des cartouches qui contiennent le nom du locuteur courant.

La métrique principale compte les détections des locuteurs et des visages. Sur une image, une personne qui parle et qui apparaît compte pour deux et doit être identifiée dans chaque modalité pour conserver un EGER égal à 0. Il est aussi possible de calculer un EGER séparément pour chaque modalité audio et vidéo ou de l’utiliser pour évaluer la détection des noms écrits.

Il faut aussi noter que les réponses évaluées correspondent à des listes de personnes pour chaque image-clé. Ainsi, il n’y a pas de correspondances spatiales au niveau des visages entre la référence et la sortie automatique. Le nombre de fausses alarmes correspond donc à l’excédent de réponses du système par rapport au nombre de personnes présentes dans la référence, les autres erreurs sont comptées comme des confusions.

La métrique EGER peut être discutée selon plusieurs points de vue.
– L’EGER évalue les réponses du système pour chaque image annotée. Pendant l’évaluation, les systèmes doivent fournir tous les instants où les personnes apparaissent car la position des images annotées est inconnue. Cette détection dense sous-entend un cadre applicatif particulier. Dans d’autres systèmes d’indexation, savoir si la personne est présente ou non dans la vidéo est suffisant.
– La présence d’inconnus (des personnes dont le visage est annoté mais dont l’identité n’a pas été trouvée par l’annotateur) est ignorée par la métrique EGER. Ainsi, les systèmes ne sont pas pénalisés par la non-détection de ces personnes. De plus, nommer un inconnu ne sera pas compté comme une confusion mais comme une fausse alarme.
– L’EGER évalue l’identification des locuteurs par image-clé, c’est à dire de manière discrète. Cependant, ils sont annotés de manière continue. Il serait donc possible de tenir compte précisément de la taille des segments dans l’évaluation. Cependant, comme les visages sont annotés de manière discrète, le choix a été fait de conserver une évaluation discrète des locuteurs afin de garder la cohérence entre les différentes modalités.

Regroupement en locuteur monomodal

Le regroupement en locuteur consiste à annoter tous les instants d’un enregistrement audio avec des étiquettes de classe pour répondre à la question qui parle quand ? Pour atteindre cet objectif, la modélisation du locuteur a donné lieu à de nombreux travaux et le regroupement en locuteur lui-même est un sujet de recherche depuis presque 25 ans [Gish 1991]. Ces travaux se sont attachés à rendre le regroupement robuste à des facteurs qui masquent les informations propres au locuteur comme les bruits de fond ou la parole superposée. Une autre difficulté rencontrée vient des tours de parole courts (d’une durée de quelques secondes) car les modèles statistiques utilisés disposent alors de peu de données pour être appris.

La présence et l’importance de ces facteurs de difficulté diffèrent en fonction du type d’enregistrement. Les approches se sont donc spécialisées par type de données : conversations téléphoniques, émissions de radio/télévision (cadre de cette thèse) et enregistrements de réunions. Les principales différences entre ces 3 situations concernent le nombre de locuteurs, la durée des enregistrements et le degré de spontanéité de la parole. Comparativement aux deux autres cas, les émissions de radio/télévision contiennent d’avantage de locuteurs (souvent plus de 10). Le silence, le bruit et la musique sont aussi plus nombreux. Le degré de spontanéité est variable. Il est faible dans le cas des documentaires et élevé dans les débats où il est du même ordre que celui des réunions.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre 1 Introduction
1.1 Identification dans les journaux télévisés : motivations et description de la problématique
1.2 Présentation du corpus et des métriques
1.2.1 Description des émissions composant le corpus
1.2.2 Métrique pour l’identification : l’EGER
1.2.3 Métriques pour le regroupement : DER, rappel, précision, F-mesure
1.3 Contributions
1.4 Plan de la thèse
Partie I État de l’art
Chapitre 2 Regroupement des visages et des locuteurs
2.1 Regroupement en locuteur monomodal
2.2 Regroupement des visages
2.2.1 Difficultés et état de l’art en représentation des visages
2.2.2 L’intégration du contexte
2.3 Traitement joint des locuteurs et des visages
2.3.1 Association des locuteurs et des visages
2.3.2 Regroupement en locuteur assisté par l’information visuelle
2.3.3 Systèmes de regroupement audiovisuel des personnes
2.4 Conclusions
Chapitre 3 Identification des visages et des locuteurs
3.1 Identification des locuteurs
3.1.1 Sources de nommage non supervisées : transcriptions vs cartouches
3.1.2 Utilisation de la transcription
3.1.3 Utilisation des noms écrits
3.2 Identification des visages
3.2.1 Regroupement contraint par l’information venant des noms
3.2.2 Apprentissage à partir de données faiblement étiquetées
3.2.3 Apprentissage de modèles biométriques de manières non supervisée et utilisation de données externes
3.3 Identification jointe des visages et des locuteurs
3.3.1 Soumissions de la campagne REPERE
3.3.1.1 Regroupement multimodal contraint
3.3.1.2 Compréhension multimodale des scènes
3.3.2 Application de l’identification des locuteurs pour un système d’indexation de l’actualité
3.4 Conclusions
Partie II Contributions : Modèles CRF pour le regroupement et l’identification de personnes dans les journaux télévisés
Chapitre 4 Représentation de visages pour le regroupement
4.1 Description globale de la chaîne de traitement
4.2 Combinaison d’une représentation de visage par un descripteur et un modèle statistique
4.2.1 Comparaison directe de descripteurs locaux
4.2.2 Approche biométrique avec un modèle statistique
4.2.3 Combinaison des deux représentations
4.3 Expériences d’évaluation
4.3.1 Evaluation sur la série Buffy the Vampire Slayer
4.3.2 Evaluation sur les données REPERE
4.4 Conclusions
Chapitre 5 Regroupement joint des visages et des locuteurs
5.1 Modèle de regroupement audiovisuel des personnes
5.1.1 Introduction aux Champs Conditionnels Aléatoires (CRF)
5.1.2 Formulation du modèle pour notre problème
5.1.3 Description des composantes du modèle
5.1.4 Initialisation et optimisation
5.1.5 Entraînement des paramètres λi
5.1.6 Comparaison avec d’autres approches de l’état de l’art
5.2 Expériences pour le regroupement audiovisuel des personnes
5.2.1 Évaluation du module d’association voix/visage
5.2.2 Évaluation du regroupement audiovisuel des personnes
5.3 Conclusions
Chapitre 6 Conclusion