Structuration automatique de documents audio

Récemment, un grand progrès a été réalisé dans le développement d’innovations technologiques du web. Par exemple, il y a 15 ans, les sites d’information n’étaient disponibles qu’à travers les pages HTML : du texte, des tableaux, des images. Actuellement, de nombreuses chaînes de télévision proposent gratuitement à leurs téléspectateurs des services de rattrapage via leurs sites internet. Cette rediffusion des émissions via le web ne cesse d’augmenter le nombre de documents disponibles.

Avec l’explosion du volume de données diffusées sur Internet, il est difficile de trouver l’information la plus pertinente. La navigation peut alors s’avérer longue et fastidieuse, surtout si l’information voulue se trouve dans un document contenant des passages totalement indépendants. En effet, les systèmes de recherche d’information classiques retournent soit des documents pertinents dans leur totalité, soit aucun si l’information cherchée est noyée dans la collection. Il se peut alors que le document retourné ne corresponde pas, dans sa grande majorité, à ce qui a été demandé. Cependant, l’utilisateur cherche à accéder le plus rapidement possible aux parties du document qui l’intéressent le plus. Prenons l’exemple du journal d’information illustré dans la figure 1. Si l’utilisateur s’intéresse à « la déclaration du président Sarkozy sur la candidature de Nathalie Kosciusko-Morizet » ou au « résumé du match Marseille-PSG », le moteur de recherche devra retourner les extraits correspondants R1 et R2 de l’émission.

Qu’est ce qu’un thème ?

Le thème est la notion centrale du travail présenté dans cette thèse. Les communautés du traitement de la langue écrite et parlée n’ont pas trouvé un consensus car la définition d’un thème est essentiellement liée au domaine d’application et aux résultats attendus. Néanmoins, nous pouvons considérer que la définition d’un thème est liée au contenu sémantique d’un document.

La modélisation thématique (en anglais topic modeling) permet d’extraire les thèmes saillants d’une collection de documents textuels. Dans ce domaine, la notion d’un thème est fortement liée au nombre de thèmes attendu (Gaussier et Yvon, 2011). Il est possible de définir différents niveaux de granularité. Par exemple, nous pouvons mettre en évidence trois niveaux de granularité : générique, spécifique et fine. Ainsi, si le but est de classer les documents selon un premier niveau de domaines représentant chacun une très large couverture de documents, les thèmes seront considérés comme génériques. Par exemple, Google Actualités regroupe les articles de presse selon des grands domaines prédéfinis manuellement : International, France, Entreprises, Science/Tech, Sports, Culture et Santé. Les thèmes deviennent spécifiques lorsque l’on souhaite répartir les documents appartenant à un même thème générique en fonction de leur proximité sémantique. Ainsi, Google Actualités proposera le thème spécifique Élections législatives grecques de 2015 pour le thème générique International et le thème spécifique Inondations en Bretagne pour le thème France. Le niveau de granularité d’un thème peut encore s’affiner : le thème spécifique Inondations en Bretagne peut contenir (1) Intempéries : cinq départements en alerte orange inondation, (2) Inondations à Quimperlé. Habitants inondés, secours et élus excédés , (3) Inondations. Geilenkirchen offre 9.000EUR, etc.

Dans les travaux autour de la segmentation thématique, (Labadié, 2008) définit un thème comme étant l’information centrale sur laquelle s’articule un acte de communication. La structuration thématique des émissions télévisées nécessite une définition claire d’un thème. En effet, sans un préalable accord entre les annotateurs, il est possible d’avoir plusieurs segmentations de référence pour une même émission. (Guinaudeau, 2011) considère un reportage (éventuellement associé à ses plateaux de lancement et de fin) comme étant un segment thématique. Si cette définition peut s’appliquer pour des journaux télévisés classiques, la fabrication d’un journal varie d’une chaîne à l’autre et la notion de reportage n’est alors pas toujours suffisante.

Pré-traitements

Par nature, les données brutes contiennent plusieurs sources de bruit. L’étape de pré-traitement de données textuelles consiste à les préparer pour un traitement automatique efficace. Le pré-traitement de données est considéré comme une opération préliminaire et primordiale dans plusieurs domaines comme la recherche d’information et la segmentation thématique. Nous rappelons ici deux pré-traitements classiques :

Lemmatisation : les mots d’une langue donnée sont accordés en genre, en nombre et en mode (indicatif, impératif…). Le rôle d’un lemmatiseur est de ramener le mot à sa forme canonique (i.e les verbes à l’infinitif et les autres mots au masculin singulier). Par exemple, la forme canonique des mots petit, petite, petits et petites est petit. Plusieurs outils de lemmatisation sont disponibles : Lia-tagg , TreeTagger (Schmid, 1994), Macaon (Nasr et al., 2011), etc. Ce processus permet de réduire la taille du vocabulaire, de faire apparaître la répétition cachée des mots et par conséquent améliore la qualité du système de segmentation thématique.

Filtrage des mots outils : dans le langage naturel, pour qu’une phrase soit compréhensible, elle doit contenir des noms, adjectifs, verbes, adverbes et des mots fonctionnels. Ces derniers sont des mots non porteurs de sens par rapport à leurs catégories grammaticales. En français, les mots : le, la, de, du, ce, etc. et les auxiliaires être et avoir sont ainsi présents dans presque tous les documents, quel que soit le thème considéré (Amini et Gaussier, 2013). Dans certains domaines comme la recherche d’information et la segmentation thématique, ces mots sont considérés comme une source de bruit et leur suppression est primordiale. La plupart des algorithmes de segmentation utilisent des stop-listes (Malioutov et Barzilay, 2006), (Choi, 2000) adaptées selon la nature des données.

Représentation vectorielle d’un document

La représentation vectorielle est une phase primordial pour manipuler les documents textuels. Elle consiste à représenter un document sous la forme d’un vecteur de mots. Le processus le plus simple est de compter le nombre d’occurrences des mots dans les documents et de les reporter dans un vecteur de mots. En segmentation thématique, la méthode la plus répondue consiste à transformer le document en une matrice de taille m × n où m est le nombre d’unités de base considérées et n est la taille du vocabulaire. L’élément ei,j de la matrice représente le nombre d’occurrences ou le poids du i eme terme dans la j eme unité.

Choix de l’unité de base
Les systèmes conçus pour segmenter un texte standard ((Hearst, 1997), (Choi, 2000), etc.) considèrent soit un paragraphe ou une phrase comme unité de base. La notion de phrase ne correspond à rien lorsque l’on travaille sur des transcriptions automatiques. En effet, les données produites par le système de reconnaissance de la parole ne sont pas structurées en phrase ou en paragraphe (elles ne contiennent ni ponctuation, ni majuscule). Dans (Guinaudeau, 2011) et (Claveau et Lefèvre, 2011) les auteurs utilisent le groupe de souffle de parole comme unité de base. Un groupe de souffle correspond à la parole prononcée par un locuteur entre deux respirations (pauses silencieuses).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Segmentation thématique de documents audio
1 État de l’art
1.1 Introduction
1.2 Qu’est ce qu’un thème ?
1.3 Notions générales
1.3.1 Pré-traitements
1.3.2 Représentation vectorielle d’un document
1.3.3 Mesures de similarité
1.4 Méthodes de segmentation thématique
1.4.1 Segmentation thématique basée sur les indices lexicaux
1.4.2 Segmentation thématique multimodale
1.5 Les corpus de la segmentation thématique
1.6 Conclusion
2 Protocole expérimental
2.1 Introduction
2.2 Description générale des corpus
2.2.1 Construction de corpus
2.2.2 Transcription automatique
2.2.3 Segmentation thématique de référence
2.3 Analyse des corpus
2.3.1 Répartition des chaînes
2.3.2 Analyse des segments thématiques
2.3.3 Redondance des mots
2.4 Métriques d’évaluation
2.4.1 Beeferman pk
2.4.2 WindowDiff
2.4.3 Mesure Rappel/Précision
2.4.4 Métriques d’évaluation : CouvN et CouvD
2.4.4.1 Calcul de la couverture entre deux segmentations
2.4.4.2 Évaluation par nombre de segments corrects
2.4.4.3 Évaluation par durée de segments corrects
2.4.4.4 Exemple d’évaluation
2.4.5 Analyse du comportement de la métrique CouvN
2.4.5.1 Insertion de faux segments
2.4.5.2 Suppression de segments corrects
2.5 Conclusion
3 Système de base et expériences préliminaires
3.1 Introduction
3.2 Approche retenue : pourquoi TextTiling ?
3.3 Représentation vectorielle de l’émission
3.3.1 Pré-traitements
3.3.2 Pondération des termes
3.3.3 Représentation vectorielle
3.4 Calcul de la cohésion lexicale
3.5 Détection des frontières
3.5.1 Recherche de frontières candidates
3.5.2 Sélection parmi les frontières candidates
3.6 Validation de la segmentation
3.7 Évaluation et discussion
3.7.1 Taille de la fenêtre
3.7.2 Impact du regroupement
3.8 Conclusion
II Enrichissement de l’espace vectoriel des documents
4 Pondération intra-document
4.1 Introduction
4.2 Pondération des termes pour la segmentation thématique
4.2.1 Principe général
4.2.2 Importance de la pondération des termes dans la segmentation thématique
4.3 Deux propositions de pondération intra-document à base de chunks
4.3.1 Pondération basée sur des informations structurelles
4.3.2 Pondération itérative
4.4 Expériences et Résultats
4.5 Conclusion
5 De la cohésion lexicale à la cohésion de la parole
5.1 Introduction
5.2 Introduction d’un nouveau paradigme : la cohésion de la parole
5.2.1 Structuration en locuteurs
5.2.2 Cohésion de la parole
5.3 Intégration de la distribution des locuteurs dans le calcul de la
cohésion lexicale
5.4 Expériences et résultats
5.4.1 Impact de la cohésion de la parole
5.4.2 Influence de la taille des segments
5.5 Exploitation de l’identification nommée des locuteurs
5.6 Conclusion
Conclusion