Structuration automatique de documents audio

Rรฉcemment, un grand progrรจs a รฉtรฉ rรฉalisรฉ dans le dรฉveloppement dโ€™innovations technologiques du web. Par exemple, il y a 15 ans, les sites dโ€™information nโ€™รฉtaient disponibles quโ€™ร  travers les pages HTML : du texte, des tableaux, des images. Actuellement, de nombreuses chaรฎnes de tรฉlรฉvision proposent gratuitement ร  leurs tรฉlรฉspectateurs des services de rattrapage via leurs sites internet. Cette rediffusion des รฉmissions via le web ne cesse dโ€™augmenter le nombre de documents disponibles.

Avec lโ€™explosion du volume de donnรฉes diffusรฉes sur Internet, il est difficile de trouver lโ€™information la plus pertinente. La navigation peut alors sโ€™avรฉrer longue et fastidieuse, surtout si lโ€™information voulue se trouve dans un document contenant des passages totalement indรฉpendants. En effet, les systรจmes de recherche dโ€™information classiques retournent soit des documents pertinents dans leur totalitรฉ, soit aucun si lโ€™information cherchรฉe est noyรฉe dans la collection. Il se peut alors que le document retournรฉ ne corresponde pas, dans sa grande majoritรฉ, ร  ce qui a รฉtรฉ demandรฉ. Cependant, lโ€™utilisateur cherche ร  accรฉder le plus rapidement possible aux parties du document qui lโ€™intรฉressent le plus. Prenons lโ€™exemple du journal dโ€™information illustrรฉ dans la figure 1. Si lโ€™utilisateur sโ€™intรฉresse ร  ยซ la dรฉclaration du prรฉsident Sarkozy sur la candidature de Nathalie Kosciusko-Morizet ยป ou au ยซ rรฉsumรฉ du match Marseille-PSG ยป, le moteur de recherche devra retourner les extraits correspondants R1 et R2 de lโ€™รฉmission.

Quโ€™est ce quโ€™un thรจme ?

Le thรจme est la notion centrale du travail prรฉsentรฉ dans cette thรจse. Les communautรฉs du traitement de la langue รฉcrite et parlรฉe nโ€™ont pas trouvรฉ un consensus car la dรฉfinition dโ€™un thรจme est essentiellement liรฉe au domaine dโ€™application et aux rรฉsultats attendus. Nรฉanmoins, nous pouvons considรฉrer que la dรฉfinition dโ€™un thรจme est liรฉe au contenu sรฉmantique dโ€™un document.

La modรฉlisation thรฉmatique (en anglais topic modeling) permet dโ€™extraire les thรจmes saillants dโ€™une collection de documents textuels. Dans ce domaine, la notion dโ€™un thรจme est fortement liรฉe au nombre de thรจmes attendu (Gaussier et Yvon, 2011). Il est possible de dรฉfinir diffรฉrents niveaux de granularitรฉ. Par exemple, nous pouvons mettre en รฉvidence trois niveaux de granularitรฉ : gรฉnรฉrique, spรฉcifique et fine. Ainsi, si le but est de classer les documents selon un premier niveau de domaines reprรฉsentant chacun une trรจs large couverture de documents, les thรจmes seront considรฉrรฉs comme gรฉnรฉriques. Par exemple, Google Actualitรฉs regroupe les articles de presse selon des grands domaines prรฉdรฉfinis manuellement : International, France, Entreprises, Science/Tech, Sports, Culture et Santรฉ. Les thรจmes deviennent spรฉcifiques lorsque lโ€™on souhaite rรฉpartir les documents appartenant ร  un mรชme thรจme gรฉnรฉrique en fonction de leur proximitรฉ sรฉmantique. Ainsi, Google Actualitรฉs proposera le thรจme spรฉcifique ร‰lections lรฉgislatives grecques de 2015 pour le thรจme gรฉnรฉrique International et le thรจme spรฉcifique Inondations en Bretagne pour le thรจme France. Le niveau de granularitรฉ dโ€™un thรจme peut encore sโ€™affiner : le thรจme spรฉcifique Inondations en Bretagne peut contenir (1) Intempรฉries : cinq dรฉpartements en alerte orange inondation, (2) Inondations ร  Quimperlรฉ. Habitants inondรฉs, secours et รฉlus excรฉdรฉs , (3) Inondations. Geilenkirchen offre 9.000EUR, etc.

Dans les travaux autour de la segmentation thรฉmatique, (Labadiรฉ, 2008) dรฉfinit un thรจme comme รฉtant lโ€™information centrale sur laquelle sโ€™articule un acte de communication. La structuration thรฉmatique des รฉmissions tรฉlรฉvisรฉes nรฉcessite une dรฉfinition claire dโ€™un thรจme. En effet, sans un prรฉalable accord entre les annotateurs, il est possible dโ€™avoir plusieurs segmentations de rรฉfรฉrence pour une mรชme รฉmission. (Guinaudeau, 2011) considรจre un reportage (รฉventuellement associรฉ ร  ses plateaux de lancement et de fin) comme รฉtant un segment thรฉmatique. Si cette dรฉfinition peut sโ€™appliquer pour des journaux tรฉlรฉvisรฉs classiques, la fabrication dโ€™un journal varie dโ€™une chaรฎne ร  lโ€™autre et la notion de reportage nโ€™est alors pas toujours suffisante.

Prรฉ-traitements

Par nature, les donnรฉes brutes contiennent plusieurs sources de bruit. Lโ€™รฉtape de prรฉ-traitement de donnรฉes textuelles consiste ร  les prรฉparer pour un traitement automatique efficace. Le prรฉ-traitement de donnรฉes est considรฉrรฉ comme une opรฉration prรฉliminaire et primordiale dans plusieurs domaines comme la recherche dโ€™information et la segmentation thรฉmatique. Nous rappelons ici deux prรฉ-traitements classiques :

Lemmatisation : les mots dโ€™une langue donnรฉe sont accordรฉs en genre, en nombre et en mode (indicatif, impรฉratif…). Le rรดle dโ€™un lemmatiseur est de ramener le mot ร  sa forme canonique (i.e les verbes ร  lโ€™infinitif et les autres mots au masculin singulier). Par exemple, la forme canonique des mots petit, petite, petits et petites est petit. Plusieurs outils de lemmatisation sont disponibles : Lia-taggย  , TreeTagger (Schmid, 1994), Macaon (Nasr et al., 2011), etc. Ce processus permet de rรฉduire la taille du vocabulaire, de faire apparaรฎtre la rรฉpรฉtition cachรฉe des mots et par consรฉquent amรฉliore la qualitรฉ du systรจme de segmentation thรฉmatique.

Filtrage des mots outils : dans le langage naturel, pour quโ€™une phrase soit comprรฉhensible, elle doit contenir des noms, adjectifs, verbes, adverbes et des mots fonctionnels. Ces derniers sont des mots non porteurs de sens par rapport ร  leurs catรฉgories grammaticales. En franรงais, les mots : le, la, de, du, ce, etc. et les auxiliaires รชtre et avoir sont ainsi prรฉsents dans presque tous les documents, quel que soit le thรจme considรฉrรฉ (Amini et Gaussier, 2013). Dans certains domaines comme la recherche dโ€™information et la segmentation thรฉmatique, ces mots sont considรฉrรฉs comme une source de bruit et leur suppression est primordiale. La plupart des algorithmes de segmentation utilisent des stop-listes (Malioutov et Barzilay, 2006), (Choi, 2000) adaptรฉes selon la nature des donnรฉes.

Reprรฉsentation vectorielle dโ€™un document

La reprรฉsentation vectorielle est une phase primordial pour manipuler les documents textuels. Elle consiste ร  reprรฉsenter un document sous la forme dโ€™un vecteur de mots. Le processus le plus simple est de compter le nombre dโ€™occurrences des mots dans les documents et de les reporter dans un vecteur de mots. En segmentation thรฉmatique, la mรฉthode la plus rรฉpondue consiste ร  transformer le document en une matrice de taille m ร— n oรน m est le nombre dโ€™unitรฉs de baseย  considรฉrรฉes et n est la taille du vocabulaire. Lโ€™รฉlรฉment ei,j de la matrice reprรฉsente le nombre dโ€™occurrences ou le poids du i emeย  terme dans la j emeย  unitรฉ.

Choix de lโ€™unitรฉ de base
Les systรจmes conรงus pour segmenter un texte standard ((Hearst, 1997), (Choi, 2000), etc.) considรจrent soit un paragraphe ou une phrase comme unitรฉ de base. La notion de phrase ne correspond ร  rien lorsque lโ€™on travaille sur des transcriptions automatiques. En effet, les donnรฉes produites par le systรจme de reconnaissance de la parole ne sont pas structurรฉes en phrase ou en paragraphe (elles ne contiennent ni ponctuation, ni majuscule). Dans (Guinaudeau, 2011) et (Claveau et Lefรจvre, 2011) les auteurs utilisent le groupe de souffle de parole comme unitรฉ de base. Un groupe de souffle correspond ร  la parole prononcรฉe par un locuteur entre deux respirations (pauses silencieuses).

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Introduction
I Segmentation thรฉmatique de documents audio
1 ร‰tat de lโ€™art
1.1 Introduction
1.2 Quโ€™est ce quโ€™un thรจme ?
1.3 Notions gรฉnรฉrales
1.3.1 Prรฉ-traitements
1.3.2 Reprรฉsentation vectorielle dโ€™un document
1.3.3 Mesures de similaritรฉ
1.4 Mรฉthodes de segmentation thรฉmatique
1.4.1 Segmentation thรฉmatique basรฉe sur les indices lexicaux
1.4.2 Segmentation thรฉmatique multimodale
1.5 Les corpus de la segmentation thรฉmatique
1.6 Conclusion
2 Protocole expรฉrimental
2.1 Introduction
2.2 Description gรฉnรฉrale des corpus
2.2.1 Construction de corpus
2.2.2 Transcription automatique
2.2.3 Segmentation thรฉmatique de rรฉfรฉrence
2.3 Analyse des corpus
2.3.1 Rรฉpartition des chaรฎnes
2.3.2 Analyse des segments thรฉmatiques
2.3.3 Redondance des mots
2.4 Mรฉtriques dโ€™รฉvaluation
2.4.1 Beeferman pk
2.4.2 WindowDiff
2.4.3 Mesure Rappel/Prรฉcision
2.4.4 Mรฉtriques dโ€™รฉvaluation : CouvN et CouvD
2.4.4.1 Calcul de la couverture entre deux segmentations
2.4.4.2 ร‰valuation par nombre de segments corrects
2.4.4.3 ร‰valuation par durรฉe de segments corrects
2.4.4.4 Exemple dโ€™รฉvaluation
2.4.5 Analyse du comportement de la mรฉtrique CouvN
2.4.5.1 Insertion de faux segments
2.4.5.2 Suppression de segments corrects
2.5 Conclusion
3 Systรจme de base et expรฉriences prรฉliminaires
3.1 Introduction
3.2 Approche retenue : pourquoi TextTiling ?
3.3 Reprรฉsentation vectorielle de lโ€™รฉmission
3.3.1 Prรฉ-traitements
3.3.2 Pondรฉration des termes
3.3.3 Reprรฉsentation vectorielle
3.4 Calcul de la cohรฉsion lexicale
3.5 Dรฉtection des frontiรจres
3.5.1 Recherche de frontiรจres candidates
3.5.2 Sรฉlection parmi les frontiรจres candidates
3.6 Validation de la segmentation
3.7 ร‰valuation et discussion
3.7.1 Taille de la fenรชtre
3.7.2 Impact du regroupement
3.8 Conclusion
II Enrichissement de lโ€™espace vectoriel des documents
4 Pondรฉration intra-document
4.1 Introduction
4.2 Pondรฉration des termes pour la segmentation thรฉmatique
4.2.1 Principe gรฉnรฉral
4.2.2 Importance de la pondรฉration des termes dans la segmentation thรฉmatique
4.3 Deux propositions de pondรฉration intra-document ร  base de chunks
4.3.1 Pondรฉration basรฉe sur des informations structurelles
4.3.2 Pondรฉration itรฉrative
4.4 Expรฉriences et Rรฉsultats
4.5 Conclusion
5 De la cohรฉsion lexicale ร  la cohรฉsion de la parole
5.1 Introduction
5.2 Introduction dโ€™un nouveau paradigme : la cohรฉsion de la parole
5.2.1 Structuration en locuteurs
5.2.2 Cohรฉsion de la parole
5.3 Intรฉgration de la distribution des locuteurs dans le calcul de la
cohรฉsion lexicale
5.4 Expรฉriences et rรฉsultats
5.4.1 Impact de la cohรฉsion de la parole
5.4.2 Influence de la taille des segments
5.5 Exploitation de lโ€™identification nommรฉe des locuteurs
5.6 Conclusion
Conclusion

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *