Rรฉcemment, un grand progrรจs a รฉtรฉ rรฉalisรฉ dans le dรฉveloppement dโinnovations technologiques du web. Par exemple, il y a 15 ans, les sites dโinformation nโรฉtaient disponibles quโร travers les pages HTML : du texte, des tableaux, des images. Actuellement, de nombreuses chaรฎnes de tรฉlรฉvision proposent gratuitement ร leurs tรฉlรฉspectateurs des services de rattrapage via leurs sites internet. Cette rediffusion des รฉmissions via le web ne cesse dโaugmenter le nombre de documents disponibles.
Avec lโexplosion du volume de donnรฉes diffusรฉes sur Internet, il est difficile de trouver lโinformation la plus pertinente. La navigation peut alors sโavรฉrer longue et fastidieuse, surtout si lโinformation voulue se trouve dans un document contenant des passages totalement indรฉpendants. En effet, les systรจmes de recherche dโinformation classiques retournent soit des documents pertinents dans leur totalitรฉ, soit aucun si lโinformation cherchรฉe est noyรฉe dans la collection. Il se peut alors que le document retournรฉ ne corresponde pas, dans sa grande majoritรฉ, ร ce qui a รฉtรฉ demandรฉ. Cependant, lโutilisateur cherche ร accรฉder le plus rapidement possible aux parties du document qui lโintรฉressent le plus. Prenons lโexemple du journal dโinformation illustrรฉ dans la figure 1. Si lโutilisateur sโintรฉresse ร ยซ la dรฉclaration du prรฉsident Sarkozy sur la candidature de Nathalie Kosciusko-Morizet ยป ou au ยซ rรฉsumรฉ du match Marseille-PSG ยป, le moteur de recherche devra retourner les extraits correspondants R1 et R2 de lโรฉmission.
Quโest ce quโun thรจme ?
Le thรจme est la notion centrale du travail prรฉsentรฉ dans cette thรจse. Les communautรฉs du traitement de la langue รฉcrite et parlรฉe nโont pas trouvรฉ un consensus car la dรฉfinition dโun thรจme est essentiellement liรฉe au domaine dโapplication et aux rรฉsultats attendus. Nรฉanmoins, nous pouvons considรฉrer que la dรฉfinition dโun thรจme est liรฉe au contenu sรฉmantique dโun document.
La modรฉlisation thรฉmatique (en anglais topic modeling) permet dโextraire les thรจmes saillants dโune collection de documents textuels. Dans ce domaine, la notion dโun thรจme est fortement liรฉe au nombre de thรจmes attendu (Gaussier et Yvon, 2011). Il est possible de dรฉfinir diffรฉrents niveaux de granularitรฉ. Par exemple, nous pouvons mettre en รฉvidence trois niveaux de granularitรฉ : gรฉnรฉrique, spรฉcifique et fine. Ainsi, si le but est de classer les documents selon un premier niveau de domaines reprรฉsentant chacun une trรจs large couverture de documents, les thรจmes seront considรฉrรฉs comme gรฉnรฉriques. Par exemple, Google Actualitรฉs regroupe les articles de presse selon des grands domaines prรฉdรฉfinis manuellement : International, France, Entreprises, Science/Tech, Sports, Culture et Santรฉ. Les thรจmes deviennent spรฉcifiques lorsque lโon souhaite rรฉpartir les documents appartenant ร un mรชme thรจme gรฉnรฉrique en fonction de leur proximitรฉ sรฉmantique. Ainsi, Google Actualitรฉs proposera le thรจme spรฉcifique รlections lรฉgislatives grecques de 2015 pour le thรจme gรฉnรฉrique International et le thรจme spรฉcifique Inondations en Bretagne pour le thรจme France. Le niveau de granularitรฉ dโun thรจme peut encore sโaffiner : le thรจme spรฉcifique Inondations en Bretagne peut contenir (1) Intempรฉries : cinq dรฉpartements en alerte orange inondation, (2) Inondations ร Quimperlรฉ. Habitants inondรฉs, secours et รฉlus excรฉdรฉs , (3) Inondations. Geilenkirchen offre 9.000EUR, etc.
Dans les travaux autour de la segmentation thรฉmatique, (Labadiรฉ, 2008) dรฉfinit un thรจme comme รฉtant lโinformation centrale sur laquelle sโarticule un acte de communication. La structuration thรฉmatique des รฉmissions tรฉlรฉvisรฉes nรฉcessite une dรฉfinition claire dโun thรจme. En effet, sans un prรฉalable accord entre les annotateurs, il est possible dโavoir plusieurs segmentations de rรฉfรฉrence pour une mรชme รฉmission. (Guinaudeau, 2011) considรจre un reportage (รฉventuellement associรฉ ร ses plateaux de lancement et de fin) comme รฉtant un segment thรฉmatique. Si cette dรฉfinition peut sโappliquer pour des journaux tรฉlรฉvisรฉs classiques, la fabrication dโun journal varie dโune chaรฎne ร lโautre et la notion de reportage nโest alors pas toujours suffisante.
Prรฉ-traitements
Par nature, les donnรฉes brutes contiennent plusieurs sources de bruit. Lโรฉtape de prรฉ-traitement de donnรฉes textuelles consiste ร les prรฉparer pour un traitement automatique efficace. Le prรฉ-traitement de donnรฉes est considรฉrรฉ comme une opรฉration prรฉliminaire et primordiale dans plusieurs domaines comme la recherche dโinformation et la segmentation thรฉmatique. Nous rappelons ici deux prรฉ-traitements classiques :
Lemmatisation : les mots dโune langue donnรฉe sont accordรฉs en genre, en nombre et en mode (indicatif, impรฉratif…). Le rรดle dโun lemmatiseur est de ramener le mot ร sa forme canonique (i.e les verbes ร lโinfinitif et les autres mots au masculin singulier). Par exemple, la forme canonique des mots petit, petite, petits et petites est petit. Plusieurs outils de lemmatisation sont disponibles : Lia-taggย , TreeTagger (Schmid, 1994), Macaon (Nasr et al., 2011), etc. Ce processus permet de rรฉduire la taille du vocabulaire, de faire apparaรฎtre la rรฉpรฉtition cachรฉe des mots et par consรฉquent amรฉliore la qualitรฉ du systรจme de segmentation thรฉmatique.
Filtrage des mots outils : dans le langage naturel, pour quโune phrase soit comprรฉhensible, elle doit contenir des noms, adjectifs, verbes, adverbes et des mots fonctionnels. Ces derniers sont des mots non porteurs de sens par rapport ร leurs catรฉgories grammaticales. En franรงais, les mots : le, la, de, du, ce, etc. et les auxiliaires รชtre et avoir sont ainsi prรฉsents dans presque tous les documents, quel que soit le thรจme considรฉrรฉ (Amini et Gaussier, 2013). Dans certains domaines comme la recherche dโinformation et la segmentation thรฉmatique, ces mots sont considรฉrรฉs comme une source de bruit et leur suppression est primordiale. La plupart des algorithmes de segmentation utilisent des stop-listes (Malioutov et Barzilay, 2006), (Choi, 2000) adaptรฉes selon la nature des donnรฉes.
Reprรฉsentation vectorielle dโun document
La reprรฉsentation vectorielle est une phase primordial pour manipuler les documents textuels. Elle consiste ร reprรฉsenter un document sous la forme dโun vecteur de mots. Le processus le plus simple est de compter le nombre dโoccurrences des mots dans les documents et de les reporter dans un vecteur de mots. En segmentation thรฉmatique, la mรฉthode la plus rรฉpondue consiste ร transformer le document en une matrice de taille m ร n oรน m est le nombre dโunitรฉs de baseย considรฉrรฉes et n est la taille du vocabulaire. Lโรฉlรฉment ei,j de la matrice reprรฉsente le nombre dโoccurrences ou le poids du i emeย terme dans la j emeย unitรฉ.
Choix de lโunitรฉ de base
Les systรจmes conรงus pour segmenter un texte standard ((Hearst, 1997), (Choi, 2000), etc.) considรจrent soit un paragraphe ou une phrase comme unitรฉ de base. La notion de phrase ne correspond ร rien lorsque lโon travaille sur des transcriptions automatiques. En effet, les donnรฉes produites par le systรจme de reconnaissance de la parole ne sont pas structurรฉes en phrase ou en paragraphe (elles ne contiennent ni ponctuation, ni majuscule). Dans (Guinaudeau, 2011) et (Claveau et Lefรจvre, 2011) les auteurs utilisent le groupe de souffle de parole comme unitรฉ de base. Un groupe de souffle correspond ร la parole prononcรฉe par un locuteur entre deux respirations (pauses silencieuses).
|
Table des matiรจres
Introduction
I Segmentation thรฉmatique de documents audio
1 รtat de lโart
1.1 Introduction
1.2 Quโest ce quโun thรจme ?
1.3 Notions gรฉnรฉrales
1.3.1 Prรฉ-traitements
1.3.2 Reprรฉsentation vectorielle dโun document
1.3.3 Mesures de similaritรฉ
1.4 Mรฉthodes de segmentation thรฉmatique
1.4.1 Segmentation thรฉmatique basรฉe sur les indices lexicaux
1.4.2 Segmentation thรฉmatique multimodale
1.5 Les corpus de la segmentation thรฉmatique
1.6 Conclusion
2 Protocole expรฉrimental
2.1 Introduction
2.2 Description gรฉnรฉrale des corpus
2.2.1 Construction de corpus
2.2.2 Transcription automatique
2.2.3 Segmentation thรฉmatique de rรฉfรฉrence
2.3 Analyse des corpus
2.3.1 Rรฉpartition des chaรฎnes
2.3.2 Analyse des segments thรฉmatiques
2.3.3 Redondance des mots
2.4 Mรฉtriques dโรฉvaluation
2.4.1 Beeferman pk
2.4.2 WindowDiff
2.4.3 Mesure Rappel/Prรฉcision
2.4.4 Mรฉtriques dโรฉvaluation : CouvN et CouvD
2.4.4.1 Calcul de la couverture entre deux segmentations
2.4.4.2 รvaluation par nombre de segments corrects
2.4.4.3 รvaluation par durรฉe de segments corrects
2.4.4.4 Exemple dโรฉvaluation
2.4.5 Analyse du comportement de la mรฉtrique CouvN
2.4.5.1 Insertion de faux segments
2.4.5.2 Suppression de segments corrects
2.5 Conclusion
3 Systรจme de base et expรฉriences prรฉliminaires
3.1 Introduction
3.2 Approche retenue : pourquoi TextTiling ?
3.3 Reprรฉsentation vectorielle de lโรฉmission
3.3.1 Prรฉ-traitements
3.3.2 Pondรฉration des termes
3.3.3 Reprรฉsentation vectorielle
3.4 Calcul de la cohรฉsion lexicale
3.5 Dรฉtection des frontiรจres
3.5.1 Recherche de frontiรจres candidates
3.5.2 Sรฉlection parmi les frontiรจres candidates
3.6 Validation de la segmentation
3.7 รvaluation et discussion
3.7.1 Taille de la fenรชtre
3.7.2 Impact du regroupement
3.8 Conclusion
II Enrichissement de lโespace vectoriel des documents
4 Pondรฉration intra-document
4.1 Introduction
4.2 Pondรฉration des termes pour la segmentation thรฉmatique
4.2.1 Principe gรฉnรฉral
4.2.2 Importance de la pondรฉration des termes dans la segmentation thรฉmatique
4.3 Deux propositions de pondรฉration intra-document ร base de chunks
4.3.1 Pondรฉration basรฉe sur des informations structurelles
4.3.2 Pondรฉration itรฉrative
4.4 Expรฉriences et Rรฉsultats
4.5 Conclusion
5 De la cohรฉsion lexicale ร la cohรฉsion de la parole
5.1 Introduction
5.2 Introduction dโun nouveau paradigme : la cohรฉsion de la parole
5.2.1 Structuration en locuteurs
5.2.2 Cohรฉsion de la parole
5.3 Intรฉgration de la distribution des locuteurs dans le calcul de la
cohรฉsion lexicale
5.4 Expรฉriences et rรฉsultats
5.4.1 Impact de la cohรฉsion de la parole
5.4.2 Influence de la taille des segments
5.5 Exploitation de lโidentification nommรฉe des locuteurs
5.6 Conclusion
Conclusion
Tรฉlรฉcharger le rapport complet