Le projet EPAC : présentation générale

La transcription et l’annotation du corpus EPAC

Le projet EPAC : présentation générale 

Sélectionné par l’ANR dans le cadre de l’appel à projets 2006 du programme Masse de Données – Connaissances Ambiantes (MDCA), le projet EPAC (Exploration de masse de documents audio pour l’extraction et le traitement de la parole conversationnelle) concerne quatre laboratoires : l’IRIT (Toulouse), le LI (Tours), le LIA (Avignon) et le LIUM (Le Mans, coordinateur). Il a pour but de proposer des méthodes d’extraction d’information et de structuration de documents audio, en mettant l’accent sur le traitement de la parole conversationnelle. Le corpus mis à disposition pour ce projet est constitué d’environ 2000 heures d’enregistrements radiophoniques, dont 1800 proviennent de la campagne ESTER.

Celle-ci s’est déroulée de janvier 2003 à janvier 2005 et avait pour but d’évaluer les systèmes d’indexation automatique d’émissions radiophoniques en français. Menée conjointement par l’AFCP, la DGA, la CTA ainsi que les organismes ELDA et ELRA, la campagne ESTER faisait partie du projet technolangue EVALDA, financé par le Ministère de la Recherche. L’un des objectifs principaux d’ESTER était de produire des corpus qui soient accessibles à l’ensemble de la communauté parole.

Pour réaliser l’ensemble des tâches d’évaluation (transcription, mais également segmentation et extraction d’informations), plus de 2000 heures de données audio ont été mises à la disposition des participants (dont le LIUM). Ces données provenaient de radios comme France Culture, France Info ou France Inter. Concernant la transcription, seule une centaine d’heures a été traitée, ce qui laissait à disposition une masse de données conséquente pour des projets ultérieurs. C’est donc sur ces quelques 2000 heures non transcrites que s’est appuyé le projet EPAC pour mener à bien sa tâche de transcription.

Au sein de ce vaste corpus, la parole conversationnelle / spontanée occupe une place à première vue modeste que nous avons estimée, d’après une évaluation interne, à environ 30%.

Cependant, cette proportion doit être rapportée à la nature des données. ESTER comporte une bonne part de journaux d’informations, c’est-à-dire un mode d’expression fortement contraint tant du point de vue du contenu que de la forme, la parole étant monopolisée par des professionnels. Ainsi, les enregistrements de France Info, qui représentent près de 40% du corpus, ne contiennent par nature pas ou très peu de parole spontanée. Autrement dit, si l’on ne tient pas compte de cette radio, le chiffre passe de 30 à 50%, ce qui est finalement beaucoup, et suppose que la parole spontanée ne se réduit pas aux interviews hors grande écoute de personnes de milieu modeste.

L’un des sous-projets d’EPAC, intitulé « annotation et évaluation », a précisément pour objectif de définir quels enregistrements doivent être considérés comme étant conversationnels, pour ensuite en transcrire une centaine d’heures et ainsi fournir les données nécessaires à l’entraînement, au développement et à l’amélioration de systèmes de reconnaissance automatique de la parole. C’est principalement sur ce sous-projet que nous nous attarderons, non sans avoir préalablement présenté et défini l’ensemble des tâches du projet EPAC.

Sous-projet 1 : Management du projet

Ce premier sous-projet est celui qui assure la coordination générale et le bon déroulement d’EPAC. Les travaux à réaliser sont ainsi plutôt de l’ordre de la communication et de la cohésion entre les quatre partenaires du projet : création d’un site WEB (http://epac.univlemans. fr) et d’une mailing list, gestion des réunions de travail (téléphoniques ou sur site), rédaction des rapports d’avancement du projet… Bien que dépourvues d’enjeu spécifique à proprement parler, ces tâches permettent de jalonner les 36 mois du projet.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Introduction
Chapitre 1 : Parcours de recherche
1.1 Le projet EPAC : présentation générale
1.1.1 Sous-projet 1 : Management du projet
1.1.2 Sous-projet 2 : Extraction de caractéristiques acoustiques de bas niveau
1.1.3 Sous projet 3 : Reconnaissance automatique de la parole conversationnelle
1.1.4 Sous-projet 4 : Identification nommée du locuteur
1.1.5 Sous-projet 5 : Traitement du langage naturel
1.1.6 Sous-projet 6 : Structuration et agrégation
1.1.7 Sous-projet 7 : Annotation et évaluation
1.1.8 Résultats et conséquences attendus
1.2 Autres projets « corpus » similaires
1.2.1 VARILING
1.2.2 RHAPSODIE
1.3 La transcription et l’annotation du corpus EPAC
1.3.1 Introduction
1.3.2 Corpus de transcription
1.3.3 Difficultés liminaires
1.3.4 La parole superposée
1.3.5 De la transcription manuelle à la transcription assistée
1.3.6 Facteurs humains
1.4 Avenir du corpus EPAC
1.4.1 Enrichissement des données pour la communauté Parole
1.4.2 Études lexicales, sémantiques et autres
1.4.2.1 Quelques précisions sur l’annotation du corpus EPAC
1.4.2.2 Études lexicales
1.4.2.3 Études sémantiques
1.4.2.4 Études sur le traitement automatique de la langue
1.5 Autres travaux de transcription ou d’annotation
1.5.1 Transcription d’émissions télévisées
1.5.2 Annotation en frames sémantiques du corpus MEDIA
1.5.3 Segmentation en locuteurs du corpus vidéo LIA GERARD
1.6 Conclusion
Chapitre 2 : La transcription
2.1 Corpus disponibles et conventions existantes
2.1.1 Historique
2.1.2 Inventaire des corpus existants / disponibles
2.1.3 Les conventions de transcription
2.2 Transcription manuelle ou assistée  
2.2.1 Transcription manuelle vs assistée : une étude chiffrée
2.2.1.1 Protocole
2.2.1.2 Principaux résultats
2.2.1.3 Principaux enseignements
2.2.2 Relevé, classement et analyse des principaux types d’erreur de LIUM RT
2.2.2.1 Homonymes / paronymes
2.2.2.2 « e » ouvert / « e » fermé
2.2.2.3 Assimilations
2.2.2.4 Répétitions, faux départs, troncations
2.2.2.5 Autres observations
2.2.3 Perspectives pour optimiser les systèmes de reconnaissance automatique de la parole
Chapitre 3 : Les logiciels d’aide à la transcription
3.1 TRANSCRIBER
3.2 PRAAT
3.3 WINPITCHPRO
3.4 EXMARaLDA
3.5 ELAN
3.6 TRANSANA
3.7 ANVIL
3.8 XTRANS
3.9 Conclusion
Chapitre 4 : Le codage
4.1 Quelques généralités
4.2 La TEI
4.2.1 Introduction
4.2.2 SGML : un langage de balisage
4.2.3 XML : le SGML simplifié
4.2.4 La TEI : un codage fait pour les corpus oraux
4.2.4.1 La TEI en quelques balises
4.2.4.2 Le codage de la parole selon la TEI
4.3 Conclusion
Chapitre 5 : La parole spontanée
5.1 La parole spontanée : des chiffres pour établir une théorie  
5.1.1 Protocole
5.1.2 Résultats généraux
5.1.3 Résultats détaillés
5.2 La parole spontanée : approches et analyses croisées
5.2.1 La morpho-syntaxe
5.2.1.1 L’élision
5.2.1.2 La troncation
5.2.1.3 Le faux départ
5.2.1.4 La répétition
5.2.1.5 Les constructions interrogatives
5.2.2 L’énonciation
5.2.3 Le lexique
5.2.3.1 euh
5.2.3.2 ben
5.2.4 La phonétique et la phonologie
5.2.4.1 Le schwa
5.2.4.2 L’élision du schwa et les assimilations
5.2.5 La prosodie
5.2.5.1 La fréquence fondamentale de la voix (F0
5.2.5.2 L’intensité
5.2.5.3 La durée
5.2.5.4 La pause
5.2.6 La reconnaissance automatique de la parole
5.3 Les disfluences : un critère réellement discriminant  
5.3.1 Protocole
5.3.2 Résultats généraux
5.3.3 Résultats détaillés
5.4 La parole spontanée et l’interaction
5.4.1 Analyse générale des résultats
5.4.2 Radio / télévision : une seule parole spontanée ? L’exemple du débat
5.4.3 Sous les étoiles exactement : un bon exemple de variation interactionnelle
5.5 Conclusion
Conclusion générale et perspectives
Bibliographie personnelle
Bibliographie

Le projet EPAC : présentation généraleTélécharger le rapport complet 

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *