Reconnaissance de la parole dans un contexte de cours magistraux

Reconnaissance de la parole

De nos jours, l’essor technologique et scientifique dans le domaine de la reconnaissance automatique de la parole permet de fournir des Systèmes de Reconnaissance Automatique de la Parole (SRAP) performants dans différentes conditions d’utilisation. Cependant, ces systèmes restent sensibles à la variation de thèmes. En effet, la transcription automatique est encore généralement une séquence de mots restreinte seulement aux mots contenus dans le vocabulaire du SRAP.

Ces transcriptions représentent le matériau d’entrée pour de nombreuses applications telles que le résumé automatique, le dialogue homme-machine, la compréhension de la parole, la traduction de la parole, la détection d’entités nommées, le résumé automatique, la recherche d’informations. Les enjeux sont donc multiples pour la reconnaissance de la parole, puisque le SRAP peut être vu comme un composant d’un système plus important.

Extraction de paramètres

Le signal audio contient plusieurs informations autres que le contenu linguistique tels que l’identité du locuteur, l’émotion du locuteur, la langue adoptée, les conditions d’enregistrement, l’environnement sonore. Un SRAP a pour but d’extraire le contenu linguistique contenu dans le signal audio indépendamment des autres informations. L’extraction de paramètres s’effectue sur une fenêtre glissante à court terme dans laquelle le signal est considéré comme stationnaire, typiquement d’une longueur de 20 à 40 ms, avec un déplacement de 10 ms. En sortie de ce module, le signal est représenté comme une suite de vecteurs de paramètres qui sont appelés vecteurs acoustiques. Les techniques de paramétrisation les plus citées calculent les coefficients :
– MFCC (Mel-Frequency Cepstral Coefficients) (DAVIS et MERMELSTEIN, 1980),
– LPC (Linear Predictive Codes) (ABE, 1992),
– PLP (Perceptual Linear Prediction) (HERMANSKY et COX JR, 1991),
– LPCC (Linear Predictive Cepstral Coefficients) (MARKEL et GRAY, 1982),
– RASTA-PLP (Relative Spectral PLP) (HERMANSKY et al., 1992),
– TRAPS (HERMANSKY et SHARMA, 1999)
– Bottleneck (BN) (GRÉZL et al., 2007; YU et SELTZER, 2011),
– etc

Les réseaux de neurones profonds (DNN/HMM)

Les réseaux de neurones profonds (DNN – Deep Neural Network) ont été utilisés pour la modélisation acoustique depuis quelques années dans les travaux de (BOURLARD et WELLEKENS, 1989; MORGAN et BOURLARD, 1990) en utilisant les perceptrons multicouches (multilayer perceptron MLP). Mais, à cause de la puissance de calcul limitée à cette époque, ces modèles n’étaient pas très performants. Les récents progrès techniques du matériel informatique ont permis de dépasser certaines limitations des premières approches neuronales. Les réseaux neuronaux peu profonds (MLP) ont été remplacés par les architectures neuronales profondes, avec de nombreuses couches cachées, voire des architectures neuronales plus complexes tels que les CNN (LECUN et al., 1990), LSTM, TDNN (PEDDINTI, POVEY et KHUDANPUR, 2015). Beaucoup de travaux ont montré que les modèles acoustiques DNN/HMM obtiennent de meilleures performances en comparaison avec les modèles acoustiques HMM/GMM dans de nombreuses tâches de reconnaissance de la parole (DAHL et al., 2011b; DAHL et al., 2011a; HINTON et al., 2012; YU, DENG et DAHL, 2010; LING, 2019). La couche de sortie du DNN utilise la fonction Softmax pour calculer la probabilité de chaque état j du HMM sachant l’observation ot à l’instant t. Pour une étude détaillée à propos des modèles acoustiques DNN/HMM, il est intéressant de se reporter à (LI et al., 2015).

Dictionnaire de prononciation

Le dictionnaire de prononciation joue un rôle important dans le processus de reconnaissance automatique de la parole en faisant le lien entre la modélisation acoustique et la modélisation linguistique. Il détermine la concaténation des unités de modélisation acoustique (les phonèmes) pour construire les unités lexicales. Un dictionnaire de prononciation fournit des représentations phonémiques pour chaque mot. Un mot peut avoir une ou plusieurs prononciations. Les représentations phonétiques sont renseignées manuellement par des experts ou générées par un système de conversion graphèmes-phonèmes. Citons à titre d’exemple l’outil de conversion graphèmes-phonèmes LIA-PHON proposé par (BÉCHET, 2001) pour le français.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Reconnaissance de la parole
1.1 Introduction
1.2 Transcription automatique de la parole
1.2.1 Principes généraux
1.2.2 Extraction de paramètres
1.2.3 Modèles acoustiques
1.2.3.1 Les mélanges de modèles gaussiens (GMM/HMM)
1.2.3.2 Les réseaux de neurones profonds (DNN/HMM)
1.2.4 Modèles de langage
1.2.5 Dictionnaire de prononciation
1.2.6 Décodage
1.2.7 Sorties des systèmes de reconnaissance de la parole
1.3 Modélisation linguistique
1.3.1 Modèles de langage n-grammes
1.3.2 Techniques de lissage
1.3.3 Modèles de langage n-grammes à base de classes
1.3.4 Modèles de langages neuronaux
1.3.4.1 Modèles de langage feedforward
1.3.4.2 Modèles de langage récurrents
1.3.4.3 Les modèles de langage « Long Short-Term Memory (LSTM) »
1.3.4.4 Les modèles de langage « Gated Recurrent Unit (GRU) »
1.3.4.5 Apprentissage des modèles neuronaux
1.3.5 Évaluation du modèle de langage
1.4 Évaluation d’un système de reconnaissance de la parole
1.5 Conclusion
2 Adaptation des modèles de langage
2.1 Introduction .
2.2 Adaptation des modèles de langage n-grammes
2.2.1 Principe de l’adaptation linguistique des modèles de langage n-grammes
2.2.2 Nature des données d’adaptation
2.2.3 Techniques d’adaptation
2.2.4 Adaptation du vocabulaire
2.3 Adaptation des modèles de langage neuronaux
2.3.1 Adaptation fondée sur les modèles « Model-based adaptation »
2.3.1.1 Réglage fin « Fine-tuning » des modèles
2.3.1.2 Adaptation par couche linéaire cachée (Linear Hidden Layer(LHN))
2.3.2 Adaptation fondée sur des caractéristiques auxiliaires « Feature-based adaptation »
2.4 Conclusion
3 État de l’art : structuration automatique de la transcription
3.1 Introduction
3.2 Les méthodes de segmentation automatique
3.2.1 Les méthodes de segmentation thématique non supervisée
3.2.1.1 Définition de la cohésion lexicale
3.2.1.2 Les techniques de segmentation thématique fondées sur la cohésion lexicale
3.2.2 Les méthodes de segmentation thématique supervisée
3.3 Évaluation de la segmentation thématique
3.3.1 Rappel et précision
3.3.2 Beeferman pk
3.3.3 WindowDiff
3.4 Conclusion
4 Aperçu sur le traitement automatique de la parole dans le contexte de cours magistraux
4.1 Introduction
4.2 Historique des projets en traitement automatique de la parole pour des cours
magistraux
4.3 Problématiques de recherche en éducation
4.4 Reconnaissance de la parole dans le contexte de cours magistraux
4.4.1 Adaptation des modèles de langage dans le contexte de cours magistraux
4.4.2 Évaluation des systèmes de reconnaissance de la parole dans le contexte
de cours magistraux
4.5 Structuration automatique de la transcription dans le contexte de cours magistraux
4.5.1 Structure générale d’un cours
4.5.2 Difficultés de la structuration automatique des cours magistraux
4.5.3 Segmentation thématique dans le cadre de cours magistraux
4.5.4 Alignement du discours de l’enseignant avec les diapositives
4.5.5 Extraction de la structure narrative d’un cours
4.6 Conclusion
Conclusion