Reconnaissance de la parole dans un contexte de cours magistraux

Reconnaissance de la paroleย 

De nos jours, lโ€™essor technologique et scientifique dans le domaine de la reconnaissance automatique de la parole permet de fournir des Systรจmes de Reconnaissance Automatique de la Parole (SRAP) performants dans diffรฉrentes conditions dโ€™utilisation. Cependant, ces systรจmes restent sensibles ร  la variation de thรจmes. En effet, la transcription automatique est encore gรฉnรฉralement une sรฉquence de mots restreinte seulement aux mots contenus dans le vocabulaire du SRAP.

Ces transcriptions reprรฉsentent le matรฉriau dโ€™entrรฉe pour de nombreuses applications telles que le rรฉsumรฉ automatique, le dialogue homme-machine, la comprรฉhension de la parole, la traduction de la parole, la dรฉtection dโ€™entitรฉs nommรฉes, le rรฉsumรฉ automatique, la recherche dโ€™informations. Les enjeux sont donc multiples pour la reconnaissance de la parole, puisque le SRAP peut รชtre vu comme un composant dโ€™un systรจme plus important.

Extraction de paramรจtresย 

Le signal audio contient plusieurs informations autres que le contenu linguistique tels que lโ€™identitรฉ du locuteur, lโ€™รฉmotion du locuteur, la langue adoptรฉe, les conditions dโ€™enregistrement, lโ€™environnement sonore. Un SRAP a pour but dโ€™extraire le contenu linguistique contenu dans le signal audio indรฉpendamment des autres informations. Lโ€™extraction de paramรจtres sโ€™effectue sur une fenรชtre glissante ร  court terme dans laquelle le signal est considรฉrรฉ comme stationnaire, typiquement dโ€™une longueur de 20 ร  40 ms, avec un dรฉplacement de 10 ms. En sortie de ce module, le signal est reprรฉsentรฉ comme une suite de vecteurs de paramรจtres qui sont appelรฉs vecteurs acoustiques.ย  Les techniques de paramรฉtrisation les plus citรฉes calculent les coefficients :
– MFCC (Mel-Frequency Cepstral Coefficients) (DAVIS et MERMELSTEIN, 1980),
– LPC (Linear Predictive Codes) (ABE, 1992),
– PLP (Perceptual Linear Prediction) (HERMANSKY et COX JR, 1991),
– LPCC (Linear Predictive Cepstral Coefficients) (MARKEL et GRAY, 1982),
– RASTA-PLP (Relative Spectral PLP) (HERMANSKY et al., 1992),
– TRAPS (HERMANSKY et SHARMA, 1999)
– Bottleneck (BN) (GRร‰ZL et al., 2007; YU et SELTZER, 2011),
– etc

Les rรฉseaux de neurones profonds (DNN/HMM)ย 

Les rรฉseaux de neurones profonds (DNN – Deep Neural Network) ont รฉtรฉ utilisรฉs pour la modรฉlisation acoustique depuis quelques annรฉes dans les travaux de (BOURLARD et WELLEKENS, 1989; MORGAN et BOURLARD, 1990) en utilisant les perceptrons multicouches (multilayer perceptron MLP). Mais, ร  cause de la puissance de calcul limitรฉe ร  cette รฉpoque, ces modรจles nโ€™รฉtaient pas trรจs performants. Les rรฉcents progrรจs techniques du matรฉriel informatique ont permis de dรฉpasser certaines limitations des premiรจres approches neuronales. Les rรฉseaux neuronaux peu profonds (MLP) ont รฉtรฉ remplacรฉs par les architectures neuronales profondes, avec de nombreuses couches cachรฉes, voire des architectures neuronales plus complexes tels que les CNN (LECUN et al., 1990), LSTM, TDNN (PEDDINTI, POVEY et KHUDANPUR, 2015). Beaucoup de travaux ont montrรฉ que les modรจles acoustiques DNN/HMM obtiennent de meilleures performances en comparaison avec les modรจles acoustiques HMM/GMM dans de nombreuses tรขches de reconnaissance de la parole (DAHL et al., 2011b; DAHL et al., 2011a; HINTON et al., 2012; YU, DENG et DAHL, 2010; LING, 2019). ย La couche de sortie du DNN utilise la fonction Softmax pour calculer la probabilitรฉ de chaque รฉtat j du HMM sachant lโ€™observation ot ร  lโ€™instant t. Pour une รฉtude dรฉtaillรฉe ร  propos des modรจles acoustiques DNN/HMM, il est intรฉressant de se reporter ร  (LI et al., 2015).

Dictionnaire de prononciation

Le dictionnaire de prononciation joue un rรดle important dans le processus de reconnaissance automatique de la parole en faisant le lien entre la modรฉlisation acoustique et la modรฉlisation linguistique. Il dรฉtermine la concatรฉnation des unitรฉs de modรฉlisation acoustique (les phonรจmes) pour construire les unitรฉs lexicales. Un dictionnaire de prononciation fournit des reprรฉsentations phonรฉmiques pour chaque mot. Un mot peut avoir une ou plusieurs prononciations. Les reprรฉsentations phonรฉtiques sont renseignรฉes manuellement par des experts ou gรฉnรฉrรฉes par un systรจme de conversion graphรจmes-phonรจmes. Citons ร  titre dโ€™exemple lโ€™outil de conversion graphรจmes-phonรจmes LIA-PHON proposรฉ par (Bร‰CHET, 2001) pour le franรงais.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Introduction
1 Reconnaissance de la parole
1.1 Introduction
1.2 Transcription automatique de la parole
1.2.1 Principes gรฉnรฉraux
1.2.2 Extraction de paramรจtres
1.2.3 Modรจles acoustiques
1.2.3.1 Les mรฉlanges de modรจles gaussiens (GMM/HMM)
1.2.3.2 Les rรฉseaux de neurones profonds (DNN/HMM)
1.2.4 Modรจles de langage
1.2.5 Dictionnaire de prononciation
1.2.6 Dรฉcodage
1.2.7 Sorties des systรจmes de reconnaissance de la parole
1.3 Modรฉlisation linguistique
1.3.1 Modรจles de langage n-grammes
1.3.2 Techniques de lissage
1.3.3 Modรจles de langage n-grammes ร  base de classes
1.3.4 Modรจles de langages neuronaux
1.3.4.1 Modรจles de langage feedforward
1.3.4.2 Modรจles de langage rรฉcurrents
1.3.4.3 Les modรจles de langage ยซย Long Short-Term Memory (LSTM)ย ยป
1.3.4.4 Les modรจles de langage ยซย Gated Recurrent Unit (GRU)ย ยป
1.3.4.5 Apprentissage des modรจles neuronaux
1.3.5 ร‰valuation du modรจle de langage
1.4 ร‰valuation dโ€™un systรจme de reconnaissance de la parole
1.5 Conclusion
2 Adaptation des modรจles de langage
2.1 Introduction .
2.2 Adaptation des modรจles de langage n-grammes
2.2.1 Principe de lโ€™adaptation linguistique des modรจles de langage n-grammes
2.2.2 Nature des donnรฉes dโ€™adaptation
2.2.3 Techniques dโ€™adaptation
2.2.4 Adaptation du vocabulaire
2.3 Adaptation des modรจles de langage neuronaux
2.3.1 Adaptation fondรฉe sur les modรจles ยซย Model-based adaptationย ยป
2.3.1.1 Rรฉglage fin ยซย Fine-tuningย ยป des modรจles
2.3.1.2 Adaptation par couche linรฉaire cachรฉe (Linear Hidden Layer(LHN))
2.3.2 Adaptation fondรฉe sur des caractรฉristiques auxiliaires ยซย Feature-based adaptationย ยป
2.4 Conclusion
3 ร‰tat de lโ€™art : structuration automatique de la transcription
3.1 Introduction
3.2 Les mรฉthodes de segmentation automatique
3.2.1 Les mรฉthodes de segmentation thรฉmatique non supervisรฉe
3.2.1.1 Dรฉfinition de la cohรฉsion lexicale
3.2.1.2 Les techniques de segmentation thรฉmatique fondรฉes sur la cohรฉsion lexicale
3.2.2 Les mรฉthodes de segmentation thรฉmatique supervisรฉe
3.3 ร‰valuation de la segmentation thรฉmatique
3.3.1 Rappel et prรฉcision
3.3.2 Beeferman pk
3.3.3 WindowDiff
3.4 Conclusion
4 Aperรงu sur le traitement automatique de la parole dans le contexte de cours magistraux
4.1 Introduction
4.2 Historique des projets en traitement automatique de la parole pour des cours
magistraux
4.3 Problรฉmatiques de recherche en รฉducation
4.4 Reconnaissance de la parole dans le contexte de cours magistraux
4.4.1 Adaptation des modรจles de langage dans le contexte de cours magistraux
4.4.2 ร‰valuation des systรจmes de reconnaissance de la parole dans le contexte
de cours magistraux
4.5 Structuration automatique de la transcription dans le contexte de cours magistraux
4.5.1 Structure gรฉnรฉrale dโ€™un cours
4.5.2 Difficultรฉs de la structuration automatique des cours magistraux
4.5.3 Segmentation thรฉmatique dans le cadre de cours magistraux
4.5.4 Alignement du discours de lโ€™enseignant avec les diapositives
4.5.5 Extraction de la structure narrative dโ€™un cours
4.6 Conclusion
Conclusion

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *