Reconnaissance de la paroleย
De nos jours, lโessor technologique et scientifique dans le domaine de la reconnaissance automatique de la parole permet de fournir des Systรจmes de Reconnaissance Automatique de la Parole (SRAP) performants dans diffรฉrentes conditions dโutilisation. Cependant, ces systรจmes restent sensibles ร la variation de thรจmes. En effet, la transcription automatique est encore gรฉnรฉralement une sรฉquence de mots restreinte seulement aux mots contenus dans le vocabulaire du SRAP.
Ces transcriptions reprรฉsentent le matรฉriau dโentrรฉe pour de nombreuses applications telles que le rรฉsumรฉ automatique, le dialogue homme-machine, la comprรฉhension de la parole, la traduction de la parole, la dรฉtection dโentitรฉs nommรฉes, le rรฉsumรฉ automatique, la recherche dโinformations. Les enjeux sont donc multiples pour la reconnaissance de la parole, puisque le SRAP peut รชtre vu comme un composant dโun systรจme plus important.
Extraction de paramรจtresย
Le signal audio contient plusieurs informations autres que le contenu linguistique tels que lโidentitรฉ du locuteur, lโรฉmotion du locuteur, la langue adoptรฉe, les conditions dโenregistrement, lโenvironnement sonore. Un SRAP a pour but dโextraire le contenu linguistique contenu dans le signal audio indรฉpendamment des autres informations. Lโextraction de paramรจtres sโeffectue sur une fenรชtre glissante ร court terme dans laquelle le signal est considรฉrรฉ comme stationnaire, typiquement dโune longueur de 20 ร 40 ms, avec un dรฉplacement de 10 ms. En sortie de ce module, le signal est reprรฉsentรฉ comme une suite de vecteurs de paramรจtres qui sont appelรฉs vecteurs acoustiques.ย Les techniques de paramรฉtrisation les plus citรฉes calculent les coefficients :
– MFCC (Mel-Frequency Cepstral Coefficients) (DAVIS et MERMELSTEIN, 1980),
– LPC (Linear Predictive Codes) (ABE, 1992),
– PLP (Perceptual Linear Prediction) (HERMANSKY et COX JR, 1991),
– LPCC (Linear Predictive Cepstral Coefficients) (MARKEL et GRAY, 1982),
– RASTA-PLP (Relative Spectral PLP) (HERMANSKY et al., 1992),
– TRAPS (HERMANSKY et SHARMA, 1999)
– Bottleneck (BN) (GRรZL et al., 2007; YU et SELTZER, 2011),
– etc
Les rรฉseaux de neurones profonds (DNN/HMM)ย
Les rรฉseaux de neurones profonds (DNN – Deep Neural Network) ont รฉtรฉ utilisรฉs pour la modรฉlisation acoustique depuis quelques annรฉes dans les travaux de (BOURLARD et WELLEKENS, 1989; MORGAN et BOURLARD, 1990) en utilisant les perceptrons multicouches (multilayer perceptron MLP). Mais, ร cause de la puissance de calcul limitรฉe ร cette รฉpoque, ces modรจles nโรฉtaient pas trรจs performants. Les rรฉcents progrรจs techniques du matรฉriel informatique ont permis de dรฉpasser certaines limitations des premiรจres approches neuronales. Les rรฉseaux neuronaux peu profonds (MLP) ont รฉtรฉ remplacรฉs par les architectures neuronales profondes, avec de nombreuses couches cachรฉes, voire des architectures neuronales plus complexes tels que les CNN (LECUN et al., 1990), LSTM, TDNN (PEDDINTI, POVEY et KHUDANPUR, 2015). Beaucoup de travaux ont montrรฉ que les modรจles acoustiques DNN/HMM obtiennent de meilleures performances en comparaison avec les modรจles acoustiques HMM/GMM dans de nombreuses tรขches de reconnaissance de la parole (DAHL et al., 2011b; DAHL et al., 2011a; HINTON et al., 2012; YU, DENG et DAHL, 2010; LING, 2019). ย La couche de sortie du DNN utilise la fonction Softmax pour calculer la probabilitรฉ de chaque รฉtat j du HMM sachant lโobservation ot ร lโinstant t. Pour une รฉtude dรฉtaillรฉe ร propos des modรจles acoustiques DNN/HMM, il est intรฉressant de se reporter ร (LI et al., 2015).
Dictionnaire de prononciation
Le dictionnaire de prononciation joue un rรดle important dans le processus de reconnaissance automatique de la parole en faisant le lien entre la modรฉlisation acoustique et la modรฉlisation linguistique. Il dรฉtermine la concatรฉnation des unitรฉs de modรฉlisation acoustique (les phonรจmes) pour construire les unitรฉs lexicales. Un dictionnaire de prononciation fournit des reprรฉsentations phonรฉmiques pour chaque mot. Un mot peut avoir une ou plusieurs prononciations. Les reprรฉsentations phonรฉtiques sont renseignรฉes manuellement par des experts ou gรฉnรฉrรฉes par un systรจme de conversion graphรจmes-phonรจmes. Citons ร titre dโexemple lโoutil de conversion graphรจmes-phonรจmes LIA-PHON proposรฉ par (BรCHET, 2001) pour le franรงais.
|
Table des matiรจres
Introduction
1 Reconnaissance de la parole
1.1 Introduction
1.2 Transcription automatique de la parole
1.2.1 Principes gรฉnรฉraux
1.2.2 Extraction de paramรจtres
1.2.3 Modรจles acoustiques
1.2.3.1 Les mรฉlanges de modรจles gaussiens (GMM/HMM)
1.2.3.2 Les rรฉseaux de neurones profonds (DNN/HMM)
1.2.4 Modรจles de langage
1.2.5 Dictionnaire de prononciation
1.2.6 Dรฉcodage
1.2.7 Sorties des systรจmes de reconnaissance de la parole
1.3 Modรฉlisation linguistique
1.3.1 Modรจles de langage n-grammes
1.3.2 Techniques de lissage
1.3.3 Modรจles de langage n-grammes ร base de classes
1.3.4 Modรจles de langages neuronaux
1.3.4.1 Modรจles de langage feedforward
1.3.4.2 Modรจles de langage rรฉcurrents
1.3.4.3 Les modรจles de langage ยซย Long Short-Term Memory (LSTM)ย ยป
1.3.4.4 Les modรจles de langage ยซย Gated Recurrent Unit (GRU)ย ยป
1.3.4.5 Apprentissage des modรจles neuronaux
1.3.5 รvaluation du modรจle de langage
1.4 รvaluation dโun systรจme de reconnaissance de la parole
1.5 Conclusion
2 Adaptation des modรจles de langage
2.1 Introduction .
2.2 Adaptation des modรจles de langage n-grammes
2.2.1 Principe de lโadaptation linguistique des modรจles de langage n-grammes
2.2.2 Nature des donnรฉes dโadaptation
2.2.3 Techniques dโadaptation
2.2.4 Adaptation du vocabulaire
2.3 Adaptation des modรจles de langage neuronaux
2.3.1 Adaptation fondรฉe sur les modรจles ยซย Model-based adaptationย ยป
2.3.1.1 Rรฉglage fin ยซย Fine-tuningย ยป des modรจles
2.3.1.2 Adaptation par couche linรฉaire cachรฉe (Linear Hidden Layer(LHN))
2.3.2 Adaptation fondรฉe sur des caractรฉristiques auxiliaires ยซย Feature-based adaptationย ยป
2.4 Conclusion
3 รtat de lโart : structuration automatique de la transcription
3.1 Introduction
3.2 Les mรฉthodes de segmentation automatique
3.2.1 Les mรฉthodes de segmentation thรฉmatique non supervisรฉe
3.2.1.1 Dรฉfinition de la cohรฉsion lexicale
3.2.1.2 Les techniques de segmentation thรฉmatique fondรฉes sur la cohรฉsion lexicale
3.2.2 Les mรฉthodes de segmentation thรฉmatique supervisรฉe
3.3 รvaluation de la segmentation thรฉmatique
3.3.1 Rappel et prรฉcision
3.3.2 Beeferman pk
3.3.3 WindowDiff
3.4 Conclusion
4 Aperรงu sur le traitement automatique de la parole dans le contexte de cours magistraux
4.1 Introduction
4.2 Historique des projets en traitement automatique de la parole pour des cours
magistraux
4.3 Problรฉmatiques de recherche en รฉducation
4.4 Reconnaissance de la parole dans le contexte de cours magistraux
4.4.1 Adaptation des modรจles de langage dans le contexte de cours magistraux
4.4.2 รvaluation des systรจmes de reconnaissance de la parole dans le contexte
de cours magistraux
4.5 Structuration automatique de la transcription dans le contexte de cours magistraux
4.5.1 Structure gรฉnรฉrale dโun cours
4.5.2 Difficultรฉs de la structuration automatique des cours magistraux
4.5.3 Segmentation thรฉmatique dans le cadre de cours magistraux
4.5.4 Alignement du discours de lโenseignant avec les diapositives
4.5.5 Extraction de la structure narrative dโun cours
4.6 Conclusion
Conclusion
Tรฉlรฉcharger le rapport complet