Les réseaux de neurones convolutifs en traitement automatique des langues

Réseaux de neurones profonds

En reconnaissance automatique de la parole statistique, les GMMs et les SGMMs sont souvent utilisés avec des HMMs pour produire la séquence de mots la plus probable. Cependant, des réseaux de neurones artificiels (ANN – Artificial Neural Networks) ont aussi été introduits pour la modélisation acoustique. L’objectif était d’estimer les états HMM à l’aide d’une seule couche cachée non-linéaire. L’apprentissage multi couches n’était pas encore utilisé dans les algorithmes développés à cause de l’absence des machines de calcul puissantes. Les performances obtenues montraient que cette approche neuronale n’était pas efficace par rapport aux GMMs. Aujourd’hui, avec des machines plus performantes et la disponibilité des processeurs graphiques (calcul puissant), Hinton et al. [2012], Seide et al. [2011], Dahl et al. [2012] ont réussit à proposer des méthodes plus efficaces pour la modélisation acoustique en remplaçant les GMMs et les SGMMs par des réseaux de neurones profonds (DNN – Deep Neural Networks).
Comme illustré dans la figure 1.3, l’architecture d’un HMM/DNN est caractérisée par L couches : une couche d’entrée, une suite de couches cachées entièrement connectées ainsi qu’une couche de sortie permettant d’estimer une probabilité pour chaque état HMM pour une observation acoustique.

Dictionnaire de prononciation

Le dictionnaire de prononciation (nommé également dictionnaire de phonétisation) représente un point clef pour l’apprentissage des modèles acoustiques probabilistes. Il a pour objectif d’associer à chaque mot du vocabulaire, la liste des variantes de prononciation possibles sous forme d’unités sonores telles que : des syllabes, des graphèmes ou des phonèmes.
La qualité du dictionnaire a une forte influence sur la qualité du système de reconnaissance automatique de la parole, par exemple, si un mot est mal phonétisé ou absent dans le dictionnaire, le système de RAP peut générer des erreurs au niveau du mot courant qui se propageront aux mots voisins.
Plusieurs approches ont été proposées dans la littérature pour créer des dictionnaires de prononciation. L’approche de phonétisation manuelle par des spécialistes, reste toujours la méthode la plus efficace. Néanmoins, cette approche est coûteuse en temps et ressources et ne peut pas couvrir tout le vocabulaire. Des méthodes automatiques sont généralement utilisées comme une approche complémentaire.
En français, BDLEX [Perennou and Calmes, 1987] est le dictionnaire de prononciation le plus connu et le plus exploité pour l’apprentissage des modèles acoustiques. C’est une ressource payante produite par des experts, contenant 440k formes fléchies (générées à partir de 50k mots). Pour générer des variantes de prononciation automatiquement, Béchet [2001] propose un outil nommé LIA_PHON fondé sur des règles de phonétisation française et transformant les graphèmes en phonèmes.

Dictionnaire de prononciation

Le dictionnaire de prononciation (nommé également dictionnaire de phonétisation) représente un point clef pour l’apprentissage des modèles acoustiques probabilistes. Il a pour objectif d’associer à chaque mot du vocabulaire, la liste des variantes de prononciation possibles sous forme d’unités sonores telles que : des syllabes, des graphèmes ou des phonèmes.
La qualité du dictionnaire a une forte influence sur la qualité du système de reconnaissance automatique de la parole, par exemple, si un mot est mal phonétisé ou absent dans le dictionnaire, le système de RAP peut générer des erreurs au niveau du mot courant qui se propageront aux mots voisins.
Plusieurs approches ont été proposées dans la littérature pour créer des dictionnaires de prononciation. L’approche de phonétisation manuelle par des spécialistes, reste toujours la méthode la plus efficace. Néanmoins, cette approche est coûteuse en temps et ressources et ne peut pas couvrir tout le vocabulaire. Des méthodes automatiques sont généralement utilisées comme une approche complémentaire.
En français, BDLEX [Perennou and Calmes, 1987] est le dictionnaire de prononciation le plus connu et le plus exploité pour l’apprentissage des modèles acoustiques. C’est une ressource payante produite par des experts, contenant 440k formes fléchies (générées à partir de 50k mots). Pour générer des variantes de prononciation automatiquement, Béchet [2001] propose un outil nommé LIA_PHON fondé sur des règles de phonétisation française et transformant les graphèmes en phonèmes.

Kaldi

Kaldi [Povey et al., 2011b] est une boîte à outils destinée aux chercheurs en reconnaissance automatique de la parole, développée en C++, disponible en ligne sous la licence Apache v2.0. Kaldi a mis à disposition des utilisateurs un site web contenant les descriptions détaillées de ses fonctionnalités ainsi qu’un forum pour les contributions scientifiques. De plus, Kaldi propose plusieurs outils, techniques et recettes permettant aux chercheurs d’entraîner différents modèles acoustiques (à l’état de l’art comme les GMM, les SGMM et les DNN, etc) et des décodeursafin de créer rapidement des systèmes de reconnaissance automatique de la parole statistiques. Kaldi inclut également plusieurs méthodes d’adaptation des modèles acoustiques comme : Maximum Likelihood Linear Regression [Leggetter and Woodland, 1995], Constrained Maximum Likelihood Linear Regression [Digalakis and Neumeyer, 1996], Maximum A Posteriori [Gauvain and Lee, 1994] , Speaker Adaptive Training [Anastasakos et al., 1996], etc.
Comme illustré dans la figure 1.4, l’architecture de la boite à outils Kaldi est composée de 4 principaux types de composants : la librairie Kaldi C + + qui se base essentiellement sur des librairies externes optimisées pour l’algèbre linéaire comme BLAS /LAPACK et la librairie OpenFST [Allauzen et al., 2007], des exécutables Kaldi C++ et des scripts Shell permettent de pré-traiter les données, d’apprendre et d’évaluer des systèmes de RAP, de visualiser les graphes, etc. La librairie OpenFST permet à Kaldi d’exploiter les transducteurs à états finis (FST) afin de représenter partiellement les différents modèles acoustiques avec des opérations de graphe, le modèle de langage, le modèle de prononciation, etc. Les transducteurs à états finis font de la tâche de décodage un problème de recherche heuristique dans un graphe.

Introduction

Depuis quelques années, la tâche de reconnaissance automatique de la parole constitue un sujet d’intérêt croissant dans des applications « grand public ». On a vu ainsi émerger les systèmes de RAP dans plusieurs applications d’intelligence artificielle telles que : SIRI 1 , Alexa2, Microsoft Translate 3 , etc. Malgré les avancées spectaculaires dans le domaine, il n’existe toujours pas dans la littérature de système de RAP parfait ou robuste dans toutes conditions. Ainsi, l’évaluation automatique des systèmes est indispensable pour mesurer la fiabilité des transcriptions produites. Comme décrit dans la section 1.7, l’évaluation automatique d’un système de RAP implique une transcription de référence (produite par des experts), une hypothèse de transcription (sortie d’un SRAP) et une métrique d’évaluation (comme le WER). Étant donné que la production d’une transcription de référence est très coûteuse (en temps et ressources), l’estimation automatique et sans référence de la qualité peut être une tâche utile pour déterminer la fiabilité a priori d’une transcription automatique.
Afin d’estimer la qualité des systèmes de reconnaissance automatique de la parole, de nombreux travaux ont proposé d’estimer des mesures de confiance pour détecter les erreurs dans les sorties d’un système de RAP particulier. La tâche de prédiction de performances se présente comme une nouvelle tâche, visant à prédire un taux d’erreur de mots, notamment lorsque le système de RAP est appliqué sur de nouvelles collections de signaux. L’une de ses caractéristiques par rapport à une tâche d’estimation de mesures de confiance est aussi qu’elle peut faire abstraction du fonctionnement interne du système de reconnaissance automatique de la parole.
Nous introduisons dans les sections suivantes les deux tâches d’estimation de qualité des système de reconnaissance automatique de la parole : l’estimation des mesures de confiance et la prédiction de performances.

La prédiction de performances

Prédire la performance d’un système de reconnaissance automatique de la parole sur de nouveaux enregistrements (par exemple de nouveaux types de programmes TV ou radio jamais rencontrés auparavant) est un Graal important de la reconnaissance automatique de la parole, notamment si le système de RAP est inconnu (boîte noire). En effet, cette opération consiste à prédire un score (comme le taux d’erreur de mots) à chaque hypothèse de transcription produite par un système inconnu lorsque les transcriptions références sont indisponibles. Le score prédit reflète la qualité des transcriptions produites par un système de RAP (boîte noire) au niveau d’une granularité pré-définie (mot, phrase, document …).
La tâche de prédiction des performances va au-delà de l’estimation de confiance puisqu’elle ne se concentre ni sur un système de reconnaissance automatique de la parole particulier (ni sur des treillis ou des N-meilleures hypothèses) ni sur la transcription référence (humaine). Elle a pour but, de donner une estimation générale de la difficulté de la tâche de transcription pour un système de RAPinconnu.
Tandis que la tâche d’estimation de confiance est utilisée pour prédire une probabilité (entre 0 et 1) ou une classe (correcte/incorrecte), la tâche de prédiction de performances consiste principalement à prédire un score tel que le taux d’erreur de mots (WER).
Le tableau 2.1 résume les principales différences entre l’estimation des mesures de confiance et la prédiction de performances en termes de : type de traits, type de sortie, la granularité standard (la plus utilisée dans la littérature), méthode d’apprentissage, algorithme d’apprentissage et métrique d’évaluation.

Extraction et apprentissage des traits

Comme décrit dans la figure 3.1, le processus d’extraction et d’apprentissage des traits implique principalement : une grille unidimensionnelle ou multidimensionnelle en entrée du réseau, des couches de convolution pour caractériser l’entrée et une couche de pooling permettant de sous-échantillonner la sortie de la couche de convolution afin de réduire le grand nombre de traits appris.

L’entrée du réseau

Les réseaux de neurones convolutifs sont souvent utilisés lorsque l’entrée est présentée sous forme d’une grille [Goodfellow et al., 2016] : une grille unidimensionnelle 1D pour le traitement d’un signal acoustique brut, une grille bidimensionnelle 2D pour le traitement d’images et le traitement de texte, ou une grille tridimensionnelle 3D pour le traitement de vidéos.
Nous nous intéressons dans cette section à présenter le processus d’adaptation et de transformation d’une séquence de mots ou d’un signal acoustique en une grille à l’entrée d’un réseau de neurones convolutif (convolution 1D).

Modélisation et prédiction

La modélisation est une opération de raisonnement de haut-niveau d’un réseau de neurones convolutif, car elle permet de déterminer le lien entre les représentations apprises et la sortie souhaitée du réseau.
Comme illustré dans la figure 3.8, cette opération est caractérisée par un ensemble de couches cachées entièrement connectées (FC – Fully Connected Layer ) : une couche d’entrée qui correspond aux sorties de la couche de pooling ˆc concaténées, une suite de couches cachées pour la modélisation, ainsi qu’une couche de sortie qui nous permet de prédire une unité spécifique en fonction de la tâche.
Une couche FC est un ensemble de neurones (voir la section 3.2) qui n’ont pas de connexion entre eux, mais chacun des neurones est relié à tous ceux de la couche précédente et suivante. La sortie de chaque neurone peut être considérée par la suite comme une entrée pour la couche suivante en appliquant l’équation 3.2.
La prédiction est la dernière opération d’un réseau de neurones convolutif qui permet de prédire une classe ou une valeur continue en fonction des caractéristiquesapprises selon la tâche visée (classification ou régression).

Conclusion

Dans ce chapitre, nous nous sommes intéressés aux réseaux de neurones convolutifs que nous allons utiliser pour proposer une nouvelle approche de prédiction de performances des systèmes de reconnaissance automatique de la parole. Nous avons présenté tout d’abord le perceptron formel simple. Nous avons décrit ensuite le fonctionnement de base d’un réseau de neurones convolutif simple en détaillant les différents blocs de construction : l’entrée du réseau, l’opération de convolution, l’opération de pooling ainsi que la phase de modélisation et de prédictionpermettant d’adapter la sortie du réseau en fonction de la tâche visée. Nous avonsprésenté enfin le processus d’apprentissage d’un réseau de neurones

Systèmes de reconnaissance de la parole construits

Afin d’obtenir les transcriptions automatiques des corpus TestP red et Train P red pour nos systèmes de prédiction de performances, nous avons construit un système de reconnaissance automatique de la parole hybride HMM-DNN basé sur la boite à outils KALDI [Povey et al., 2011b], en suivant la « recette » standard. Ce système a été appris sur le corpus Train SRAP (100 heures de journaux issus de ESTER, REPERE, ETAPE et Quaero). Pour améliorer la tâche d’apprentissage, les données textuelles ont été normalisées et pré-traitées de la même façon afin d’unifier lesformes et réduire le vocabulaire. Ces données ont été exploitées pour entraîner desmodèles de langage et des modèles acoustiques pertinents.

Processus de pré-traitement

L’opération de pré-traitement des données textuelles est une étape coûteuse en termes de temps et très importante pour obtenir des données exploitables durant l’apprentissage des modèles. Cette opération facilite et améliore la tâche d’entrainement des différents composants du système de reconnaissance automatique de la parole. Nous avons donc effectué une étude sur nos données afin de minimiser la taille du vocabulaire et avoir des formes homogènes et uniformes. Ce pré-traitement consiste à : enlever la casse, convertir les symboles existant dans les liens hypertextes et les adresses mails en lettres, convertir les chiffres romains en lettres, normaliser et convertir les chiffres en lettres, convertir les unités de mesures, convertir les symboles en lettres, transformer les abréviations en mots, segmenter en unités lexicales (tokenisation) et supprimer les ponctuations.
Nous avons aussi sélectionné les 762 2-grammes et 177 3-grammes les plus fréquents (nombre d’occurrences supérieur à 100) de notre corpus Train SRAP pour les considérer comme une seule unité lexicale. De plus, nous avons récupéré la liste des mots composés dans la ressource BDLEX pour les ajouter dans le vocabulairede nos systèmes de RAP.
Le tableau 4.2 présente un exemple d’un tour de parole avant et après le processus de pré traitement.

Modèles acoustiques

Un modèle acoustique HMM-DNN a été construit à l’aide des scripts fournis par la boite à outils KALDI [Povey et al., 2011b]. Ce modèle a été appris sur le corpus Train SRAP qui contient 100 heures de journaux issus de ESTER, REPERE, ETAPE et Quaero. Comme paramètres acoustiques, nous avons utilisé des MFCCs de dimension 13, leurs dérivées premières ∆, leurs dérivées secondes ∆∆ et l’énergie. Une vecteur acoustique de dimension 40 a été obtenue pour chaque trame deparole.
L’apprentissage d’un modèle HMM-DNN avec la boite à outils Kaldi nécessite tout d’abord un modèle acoustique de type HMM-GMM permettant de générerles alignements au niveau des données acoustiques. Comme décrit dans le tableau 4.3, nous avons commencé le processus d’apprentissage par l’entrainement d’un modèle acoustique mono-phone (nommé mono) qui a été utilisé pour effectuer un alignement forcé entre les signaux et les états HMMs en exploitant les transcriptions références de notre corpus Train SRAP . Ensuite, un modèle tri-phone (nommé tri-phone_2a) a été appris respectivement sur les caractéristiques MFCC, ∆ et ∆∆. Une analyse discriminante linéaire (LDA) et une transformation linéaire à vraisemblance maximale (MLLT ) ont été appliquées sur une fenêtre de trames de largeur 7 (3 contextes gauches et 3 droits) et projetées dans un espace de 40 dimensions pour apprendre un modèle acoustique triphone conventionnel nommé Tri-phone_2b (40k Gaussiennes). Ensuite, un modèle dépendant du locuteur (150k Gaussienes) a été appris en appliquant une régression linéaire à maximum de vraisemblance fMLLR aux paramètres acoustiques. Également, un modèle SGMM a été appris (50k gaussienes). Enfin, le dernier modèle obtenu est le modèle HMMDNN (nommé DNN ) qui exploite les réseaux de neurones de type DNN. Le réseau DNN utilisé est composé de 4 couches cachées de taille 1024 et une couche de sortiede 4782 unités en appliquant la fonction Softmax. Le modèle a été appris sur 15époques avec un taux d’apprentissage qui varie entre 0,01 et 0,001.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Introduction générale
I Contexte de travail et état de l’art
1 La reconnaissance automatique de la parole
1.1 Principe
1.2 Extraction des paramètres
1.3 Modélisation acoustique
1.3.1 Modèles de Markov Cachés
1.3.2 Les modèles à mélange de gaussiennes
1.3.3 Les sous-espaces de modèle à mélange de gaussiens
1.3.4 Réseaux de neurones profonds
1.4 Modélisation linguistique
1.5 Dictionnaire de prononciation
1.6 Kaldi
1.7 Évaluation des SRAP
1.8 Conclusion
2 La prédiction de performances
2.1 Introduction
2.2 L’estimation des mesures de confiance
2.3 La prédiction de performances
2.3.1 Principe
2.3.2 Granularité
2.3.3 Évaluation
2.3.4 Travaux connexes
2.4 Conclusion
3 Les réseaux de neurones convolutifs en traitement automatique des langues
3.1 Introduction
3.2 Un neurone formel
3.3 Extraction et apprentissage des traits
3.3.1 L’entrée du réseau
3.3.2 La convolution
3.3.3 Le pooling
3.4 Modélisation et prédiction
3.5 Apprentissage d’un réseau de neurones
3.6 Conclusion
II Contributions
4 Cadre expérimental
4.1 Scénario envisagé
4.2 Corpus
4.3 Métriques d’évaluation
4.4 Systèmes de reconnaissance de la parole construits
4.4.1 Processus de pré-traitement
4.4.2 Modèles acoustiques
4.4.3 Modèles de langage
4.4.4 Dictionnaire de prononciation
4.4.5 Évaluation des systèmes
4.5 Conclusion
5 Implémentation des systèmes de prédiction de performances
5.1 Prédiction basée sur des traits explicites (baseline )
5.2 Prédiction par les réseaux neuronaux convolutifs (CNNs)
5.2.1 Architecture
5.2.2 Expériences
5.2.3 Résultats
5.2.4 Analyse des taux d’erreur de mots prédits
5.3 Conclusion
6 Analyse des facteurs impactant nos systèmes de prédiction de performances
6.1 Effet de la durée et des styles de parole sur la qualité des SPPs
6.1.1 Analyse par durée des tours de parole
6.1.2 Évaluation de l’impact du style de parole sur la qualité des SPPs
6.2 Évaluation de la robustesse des systèmes de prédiction de performances
6.2.1 Impact de la taille du corpus d’apprentissage sur la qualité des SPPs
6.2.2 Effet de la qualité du SRAP ayant généré les données d’apprentissage sur l’apprentissage des SPPs
6.3 Conclusion
7 Évaluation des représentations apprises par le système de prédiction neuronal 93
7.1 Travaux existants
7.2 Méthodologie
7.3 Analyse par classification
7.3.1 Classifieur peu profond pour l’analyse
7.3.2 Données
7.3.3 Résultats
7.4 Analyse par visualisation
7.5 Apprentissage multi-tâche
7.6 Conclusion
8 Conclusion et perspectives
A Annexes

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *