Variabilités dues à l’environnement et au canal de transmission

Télécharger le fichier pdf d’un mémoire de fin d’études

Redondance des informations contenues dans le signal

La représentation dans le domaine temporel du signal acoustique numérisé est caractérisée par une redondance d’informations qui ne sont pas fondamentalement nécessaires pour reconnaître correctement le message qui a été prononcé.
Outre le message proprement dit, la communication parlée véhicule effectivement de nombreuses autres informations paralinguistiques, comme le sexe du locuteur, son identité, son état de santé, son état émotionnel, etc. Pour un SRAP, ce flux d’informations représente une quantité colossale de données à exploiter. Par exemple, un signal échantillonné à 16 kHz sur 16 bits représente un débit de 256 KBits/s, ce qui implique que le SRAP doit traiter 32000 octets de données par seconde [2].
Pour des raisons de rapidité d’exécution, SRAP cherchera donc à minimiser ce flux important de données en ayant recours à une étape de prétraitement du signal, afin de le débarrasser des informations superflues et inutilespour la reconnaissance d’un message.

Phénomènes de coarticulation

Tout message peut être décomposé en une suite de mots, qui peuvent à leur tour être décrits comme une suite d’unités acoustiques. Celalaisse supposer que la parole est un processus séquentiel, au cours duquel des unités élémentairets indépendantes se succèdent.
Toutefois, les phonéticiens eux-mêmes éprouvent parfois des difficultés à identifier individuellement ces sons caractéristiques du langage dans un signal de parole, même si quelques événements acoustiques particuliers peuvent être tectésdé. La parole est en réalité un continuum sonore, où il n’existe pas de pause perceptible entre les mots qui pourrait faciliter leur localisation automatique par un SRAP En outre, lors de la production d’un message, l’inertie de l’appareil phonatoire et l’anticipation du geste articulatoire influencent la production de chaque son, si bien que la réalisation acoustique d’un son est fortemen perturbée par les sons qui le précèdent mais également par ceux qui le suivent. Ces effets s’étendent sur la durée d’une syllabe, voire même au-delà, et sont amplifiés par un rythme d’élocution outenus. Le choix de l’unité acoustique directement identifiable par un SRAP est alors primordial.
On distingue habituellement trois classes d’unités acoustiques les phonèmes, les unités courtes infra- phonémiques (ou phones) et les unités longues supra- phonémiques »phones, triphones, semi-syllabes, syllabes, mots).
Une unité courte peut être en général mieux identifiée, mais ne possédant pas de statut linguistique particulier, leur concaténation pour former des unités plus longues est problématique. L’utilisation de phonèmes souffre d’une mauvaise modélisation des effets de coarticulation et d’une difficulté pour les localiser. Toutefois leur nombre assez faible facilite la mise en oeuvre du SRAP [2].
En ce qui concerne les unités longues enfin, leur utilisation permet une meilleure modélisation des effets de la coarticulation interne, mais la mise en œuvre du SRAP n’est pas aisée en raison de leur nombre important.

Variabilités inter-locuteurs et intra-locuteur

La variabilité inter-locuteurs, qui est généralement considérée comme étant a priori la plus importante, suggère que la prononciation d’un mêmeénoncé par deux personnes est différente. Les différences physiologiques entre locuteurs de ‘appareil phonatoire, comme la longueur du conduit vocal, la forme et le volume des cavités résonnantes, ou la forme des lèvres, influencent la réalisation acoustique d’un même message. Pour s’en convaincre, il suffit de considérer par exemple les voix d’enfants et d’adultes, qui sont les plus reconnaissables car les caractéristiques de leurs appareils phonatoires sont les plus différenciées. A ces différences physiologiques s’ajoutent les habitudes acquises au sein du milieu social et géographique, comme la vitesse d’élocution, ou les accents régionaux. Dans la figure 2.2, deux locuteurs ont prononcé le même message, le premier avec un débit de parole normale, le second avec un débit de parole rapide.
Ces différences au niveau de la réalisation d’un même message sont clairement observables sur les signaux de parole et sur les spectrogrammes représentés dans la figure.

Variabilité intra-locuteur

La variabilité intra-locuteur identifie les différences dans le signal produit par une même personne. Cette variation peut résulter de l’état physique ou moral du locuteur. Une maladie des voies respiratoires peut ainsi dégrader la qualitédu signal de parole de manière à ce que celui-ci devienne totalement incompréhensible, même pour unêtre humain. L’humeur ou l’émotion du locuteur peut également influencer son rythme d’élocution, son intonation ou sa phraséologie [2].
Il existe un autre type de variabilité intra-locuteur lié à la phase de production de parole ou de préparation à la production de parole. Cette variation est due aux phénomènes de coarticulation. Il est possible de voir la phase de production de la parole comme un compromis entre une minimisation de l’énergie consommée pour produire des sons et une maximisation des scores d’atteinte des cibles que sont les phonèmes tels qu’ils sont théoriquement définis par la phonétique.
Un locuteur adoptera donc un compromis qui est généralement partagé par une vaste majorité de la communauté de langage à laquelle il appartient bien que ce compromis lui soit propre du fait de sa physionomie particulière. Ce compromis peut d’ailleurs être retrouvé à un plus haut niveau avec la notion d’idiolecte. Ce locuteur essaiera, lors d’une phase de production de parole, d’atteindre les buts qui lui sont fixés par les différents éléments de sa phrase tout en conservant un rythme naturel de production de la parole. Les cibles peuvent alors être modifiées du fait d’un certain contexte phonétique. Ce contexte peut êtreantérieur, lorsque le phonème provoquant une modification se trouve avant le phonème considéré,ou postérieur lorsque le phonème perturbateur se trouve après.
La coarticulation peut enfin se produire à l’échelle d’un ou de plusieurs phonèmes adjacents, ce dernier cas étant cependant très rare. La variabilité intra-locuteur est cependant beaucoup plus limitée que la variabilité inter-locuteur que nousallons étudier maintenant. Il est en effet possible, malgré les problèmes énoncés ci-avant, de mettre enoeuvre des systèmes automatiques d’identification du locuteur, à la manière d’une personne reconnaissant une voix familière. Cette capacité est la preuve qu’une certaine constance existe dans la phase de production de la parole par un même individu.

Variabilité inter-locuteur

La variabilité inter-locuteur est un phénomène majeur en reconnaissance de la parole. Comme nous venons de le rappeler, un locuteur reste identifiable par le timbre de sa voix malgré une variabilité qui peut parfois être importante.
La contrepartie de cette possibilité d’identification à la voix d’un individu est l’obligation de donner aux différents sons de la parole une définition assez souple pour établir une classification phonétique commune à plusieurs personnes.
La cause principale des différences inter-locuteursest de nature physiologique. La parole est principalement produite grâce aux cordes vocale s qui génèrent un son à une fréquence de base, le fondamental. Cette fréquence de base sera différente d’un individu à l’autre et plus généralement d’un genre à l’autre, une voix d’homme étant plus grave qu’une voix de femme, la fréquence du fondamental étant plus faible. Ce sonest ensuite transformé par l’intermédiaire du conduit vocal, délimité à ses extrémités par le larynx et les lèvres. Cette transformation, par convolution, permet de générer des sons différentsqui sont regroupés selon les classes que nous avons énoncées précédemment. Or le conduit vocalt esde forme et de longueur variables selon les individus et, plus généralement, selon le genre etl’âge. Ainsi, le conduit vocal féminin adulte est, en moyenne, d’une longueur inférieure de 15% à celui d’un conduit vocal masculin adulte [3].
Le conduit vocal d’un enfant en bas âge est bien sû r inférieur en longueur à celui d’un adulte. Les convolutions possibles seront donc différentes et, le fondamental n’étant pas constant, un même phonème pourra avoir des réalisations acoustiques très différentes. La variabilité inter-locuteur trouve également son origine dans les différences de prononciation qui existent au sein d’une même langue et qui constituent les accents régionaux.
Ces différences s’observeront d’autant plus facilement qu’une communauté de langue occupera un espace géographique très vaste, sans même tenir compte de l’éventuel rayonnement international de cette communauté et donc de la probabilité qu’a la langue d’être utilisée comme seconde ou, pire, troisième langue par un individu de langue maternelle étrangère.
Là aussi, la définition phonétique tout autant qu’une définition stricte d’un vocabulaire ou d’une grammaire peuvent être mises à mal. La variabilité inter-locuteur telle qu’elle vient d’être présentée permet de comprendre aisément pourquoi sleméthodes de reconnaissance des formes fondées sur la quantification de concordances entre une forme à analyser et un ensemble de définitions strictes plus ou moins formelles ne peuvent être appliquées, avec un succès limité, qu’à des applications où le nombre de définitions est restreint, limitant ainsi le nombre des possibles.
D’une manière générale, la définition assez flouedes différents phonèmes ou des différents mots d’une langue est la cause de nombreuses erreurs de classification dans les systèmes de décodage acoustico-phonétique, DAP. Mais la variabilité inter-locuteur, malgré son importance évidente, n’est pas encore la variabilité la plus mportantei car les différences au sein des classes phonétiques sont en nombre restreint.
L’environnement du locuteur est porteur d’une varia bilité beaucoup plus importante, comme nous allons le voir brièvement dans le paragraphe suivant.

Variabilités dues à l’environnement et au canal de transmission

L’absence de bruit de fond est dans la pratique impossible. A moins d’être dans une chambre isolée, n’importe lequel des appareils quenous utilisons émet un bourdonnement qui est la plupart du temps audible et qui génère des parasites dans le signal acoustique. Dans certains cas, ce bruit de fond peut être si élevé qu’il influe rectementdi sur la prononciation du locuteur, le poussant à ralentir son élocution et à augmenter l’intensité sonore de son discours (effet Lombard )[3].
Par ailleurs, le microphone utilisé par le locuteur pour transmettre son message au système possède des caractéristiques spécifiques 4 et peutalors avoir des qualités d’acquisition plus ou moins bonnes de certaines fréquences. L’acquisitionde certaines fréquences peut également être rendue imparfaite selon l’angle et la distance du microphone lors de son utilisation .
Enfin, le canal de transmission (fil, ondes radio, etc.) peut introduire des parasites dans le signal.

Problématique de reconnaissance de la parole

Pour bien appréhender le problème de la reconnaissance automatique de la parole, il est bon d’en comprendre les différents niveaux de complexité et les différents facteurs qui en font un problème difficile.
– Le système doit-il être optimisé pour un uniqueocuteurl ou est-il destiné à devoir se confronter à plusieurs utilisateurs ?
On peut aisément comprendre que les systèmes dépendants d’un seul locuteur sont plus faciles à développer et sont caractérisés par de meilleurs taux de`reconnaissance que les systèmes indépendants du locuteur étant donné que la variabilité du signal de parole est plus limitée. Cette dépendance au locuteur est cependant acquise au prix d’un entraînement spécifique à chaque utilisateur. Ceci n’est néanmoins pas toujours possible. Par exemple, dans le cas d’applications téléphoniques, on comprend bien que les systèmes puissent être utilisés par n’importe qui et donc être indépendants du locuteur. Bien que la méthodologie de case reste la même, cette indépendance au locuteur est obtenue par l’acquisition de nombreux locuteurs (couvrant si possible les différents dialectes) qui sont utilisés simultanément pour l’entraînement de modèles susceptibles d’en extraire toutes les caractéristiques majeures. Une solution intermédiaire parfois utilisée consiste à développer des systèmes capables de s’adapter rapidement (de façon supervisée ou non) au nouveau locuteur.
– Le système reconnaît-il des mots isolés ou de laparole en continue ?
Evidemment, il est plus simple de reconnaître des mots isolés bien séparés par des périodes de silence que la séquence de mots constituant une phrase. En effet, dans ce dernier cas, non seulement la frontière entre les mots n’est plus connue mais les mots deviennent fortement articulés (c’est-à-dire que la prononciation de chaque mot est affectée par le mot qui précède ainsi que par celui qui suit.
Dans le cas de la parole continue, le niveau de complexité varie également selon qu’il s’agisse de texte lu, de texte parlé ou, beaucoup plus difficile, de langage naturel0avec ses hésitations, phrases grammaticalement incorrectes,faux départs, etc.. .
Un autre problème, qui commence à être bien maîtrisé, concerne la reconnaissance de mots clés en parole libre. Dans ce dernier cas, levocabulaire à reconnaître est relativement petit et bien défini mais le locuteur n’est pas contraint deparler en mots isolés. Par exemple, si un utilisateur est invité à répondre par «oui» ou «non», il peut répondre «oui, s’il vous plaît». Dans ce contexte, un problème qui reste particulièrement difficile est le rejet de phrases ne contenant aucun mot clé.
La taille du vocabulaire et son degré de confusionsont également des facteurs importants. Les petits vocabulaires sont plus faciles à reconna ître que les grands vocabulaires, étant donné que dans ce dernier cas, les possibilités de confusion augmentent. Certains petits vocabulaires peuvent cependant s’avérer particulièrement difficiles à traiter ; ceci est le cas, par exemple, pour l’ensemble des lettres de l’alphabet, contenant surtout des mots très courts et proches au niveau acoustique.
– le système est-il robuste ?
Autrement dit, le système est-il capable de fonctionner proprement dans des conditions difficiles ? En effet, de nombreuses variables pouvant affecter significativement les performances des systèmes de reconnaissance ont été identifiées:
bruits d’environnement (dans une rue, un bistrot etc.…)
Déformation de la voix par l’environnement (réverbérations, échos, etc.…) Qualité du matériel utilisé (micro, carte son etc.…)
Bande passante fréquentielle limitée (fréquence limitée d’une ligne téléphonique) Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc.…)
Certains systèmes peuvent être plus robustes que d’autres à l’une ou l’autre de ces perturbations, mais en règle générale, les systèmesde reconnaissance de la parole sont encore sensibles à ces perturbations.

Etapes intervenant dans le processus de reconnaissance

La reconnaissance automatique de la parole peut être interprétée comme une tâche de particulière de reconnaissance de formes [3]. Le principe général de la reconnaissance automatique peut être résumé par la figure 2.3.
Un système de reconnaissance est composé principalement de trois modules:
• un module de traitement acoustique
• un module d’apprentissage
• un moteur de reconnaissance
Tout d’abord, le message vocal, capté par un microphone, est converti en signal numérique. Il est ensuite analysé dans un étage d’analyse acoustique. A l’issue de cette étape, le signal est représenté par des vecteurs de coefficients pertinents pour la modélisation des mots de vocabulaire. Dans l’étape d’apprentissage, on créeun modèle de mot.
A la reconnaissance, un module de classification va mesurer la similarité entre les paramètres acoustiques du signal prononcé et les modèles des mots présents dans la base. En dernier lieu, un module de décision, basé sur une tratégies de décision donnée, fournit la réponse du système. On peut également introduire un module d’adaptation pour augmenter les performances du système de reconnaissance. En ce qui concerne le module de reconnaissance acoustique, nous présenterons les techniques de reconnaissance la plus employée à l’heure actuelle :
• La programmation dynamique
• La modélisation par modèles de Markov.
• Les approches fondées sur les réseaux de neurones
• Des approches hybrides mélangeant modèles de Markov et réseaux de neurones.

Etape de paramétrisation

Le problème de la reconnaissance de la parole est notamment axé sur une classification des divers sons intervenant dans la construction des mots et des phrases.
Depuis de nombreuses années, les recherches ont montré l’importance de l’enveloppe spectrale pour la classification de ces sons. Cette enveloppe spectrale fait apparaître certaines  »bosses » appelées formants résultant des résonances imposées par la configuration du conduit vocal à l’instant considéré. Ces constatations ont guidé l’utilisation de représentations paramétriques du signal dans les systèmes de reconnaissance automatique de la parole.
A partir des échantillons d’une portion de signal considérée comme stationnaire, un module de traitement de signal extrait un nombre réduit de paramètres représentatifs, qui peuvent généralement être assimilés à une représentationmpacteco de l’enveloppe spectrale de la portion considérée. Parmi les méthodes les plus courantes,il convient de citer ici celles basées sur l’utilisation d’un banc de filtres, ainsi que celles utilisant une modélisation autorégressive du signal de parole. Ces deux types de méthodes sont parfoiscombinés [4].
Différents auteurs proposent également d’utiliser ertainsc aspects du fonctionnement de l’oreille, par exemple pour définir les spécifications du banc de filtres. Il est également possible d’aller plus loin encore dans l’utilisation des propriétés physiologiques et psychoacoustiques en effectuant un traitement non linéaire à la sortie des différents filtres de façon à obtenir des paramètres représentant les impulsions transmises ua cerveau par les nerfs auditifs.
Les sections suivantes dressent un aperçu sommaire des méthodes le plus utilisées. Un système de paramétrisation du signal a pour rôle de fournir et d’extraire des informations caractéristiques et pertinentes du signal pour produire une représentation moins redondante de la parole. Le signal analogique est fourni en entrée et une suite discrète de vecteurs, appelée trame acoustique est obtenue en sortie. En reconnaissance de la parole, les paramètres extraits doivent être :
Pertinents: Extraits de mesures suffisamment fines, ils doivent être précis mais leur nombre doit rester raisonnable afin de ne pas avoir de coût de calcul trop important dans le module de décodage.
Discriminants: Ils doivent donner une représentation caractéristique des sons de base et les rendre facilement séparables.
Robustes: Ils ne doivent pas être trop sensibles à des variations de niveau sonore ou à un bruit de fond. La conversion du signal acoustique en séquence de vecteurs d’observation repose sur un modèle régit par un ensemble de paramètres numériques. La paramétrisation du signal de parole consiste à estimer les valeurs des paramètres du modèle permettant l’observation du signal de parole. Il existe de nombreux modèles de parole. On distingue :
Les modèles articulatoires : Ils permettent de réaliser une simulation numériquedu mécanisme de phonation. Les paramètres codent dansce cas la position de la langue, l’ouverture des lèvres,…La paramétrisation fait intervenir des équations de mécanique des fluides.
Les modèles de production: Ils permettent de réaliser une simulation de l’équivalent électrique de l’appareil phonatoire. Cet équivalent est en fait un modèle linéaire simplifié du modèle articulatoire. Dans ce cas, on considère le signal de parole comme étant produit par un ensemble de générateurs et de filtres numériques. Les paramètres calculés sont ceux qui contrôlent ces éléments. On trouvera dans cette catégorie, les codages LPC (Linear Prediction Coding) et AR (AutoRegressive coding).
Les modèles phénoménologiques:Ils cherchent à modéliser le signal indépendammentde la façon dont il a été produit. Les algorithmes associés à la paramétrisation sont issus du traitement du signal. Les modèles basés sur l’analyse de Fourier en sont un exemple. Les coefficients les plus utilisés en reconnaissance de la parole sont certainement les cepstres. Ils peuvent être extraits de deux façons soit par l’analyse paramétrique, à partir d’un modèle de production de type LPC, soit par l’analyse spectrale (modèle phénoménologique).
Dans le premier cas, on parlera de LPCC (Lincar Prediction Cepstral Coefficient) et dans le deuxième de MFCC (Mel Frequency Cepstral Coefficients).

Modèle autorégressif – Analyse LPC 

Le principe du modèle autorégressif du signal de parole est de modéliser le processus phonatoire par un système de synthèse élémentaireomprenantc un module d’excitation à gain variable G, suivi par un filtre tout-pôles d’ordre p (approche LPC:  »Linear Predictive Coding »). Les coefficients du filtre sont considérés constant (hypothèse de quasi-stationnarité) pendant des intervalles de temps réduits de l’ordre de 30 ms.
L’excitation u est soit périodique (train d’impulsions, ou plus généralement signal périodique dont le spectre d’amplitude est un traind’impulsions, ce qui permet de modéliser les déphasages entre les différentes harmoniques), soitstochastique (bruit blanc), et éventuellement mixte, de façon à pouvoir modéliser les sons voisés ainsi que les sons non-voisés. Remarquons que pour le cas des sons purement voisés, l’excitation du système représentera l’action opérée par la vibration des cordes vocales, alors que le filtre représentera l’action du conduit vocal.

Analyse par banc de filtres

Sur base des trames d’analyse, il s’agit ici de calculer les énergies dans un ensemble de bandes de fréquence couvrant l’ensemble du spectre utile.Ce calcul peut être effectué dans le domaine temporel sur base de filtres définissant les différentes bandes de fréquence choisies.
Il peut également être effectué dans le domaine fréquentiel, par exemple à partir de la transformée de Fourier discrète de la trame de signal. Le nombre de filtres sera suffisamment important pour représenter avec précision l’enveloppe spectrale du signal, mais suffisamment réduit pour éviter de représenter des détails spectraux n’ayant que peu d’intérêt pour l’identificatio des sons linguistiques.
En pratique, le nombre de filtres est généralementinférieur à 32.

Divers jeux de paramètres

Sur base de la représentation issue du banc de filtres, il est possible d’effectuer une analyse par prédiction linéaire et d’en déduire divers jeux deparamètres. Il suffit en effet d’effectuer une transformée de Fourier inverse pour obtenir une représentation temporelle, et ensuite utiliser les méthodes citées à la Section 2.7.3. Le calcul de cepstres par cette méthode (Pt(4), figure 2.17) est à la base de l’analyse PLP qui permet de combiner l’intérêt d’un banc de filtres suivant une échelle non-linéaire avec le lissage opéré par le modèle torégressifau. Il est également possible de calculer directement les cepstres par transformée de Fourierinverse du logarithme de la représentation en banc de filtres. Cette méthode (Pt(6). figure 2.17)est à la base de l’approche MFCC.
La représentation issue du banc de filtres (Pt(5) figure 2.17) peut également être utilisée directement. Dans ce travail, elle a été utilisée ansd le cadre de l’approche de reconnaissance multi-bande pour calculer les paramètres représentatifs des différentes bandes de fréquence. Il est également possible de combiner les avantages du banc de filtres non-linéaire avec l’analyse LPC pour obtenir une représentation de type banc de filtres (Pt(3).figure 2.17) [3].

Analyse MFCC ( »Mel Frequency cepstral coefficients  »)

Dans le cadre d’une application de reconnaissance de la parole, seule l’estimation de l’enveloppe spectrale est nécessaire [2][4].
L’extraction de coefficients MFCC est basée sur l’analyse par banc de filtres qui consiste à filtrer le signal par un ensemble de filtres passe-bande. L’énergie en sortie de chaque filtre est attribuée à sa fréquence centrale.
Pour simuler le fonctionnement du système auditif humain, les fréquences centrales sont réparties uniformément sur une échelle perceptivePlus. la fréquence centrale d’un filtre n’est élevée, plus sa bande passante est large. Cela permet d’augmenter la résolution dans les basses fréquences, zone qui contient le plus d’informationutile dans le signal de parole.
Les échelles perceptives les plus utilisées sont échellel’ Mel ou l’échelle Bark Du point de vue performance des systèmes de reconnaissance de la parole, ces deux échelles sont quasiment identiques.

Rasta PLP

La méthode PLP [3][6], dont l’algorithme repose sur des spectres à court terme de la parole, résiste difficilement aux contraintes qui peuvent lui être imposées par la réponse fréquentielle d’un canal de communication.

Paramètres dynamiques- Contexte

Le vecteur de paramètres issus des méthodes précédentes peut être complété par un vecteur correspondant aux dérivées temporelles premières etsecondes de ces paramètres. Ces dérivées sont estimées sur base de plusieurs trames adjacentes [. L’approche permet d’introduire une information concernant le contexte temporel de la trame courante. Une approche plus directe consiste à utiliser plusieurs trames successives en entrée du système de reconnaissance. Cette approche est courante lorsque le système de classification est un réseau de neurones artificiels. Des expériences ont montré un optimum autour de 9 à 15 trames (décalées de 10 ms) pour plusieurs tâches différentes.

Schéma complet d’analyse du signal de parole

La figure 2.17 donne un schéma représentant les méthodes d’analyses classiques. Il fait appel aux modules décrits aux sections précédentes,auxquelles on se référera pour plus de détails et de liens vers d’autres publications. Toutes ces méthodes sont fondamentalement similaires.
Elles visent à extraire des paramètres de structure représentant l’enveloppe spectrale de courtes trames de signal.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Chapitre I Introduction générale
I.1 Historique
I.2 Problématique
I.3 Contribution
I.4 Structure du mémoire
Chapitre II La reconnaissance Automatique de la parole
II.1. Les problèmes de variabilité de la parole
II.1.1. Redondance des informations contenues dans le signal
II.1.2. Phénomènes de coarticulation
II.1.3. Variabilités inter-locuteurs et intra-locuteur
a) Variabilité intra-locuteur
b) Variabilité inter-locuteurs
II.1.4. Variabilités dues à l’environnement et au canal de transmission
II.2. Problématique de reconnaissance de la parole
II.3.Etapes intervenant dans le processus de reconnaissance
II.3.1. Un Module De Traitement Acoustique
II.3.1.1 Etape de mise en forme
a) Numérisation
b) Détection les frontières des mots (début et fin de mot)
c) Pré-accentuation
d) Décomposition en trames et fenêtrage
II.3.1.2 Etape de paramétrisation
II.3.1.3 Modèle autorégressif – Analyse LPC
II.3.1.4 Analyse par banc de filtres
a) Divers jeux de paramètres
b) Analyse MFCC (Mel Frequency cepstral coefficients)
c) Analyse PLP ( »Perceptual. Linear Prediction »)
d) Rasta PLP
II.3.1.5. Paramètres dynamiques- Contexte
II.3.1.6. Schéma complet d’analyse du signal de parole
II.3.2 Phase d’apprentissage
II.3.3 Moteur de reconnaissance
II.4 Conclusion
Chapitre III les Méthodes de la reconnaissance de la parole
III.1 Les systèmes de reconnaissance de la parole
III.1.1 La méthode globale
III.1.2 La méthode analytique
III.2 Techniques statistique probabiliste pour la reconnaissance de la parole (MODELES DE MARKOV CACHES)
III.2.1 Qu’est ce qu’un HMM?
III.2.2 Eléments d’un modèle de Markov caché
III.2.3 Propriétés des HMMs utilisées en RAP
III.2.4 Densité d’observation discrète par quantification vectorielle
III.2.5 Densité d’observation continue
III.2.6 Les trois problèmes des HMM
III.2.6.1 Solution au problème 1 « évaluation de probabilité»
a) Evaluation Par Les Fonctions Forward-Backward
III.2.6.2 Solution au problème 2 : « Décodage »
a) Algorithme de Viterbi
III.2.6.3 Solution au problème 3 : « Apprentissage »
III.2.7 Les différentes structures du modèle de Markov caché
III.3 D’autre techniques pour la reconnaissance de parole
III.3.1 La comparaison dynamique
III.3.2 Les réseaux de neurone
III.3.3 Les systèmes hybride ANN/HMM
III.4 Applications
III.4.1 Les Commandes Vocale
III.4.2 Les Systèmes De Compréhension
III.4.3 Les Systèmes De Dictée Vocale
III.4.4 Domaines connexes
a) Identification de la langue
b) Identification et vérification du locuteur
c) Segmentation en locuteurs ( »Speaker Tracking »)
III.5 Conclusion
Chapitre IV le Modèle d’arbre pour la reconnaissance automatique de la parole
IV.1 Base de données
IV.2 Extraction des caractéristiques (Paramètrisation)
IV.3 Discrétisation des vecteurs
IV.4 Les modèles probabilistes indexés par des arbres
IV.4.1 Formulation du problème
IV.4.2 Le Modèle d’arbre
IV.4.2.1 Apprentissage du modèle
IV.4.2.2 L’inférence
IV.5 Résultat expérimentaux
IV.5.1 Modèle d’arbre et DHMM
IV.5.2 Modèle d’arbre avec une structure arborisant prédéfinit
IV.5.3 discussion et Conclusion
Conclusion générale
Bibliographie
Publication

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *