La reconnaissance automatique de la parole

Il fut un temps, pas si lointain, où l’ordinateur était un outil de spécialistes. L’emploi de l’informatique restait très spécifique et répondait à des tâches très précises: commandes de machines, télécommunications, calcul intensif… Pour réaliser ces travaux spécialisés, l’utilisateur communiquait avec son calculateur par d’incompréhensibles cartes perforées ou d’interminables lignes de commandes saisies sur un clavier. Ces moyens de communication sommaires convenaient parfaitement à une utilisation professionnelle mais rendaient l’ordinateur inaccessible à des utilisateurs novices ou occasionnels.

L’apparition et le développement massif de systèmes informatiques dans de nombreuses professions et dans la vie quotidienne ont obligé les ingénieurs à repenser cet état de fait: alors que, jusqu’à présent, l’homme se pliait aux exigences de la machine, il fallait maintenant que la machine s’adaptât à l’homme. Les systèmes Macintosh ont révolutionné la communication entre l’utilisateur et l’ordinateur en créant une interface plus adaptée, à partir d’icônes et de menus déroulants. Parallèlement, divers moyens de communication comme la souris, le crayon optique, le joystick, l’écran tactile, le son, ont permis de faciliter l’interaction avec les machines. Une étape a été franchie comme le prouve la multiplication des ordinateurs personnels dans les foyers. Mais ce développement reste cantonné à l’ordinateur individuel et touche très peu d’autres systèmes comme, par exemple, les bornes de renseignements, la commande de matériel audiovisuel, l’aide aux handicapés… Cela signifie que la communication homme-machine reste encore inadaptée car trop éloignée d’une communication simple et naturelle pour l’être humain.

De façon indéniable, la parole est le meilleur moyen d’expression que l’être humain possède. Aussi, de plus en plus, l’importance d’un dialogue homme-machine dans un langage oral le plus naturel possible devient grandissante au point de paraître maintenant indispensable à la mise en place de systèmes d’information accessibles à tous. Le mythe du « robot intelligent » parlant et comprenant fait surface. Cependant, le rêve ne doit pas faire oublier la réalité: l’utilisation de la parole dans la communication homme machine doit faire l’objet d’une étude très précise pour évaluer si le contrôle vocal apporte véritablement un meilleur confort d’utilisation ou un accroissement des performances. Il s’agit de se poser la question suivante: « de la parole, quand et pour quoi faire ? ». Cette interrogation est nécessaire afin d’éviter de tomber dans la situation absurde où des équipes de recherche mettent au point des systèmes de synthèse et de reconnaissance de la parole puis cherchent, dans un second temps, des applications. Ces situations sont bien souvent décevantes car les réalisations se révèlent vite inadaptées à une utilisation réelle. Cette réflexion est d’autant plus importante dans la mesure où, aujourd’hui, aucune machine n’est encore apte à gérer et à comprendre un dialogue naturel: il faut donc se contenter de voix désagréables, de dialogues contraints de type questionréponse ou de menus dirigés. Il ne faut toutefois pas perdre espoir et penser qu’un jour viendra où nous pourrons dialoguer avec une machine en lui posant directement nos questions de façon spontanée. Tel est l’un des objectifs des industries de la langue et plus précisément du secteur de la reconnaissance automatique de la parole (R.A.P.).

LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE

« Lorsqu’on considère un sujet nouveau, on a fréquemment tendance à, tout d’abord surestimer ce qui paraît déjà intéressant ou remarquable, et ensuite, par une sorte de réaction naturelle, à sous-estimer l’état réel de la situation quand nous découvrons que nos idées ont dépassé celles qui étaient réellement réalisables. » Comtesse Ada Lovelace .

La Reconnaissance Automatique de la Parole (R.A.P.) consiste à identifier, par des moyens informatiques, ce qui est dit par un locuteur humain. C’est une activité prometteuse par ses multiples applications possibles: commande vocale de machines, saisie de données, sécurité, interface homme-machine, aide aux handicapés, apprentissage assisté par ordinateur… Ces technologies sont encore peu développées car l’opération de reconnaissance automatique de la parole par les machines s’avère difficile du fait des caractéristiques humaines du signal de parole. Les trois principales difficultés sont la diversité des informations (acoustique, lexique, syntaxe, émotions, appartenance sociale…), la continuité de l’information acoustique et la grande variabilité du signal de parole. Du fait de ces difficultés, la R.A.P. ne fonctionne actuellement que dans des situations contraintes où une partie des obstacles est supprimée: mots isolés, locuteur unique, élocution non spontanée…

L’opération de décodage s’effectue généralement par étapes. Après acquisition du signal de parole, il est nécessaire d’extraire une information pertinente, opération réalisée par calcul de paramètres acoustiques (énergie, coefficients spectraux, cepstraux…). Après une phase facultative d’analyse temporelle dite de «segmentation », l’étape d’identification proprement dite intervient. Pour cela, il existe diverses techniques: globales ou analytiques. Dans les méthodes globales, des processus algorithmiques opèrent une comparaison entre l’information extraite du signal à reconnaître et celle stockée dans des archives préalablement établies. Ces archives peuvent être des modèles (modèles de Markov), des réseaux (réseaux neuro-mimétiques) ou des prototypes. Une mesure de distance permet de proposer une solution correspondant à l’archive la plus proche. Dans les méthodes analytiques, le savoir d’expert est formalisé sous forme de règles qui agissent sur des informations a priori pertinentes. Actuellement, les techniques stochastiques (modèles de Markov) affichent des performances supérieures qui commencent à plafonner. Ces méthodes semblent insuffisantes pour résoudre, seules, la tâche complexe de décodage de la parole continue multilocuteurs.

Un secteur d’activité des industries de la langue

Les nombreuses recherches effectuées dans le domaine de la reconnaissance automatique de la parole sont intégrées dans une vaste branche d’activité scientifique et économique, celle des industries « de la langue ».

Les industries de la langue

D’après (Carré et al., 1991, p.10), le terme industries de la langue désigne «l’ensemble des activités qui visent à faire manipuler, interpréter ou générer par des machines le langage naturel écrit ou parlé par les humains». Parmi les activités technologiques développées dans ce cadre, on distingue généralement le traitement des langues naturelles – ou encore linguistique computationnelle – au secteur du traitement de la parole (Figure 1). Si le premier domaine aborde la langue dans son aspect exclusivement abstrait, le second prend en compte sa réalisation physique, et notamment les phénomènes acoustico-phonétiques qui caractérisent la parole. A l’aube des années 90, la part de marché des industries de la langue était estimée en France à environ 320 millions de francs dont un quart relevait du traitement de la parole (Source: ministère de la recherche et de la technologie). Ce marché reste encore très étroit si l’on considère que cette somme représente à peine le chiffre d’affaire d’une société de service en informatique d’environ 300 salariés (Carré et al., 1991).

Les principaux débouchés de la linguistique computationnelle consistent à automatiser des traitements effectués sur la langue écrite: dictionnaire électronique, traduction, contraction de texte, vérification orthographique, correction grammaticale… L’interrogation de bases de données et de documents restent toutefois l’activité la plus importante. Le domaine du traitement de la parole – ou encore technologies vocales – est lui aussi multi-sectoriel. On distingue ainsi trois activités majeures:
● la synthèse de la parole, qui consiste à créer artificiellement une voix.
● le codage et la compression de la parole, qui touchent surtout le domaine de la transmission.
● la reconnaissance automatique, qui concernent deux aspects distincts:
➤ la reconnaissance du locuteur, qui consiste à identifier ou authentifier une personne par sa voix.
➤ la reconnaissance automatique de la parole (R.A.P.), qui a pour but d’identifier ce qui est dit par un locuteur humain.

Dans notre cas, nous nous intéressons au dernier thème, celui de la reconnaissance automatique de la parole (R.A.P.).

Les applications de la reconnaissance automatique de la parole

Pour imaginer les applications possibles de la reconnaissance automatique de la parole (R.A.P.), penchons-nous tout d’abord sur les propriétés de la communication orale.

P1/ La parole est un moyen de communication rapide (2 à 4 mots/sec) par rapport à un clavier (1 mot/sec), à l’écriture manuscrite (0.4 mot/sec) ou à un menu à touches comme dans une interrogation à distance par téléphone (0.3 mot /sec) (Baudry, 1985).

P2/ La parole est un canal de communication fonctionnant en parallèle avec les sens naturels (vision, toucher…) et peut être ainsi utilisée en remplacement si ces derniers sont handicapés ou en complément si ils sont occupés.

P3/ L’émission et la réception du message oral sont omnidirectionnels: les personnes et systèmes concernés dans la communication ne sont pas obligatoirement proches et fixes. Ce n’est pas le cas, par exemple, dans un dialogue classique homme-ordinateur où l’utilisateur est fixé devant un clavier et un écran.

P4/ L’usage de la parole est spontané et naturel.

P5/ L’équipement terminal d’entrée pour la parole (le microphone) reste simple comparé à un clavier, un écran tactile, un ensemble de boutons poussoirs…

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
I. LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
I.1. UN SECTEUR D’ACTIVITE DES INDUSTRIES DE LA LANGUE
I.1.A. Les industries de la langue
I.1.B. Les applications de la reconnaissance automatique de la parole
I.2. LES PRINCIPES DE LA RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
I.2.A. Le rôle d’un système de reconnaissance automatique de la parole
I.2.B. La reconnaissance automatique de la parole dans la communication homme-machine
I.2.C. Les questions préalables
I.2.D. Les difficultés en reconnaissance automatique de la parole
I.3. LA REALISATION DE SYSTEMES DE RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
I.3.A. Les différentes phases dans la reconnaissance automatique de la parole
I.3.B. Les différents systèmes de reconnaissance automatique de la parole
I.3.C. Les différentes approches
I.3.D. Les différentes stratégies
I.4. L’ETAT DES CONNAISSANCES EN RECONNAISSANCE AUTOMATIQUE DE LA PAROLE
I.4.A. Historique des travaux effectués en reconnaissance automatique de la parole
I.4.B. Etat actuel en reconnaissance automatique de la parole
I.5. NOTRE APPROCHE
II. CONNAITRE LA PAROLE POUR MIEUX LA TRAITER
II.1. A LA RECHERCHE DE L’INFORMATION
II.1.A. La communication
II.1.B. Parole et information d’un point de vue qualitatif
II.1.C. Parole et information d’un point de vue quantitatif
II.1.D. Parole et information d’un point de vue « cognitif »
II.2. LA PHYSIOLOGIE DE LA PAROLE
II.2.A. La production de la parole
II.2.B. L’audition
II.3. LA PHYSIQUE DE LA PAROLE
II.3.A. L’aspect acoustique de la parole
II.3.B. L’acquisition de la parole
II.4. LA PHONETIQUE ET LE TRAITEMENT DE LA PAROLE
II.4.A. Phonétique et phonologie
II.4.B. Le phonème
II.4.C. L’utilisation de règles phonologiques
II.4.D. Les traits phonétiques
II.4.E. L’utilisation des traits en décodage acoustico-phonétique
III. UNE ANALYSE SPECTRALE FONDEE SUR UN MODELE AUDITIF
III.1. UN MODELE AUDITIF
III.1.A. De l’intérêt de l’utilisation de modèles auditifs en reconnaissance automatique de la parole
III.1.B. La pondération sonique
III.1.C. Les bandes critiques
III.2. L’ANALYSE SPECTRALE PAR VOCODEUR
III.2.A. De l’utilité du vocodeur
III.2.B. La Transformée de Fourier
III.2.C. La Transformée de Fourier à Court Terme
III.2.D. Les Transformée de Fourier Discrète (T.F.D.)
III.2.E. Le Transformée de Fourier Rapide ou Fast Fourier Transform (F.F.T.)
III.2.F. Bilan sur la Transformée de Fourier
III.2.G. Transformée de Fourier Discrète vs Ondelettes
III.3. « CRITIVOC » : UN VOCODEUR EN BANDES CRITIQUES
III.3.A. Les étapes de la réalisation du vocodeur à bandes critiques
III.3.B. La sortie de « CritiVoc »
III.3.C. L’utilisation de « CritiVoc »
III.4. LA METHODE DE PREDICTION LINEAIRE FONDEE SUR UN MODELE AUDITIF
III.4.A. Les étapes de l’extraction de coefficients P.L.P
III.4.B. Le spectre auditif
III.4.C. Le modèle à pôles
IV. LE SYSTEME « ACHILE »
IV.1. LA PHILOSOPHIE DU SYSTEME
IV.1.A. Ingénierie et connaissances
IV.1.B. Connaissances ou probabilisme ?
IV.1.C. Vers une imitation du traitement cognitif: la parallélisation et la modularité
IV.2. PRESENTATION DU SYSTEME « ACHILE »
IV.2.A. Présentation générale
IV.2.B. L’architecture du système
IV.3. LA SYNCHRONISATION DE L’INFORMATION
IV.4. UN SYSTEME DE RECONNAISSANCE FONDE SUR UN DECODAGE ACOUSTICO-PHONETIQUE
IV.4.A. La nécessité d’un Décodage Acoustico-Phonétique
IV.4.B. La difficulté du Décodage Acoustico-Phonétique
IV.4.C. Les solutions
V. LE MODULE DE SEGMENTATION ET DE MACRO-CLASSIFICATION « S.A.P.H.O. »
V.1. LE PROBLEME EPINEUX DE LA SEGMENTATION
V.2. PRESENTATION GENERALE DE S.A.P.H.O
V.2.A. Un algorithme à base de connaissances
V.2.B. Architecture de l’algorithme
V.3. LES DIFFERENTES ETAPES DE LA SEGMENTATION PAR S.A.P.H.O
V.3.A. Le calcul des paramètres acoustiques
V.3.B. Les propriétés de base
V.3.C. La primo-catégorisation
V.3.D. L’identification des macro-classes
V.3.E. La segmentation des continuums vocaliques
V.3.F. L’adaptation des frontières
V.3.G. La catégorisation des segments vocaliques
V.3.H. L’étude des groupes consonantiques
V.4. BILAN
V.4.A. Récapitulatif
V.4.B. Mise au point
V.4.C. L’évaluation
V.4.D. Quelques réflexions
CONCLUSION

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *