« Une bonne parole c’est comme un bon arbre dont la racine est solide et dont les branches vont jusqu’au ciel. Il donne ses fruits en toute saison avec la permission du Seigneur ». Le Saint Coran .
Notre travail s’intéresse au traitement automatique de la parole aphasique de Broca et la parole dysarthrique : étude prosodique, classification et reconnaissance. Ces deux pathologies qui sont également le lot de la paralysie cérébrale et d’autres affections neurodégénératives telles que le parkinson, la sclérose en plaque, le syndrome cérébelleux…etc. Depuis plus d’une vingtaine d’années, l’étude de la parole pathologique résultante des dysfonctionnements de la voix intéresse les laboratoires de recherche issus des sciences du langage. Les chercheurs confrontent les résultats de leurs recherches établies sur des corpus de parole normale à des situations d’élocution pathologique. En effet, le dysfonctionnement aide à comprendre le fonctionnement. La parole pathologique désigne les troubles de la parole et du langage et aussi la parole produite par des locuteurs atteints de dysfonctionnement de la voix. La parole pathologique revête différentes formes plus ou moins sévères qui peuvent aller jusqu’à altérer complètement une situation de communication.
État de l’art de la parole pathologique arabe et algérienne
D’après la recherche bibliographique menée jusqu’à la date de la rédaction de cette thèse, nous avons trouvé peu de travaux sur la parole pathologique arabe. En fait, nous avons recensé surtout des travaux sur les distorsions de la voix et spécialement la dysphonie qui a été traitée surtout par des chercheurs tunisiens [10, 11] et saoudiens [12-17].
En 2003, Chérif et al. sans donner de détails sur leur base de données, précisent que les données concernent des pathologies reliées à la sphère ORL, à des problèmes neurologiques et ceux relatifs au larynx. Ils ont utilisé les segments voisés pour extraire le pitch, les trois premières valeurs des formants, le Jitter et le Shimmer. Ils ont conclu que les valeurs faibles du pitch peuvent indiquer la présence de dyslexie. Les fluctuations du pitch et des formants peuvent constituer une indication de la pathologie du larynx alors que des valeurs élevées du Jitter et Shimmer peuvent refléter des anomalies du conduit vocal, de la glotte ou du neuromécanisme [10]. Salhi et Shérif en 2006 [18], présentent une interface pour l’analyse des voix pathologiques sous Matlab en utilisant toujours la même base de données sans y donner aucun détails et les même paramètres acoustiques utilisés dans [10]. En 2008, Salhi et al. [11] ont proposé l’identification des voix pathologiques par les réseaux de neurones a multicouches MLP. La base de données et les paramètres acoustiques sont presque les même utilisés par les deux travaux que nous venons de citer. Pour évaluer le système de classification, ils ont utilisé 80 mots pour la phase d’apprentissage (40 mots normaux et 40 mots pathologiques) et pour la phase de test, 20 mots (10 normaux et 10 pathologiques). Les résultats étaient respectivement 90% et 80% d’identifications corrects pour la parole saine ou normale et pour la parole pathologique mais nous n’avons aucune indication sur le nombre de locuteurs, ni sur le matériau linguistique utilisé.
Une base de données plus importante et clairement décrite a été présentée en [12-14, 16, 17, 19, 20]. Les échantillons de parole ont été enregistrés sur des patients ayant des troubles de la voix qui ont fréquenté la clinique de la voix de l’hôpital de l’université du roi Abdulaziz (Arabie Saoudite) entre 2009 et 2010. Pour la parole normale, les 71 locuteurs étaient sans histoire antérieure ou actuelle avec des troubles de la voix. Tous les locuteurs étaient des Arabes natifs (53 hommes et 18 femmes) avec une tranche d’âge de 18 à 50 ans. Il a été demandé aux locuteurs de compter des chiffres arabes de 1 à 10 avec 10 répétitions. Pour la voix pathologique, un total de 71 locuteurs de six types différents de troubles de la voix, ont participé avec des échantillons de chiffres arabes. Pour chaque type de trouble de la voix, on trouve au moins 10 locuteurs. Les sept types de troubles des cordes vocales considérés étaient : les kystes, le RGO (Reflux Gastro-Oesophagien), la paralysie, polypes, dysphonie spasmodique (SD), Vergetures ou sillon vocales et nodules [21, 22].
Ghulam et al. en 2011 [16, 17, 19] proposent une reconnaissance et classification automatique de la parole pathologique suivant les types de pathologie en utilisant les formants des voyelles extraites des chiffres arabes. Aussi, ils proposent l’analyse des quatre premières valeurs des formants des voyelles extraites des chiffres arabes. Les méthodes de classification étaient la quantification vectorielle et les réseaux de neurones artificiels. Le meilleur résultat était 67.86% de correctes classifications pour la parole pathologique avec les réseaux de neurones. La reconnaissance automatique des chiffres arabes pathologique était de loin difficile avec les paramètres MFCC et donc ils insistent sur le besoin de trouver de nouveaux paramètres. Tandis que l’analyse des formants était prometteuse. Ghulam et al. (2012) [20] développent une méthode d’extraction de nouveaux paramètres pour la reconnaissance automatique. Les paramètres proposés étaient les distributions des segments voisés et non voisés, ainsi que les temps du Onset et Offset (Onset : temps d’attaque et Offset : le temps de terminaison) dans le domaine temps fréquence pour détecter la pathologie de la voix. Ils étaient satisfaits des résultats (98 % de réussite). Ghulam et al., (2014) [23, 24] utilisent la base de données pour l’anglais MEEI [25] pour proposer deux nouvelles méthodes pour la détection de la parole pathologique.
Alsulaiman et al. (2013) [14] présentent les paramètres RASTA-PLP (Spectral Transform relative-Perceptual Linear Predictive) pour la classification des différents types de troubles des cordes vocales. Ils précisent que les résultats étaient encourageants. Alsulaiman (2011 et 2014) [12, 13] ont exploité la totalité de la base de données saoudienne et insistent encore sur la fiabilité des paramètres RASTA-PLP et PLP pour la détection, la classification et la reconnaissance de la parole dysphonique.
Saudi et al. (2011) [26], ont mené le même travail que Alsulaiman; la reconnaissance de la parole dysphonique en utilisant les paramètres RASTA-PLP dans le cadre des HMM mais avec une base de données différente. La collection des données a été réalisée dans une salle acoustiquement isolée du département phoniatrie de l’hôpital Kobri Elkobba. Les échantillons acoustiques correspondent à la phonation tenue de la voyelle / ah / (1-3 s) de 35 patients (hommes et femmes) ayant des troubles des cordes vocales tels que kyste, polypes, nodules, paralysie, œdèmes et carcinome et aussi de la parole normale comme référence.
L’Aphasie (The Aphasia)
Définition de l’aphasie
L’aphasie est une déficience du langage, affectant la production ou la compréhension de la parole et la capacité de lire ou d’écrire. Souvent l’aphasique n’arrive plus à nommer des objets, ne retrouve plus les noms des personnes qu’il connaît ; il se peut même qu’il ne puisse répondre clairement par oui ou non. L’aphasie résultant de lésions cérébrales peut également provenir de traumatisme crânien, des tumeurs cérébrales, ou d’infections [53].
L’aphasie est d’abord un trouble du langage auquel s’ajoutent souvent des difficultés de parole. Les spécialistes du langage font une différence entre la parole et le langage ; si un individu éprouve des difficultés d’articulation, de prononciation nous dirons qu’il a un trouble de la parole ; et si, il éprouve des difficultés à choisir ses mots, à les combiner pour faire des phrases ou encore à comprendre, nous dirons plutôt qu’il a un problème de langage. Les troubles du langage comportent une atteinte du langage spontané et une fluence verbale effondrée. La fluence verbale est le nombre de mots émis par minute en parlant spontanément ou en décrivant une scène imagée. Ce nombre est d’environ 90 mots par minute pour un individu normal [54].
Le cerveau se compose de deux parties, appelées hémisphères. Chaque hémisphère contrôle diverses activités. Pour certaines d’entre elles, la participation des deux hémisphères est importante. Le contrôle du mouvement par le cerveau se fait de manière croisée, c’est-àdire que la partie gauche du cerveau contrôle le bras droit et la jambe droite tandis que la partie droite du cerveau contrôle le côté gauche du corps. Donc, l’aphasie est une pathologie du système nerveux central, due à une lésion d’une aire cérébrale [53]. Le mot « aphasie » vient du grec et signifie « perte de la parole ». Ce terme a été créé pour la première fois par Armand Trousseau en 1864 [55]. Depuis cette époque, le mot a pris du sens, en désignant un trouble du langage affectant l’expression ou la compréhension du langage parlé ou écrit survenant en dehors de tout déficit sensoriel ou de dysfonctionnement de l’appareil phonatoire .
Les causes d’une aphasie
En générale sont :
Un accident vasculaire cérébral.
Une hémorragie cérébrale.
Un traumatisme cranio-cérébral (lors d’accident de la route, d’une chute).
|
Table des matières
Chapitre 1 : Introduction Générale
1.1. État de l’art de la parole pathologique arabe et algérienne
1.2. Objectifs et contributions
1.3. Organisation de la thèse
Chapitre 2 : Revue de La Parole Pathologique
2.1. Introduction
2.2. L’Aphasie (The Aphasia)
2.2.1. Définition de l’aphasie
2.2.2. Les causes d’une aphasie
2.2.3. Principaux types d’aphasie
2.2.4. Pathologies visées
2.2.5. Traitement de L’aphasie
2.2.6. La base de données aphasique ADAD : Algerian Dialectal Aphasic DataBase
2.3. La Dysarthrie (The dysarthria)
2.3.1. Définition de la dysarthrie
2.3.2. Types de dysarthrie
2.3.3. Symptômes de dysarthrie
2.3.4. La base de données de la parole dysarthrique : Nemours
2.4. Conclusion
CHAPITRE 3 : PARAMÉTRISATION DE LA PAROLE PATHOLOGIQUE
3.1. Introduction
3.2. Prétraitement de la parole aphasique (ADAD : Aphasic Dialectal Algerian Database)
3.3. Analyse temporelle prosodique
3.3.1. Paramètres acoustiques de La prosodie
3.3.2. Méthode d’analyse
3.3.3. Résultats et discussion
3.4. Analyse spectrale
3.4.1. Analyse MFCC
3.4.2. Analyse par spectrogramme
3.5. Analyse rythmique de la parole dysarthrique
3.5.1. Les paramètres de rythme
3.5.2. Analyse statistique : résultats expérimentaux et discussion
3.6. Conclusion
Chapitre 4 : Parole Dysarthrique (Nemours database) : Résultats Expérimentaux
4.1. Introduction
4.2. Les méthodes de classification
4.2.1. Les SVM multi-classes (machines à vecteurs de support)
4.2.2. Les réseaux de neurones
4.2.3. Modèle de mélange de gaussiennes (MMG)
4.3. Évaluation objective de la parole dysarthrique
4.3.1. Corpus
4.3.2. Classification de la parole dysarthrique / parole normale
4.3.3. Évaluation objective de la sévérité dysarthrique par les SVM
4.3.4. Le Système connexionniste hybride pour la classification et la reconnaissance de la parole dysarthrique
4.4. Conclusion
Chapitre 5 : Parole Aphasique (ADAD Database) : Les résultats expérimentaux
5.1. Introduction
5.2. Les modèles de Markov cachés (HMM)
5.2.1. Un système de référence de RAP à base des HMM
5.2.2. Modélisation phonétique
5.2.3. Utilisation de modèle de mélange de gaussiennes
5.2.4. Adaptation au locuteur : MLLR et MAP
5.2.5. La précision de la reconnaissance (Word Error Rate : WER)
5.2.6. La plate-forme HTK
5.3. Évaluation objective de la parole aphasique
5.3.1. Description du système de référence
5.3.2. La normalisation phonétique
5.3.3. Caractéristiques du système de base
5.3.4. Les résultats du système de référence de la parole pathologique
5.3.5. Les résultats du système de référence après la normalisation phonétique
5.3.6. Regroupement ou pooling des données normales et pathologiques
5.3.7. Le système de reconnaissance automatique adapté
5.3.8. Application du système adapté MLLR-MAP : Automatisation de l’aphasiogramme
5.4. CONCLUSION
Chapitre 6 : Conclusion Générale