Approche hybride pour la reconnaissance automatique de la parole en langue arabe

Depuis des années, la Reconnaissance Automatique de la Parole (RAP) est un domaine de la science ayant toujours eu un grand attrait auprès des chercheurs comme auprès du grand public. Ce domaine vise par le biais de ses systèmes, à «décoder » un signal vocal acoustique en une chaîne de mots. Ainsi, l’une des majeures applications de la RAP est l’Interaction Homme-Machine(IHM). À ses balbutiements, les projections sur ses applications étaient très optimistes : quoi de plus naturel que de parler à une machine, sans avoir à s’encombrer d’un clavier ou d’une souris ? Les applications qu’ont peut imaginer sont nombreuses : les serveurs vocaux, les réservations des vols, l’apprentissage de langues, etc. Nous citons aussi les commandes vocales des machines ou des robots, la saisie vocale de données, l’aide aux handicapés (contrôle par voix, machines à parler vocale), l’utilisation de la reconnaissance de la parole dans les jeux électroniques.

Les premières expériences de développement des systèmes de RAP ont été perçues pour plusieurs langues telles que la langue anglaise, française aussi bien les langues asiatiques. Malgré que la langue arabe soit très répandue dans le monde, les recherches fructueuses effectuées dans le domaine de la RAP pour l’arabe restent très limitées en comparaison avec d’autres langues de même rang comme le Chinois. Ce qui explique le manque du support pour la langue arabe dans la majorité des applications IHM.

Récemment, les tentatives dans le domaine de la RAP pour la langue arabe ont éveillé l’attention de quelques chercheurs. En fait, la majorité de ces tentatives ont mis l’accent sur la norme officielle de la langue arabe qui est connue comme l’Arabe Moderne Standard (MSA). En revanche, MSA ne présente pas la langue des communications courantes dans les pays arabes. De ce fait, en contemplant de prés, on conçoit l’existence de plusieurs variétés arabes le levantine, l’égyptien, l’algérien, le marocain, le tunisien, etc… considéres comme des dialectes arabes dérivées de MSA et utilisées dans la vie quotidienne pour la communication ordinaires des communautés. Cette variété de dialectes que nous pouvons même trouver au sein du même pays, évoque un problème majeur dans le traitement automatique de la langue arabe. Certes, ces différents dialectes arabes possèdent une forme parlée et non écrite et se distinguent par des caractéristiques phonologiques, morphologiques, syntaxiques et lexicales importantes qui se diffèrent d’un dialecte à un autre et même avec la forme standard de la langue arabe. Cette situation est dénommée « diglossie», ce terme est inventé par [Fishman 1967] qui signifie la situation où il existe en usage deux langues apparentées génétiquement et structurellement et dont les distributions fonctionnelles sont complémentaires.

Caractéristiques générales de la langue arabe : du littéral au dialectal

La langue arabe appartient à la famille des langues sémitiques, elle est utilisée comme vecteur de transmission religieux pour tous les croyants musulmans au nombre de 1 milliard et demi à travers les cinq continents du globe. Cette langue a un statut spécial en tant que norme officielle du monde arabe. À cet effet, et sans contredit, la langue arabe est l’idiome qui a envahi la plus grande étendue des pays du monde entier puisqu’elle est la langue officielle de plus de 22 pays. Ainsi, elle est classée comme la 6 ème langue la plus parlée en fonction du nombre de locuteurs [Elmahdy 2012] selon l’Organisation des Nations Unies. En effet, elle constitue un élément principal dans la culture et la pensée d’une partie importante de l’humanité et du patrimoine mondial. Autrefois, son histoire s’est heurtée à divers évènements : conquêtes arabes, essor scientifique, colonisation occidentale, tentative de réforme grammaticale ou adaptation au monde moderne. Ces derniers années elle a pris encore l’essor suite aux révolutions dans divers pays arabes comme la Tunisie, l’Égypte, la Syrie ; etc.

La langue arabe

Historique de la langue arabe

Il est difficile d’aborder l’étude d’une langue sans faire référence à l’histoire qu’elle a vécue. Il en est ainsi pour l’arabe qui est une langue originaire de la péninsule Arabique et qui a connu une longue tradition orale avant d’être consignée à l’écrit [Sayah 2009]. À l’origine, au niveau de la péninsule arabe, la langue arabe appartient à la famille des langues sémitiques comme l’akkadien, l’hébreu, l’araméen et son expansion a touché même l’Afrique du nord et l’Asie mineur. Postérieurement, bien avant le VIe siècle de l’ère chrétienne, la littérature préislamique est représentée avant tout par la poésie jusqu’à l’apparition de l’islam. Avec la prédication du prophète « Mohamed  » et l’avancement de l’islam, porté d’abord par une conquête militaire, la langue dans laquelle s’est faite la Révélation consignée dans le Coran est née.

Initialement, la langue arabe était limitée à la péninsule arabique. C’est autour du VIIe siècle et grâce à l’avènement de l’Islam et plus tard les conquêtes islamiques, la langue arabe a connu une grande expansion. Ce qui nous emmène que le développement de l’Islam au Xe siècle a permis l’arabe, en tant que langue religieuse, de se développer considérablement dans le monde musulman qui s’étend dans tout le Nord de l’Afrique et l’ensemble du Moyen-Orient. Assez tôt, comme de plus en plus les non-arabophones se convertirent à l’islam, le Coran devint le lien le plus important entre les musulmans, arabes et non-arabes, vénéré pour son contenu et admiré pour la beauté de son langage. En outre, les arabes, indépendamment de leur religion, et quelque soit l’origine ethnique des musulmans, tiennent de plus en plus à la langue arabe et la considèrent comme une norme idéale, devant la profonde évolution que les nouveaux usages sociaux et son histoire lui imposaient. Le grand rapport entre le Coran et l’arabe a donné à la langue un statut spécial qui a contribué à l’arabisation de populations diverses.

À travers des siècles, c’est la langue arabe qui a permis aux parlers natifs des pays arabes de se communiquer et de partager leurs cultures à travers le monde. Surtout, lors de l’avènement de l’Islam, elle est devenue la langue sacrée du Coran en exerçant des influences irrésistibles sur les peuples pour convertir à cette nouvelle religion. De plus, la langue arabe a recueilli des progrès étourdissants dans des domaines divers tels que la culture, la science grâce à la l’expansion territoriale de l’empire musulmane qui a fait de cette langue, une langue d’administration et de rédaction de manuscrits et de livres. Ainsi, il faut noter que le passage de l’arabe classique qui est ciblé en tant qu’une langue du Coran à l’arabe standard moderne (MSA) était fait à travers l’existence de la diversité au niveau des populations arabophones et ces cultures à travers des siècles. À son tour, le MSA représentant la langue officielle utilisée dans les communautés et la presse, a été influencé par des spécificités historiques et culturelles des populations appartenant au monde arabe en donnant naissance à l’arabe dialectal.

Particularités de la langue arabe

Absence des voyelles 

La langue arabe est une langue sémitique qui s’écrit et se lit de droite à gauche. Il existe deux types de symboles dans l’alphabet arabe pour écrire des mots : les lettres et les signes diacritiques. Un des traits particuliers du système d’écriture arabe, par rapport aux langues latines, est la non distinction entre lettres minuscules et majuscules. Les lettres arabes, correspondant au 28 sons consonantiques arabes. Chaque lettre peut apparaître dans un maximum de quatre formes différentes, selon qu’elle se produit au début, au milieu ou à la fin d’un mot, ou en isolée. Les lettres sont principalement connectées. Pour des raisons phonétiques, les lettres de l’alphabet arabe sont classées en deux groupes : les lettres lunaires et les lettres solaires.

Registres linguistiques de la langue arabe

En observant les périodes les plus importantes dans l’historique de la langue arabe, nous avons recours à découvrir trois registres linguistiques que nous allons citer dans la partie qui suit.

• Arabe littéraire ancien ou classique : Cette appellation désigne la langue arabe dans sa forme la plus classique et la plus ancienne. Cela concerne essentiellement tout le patrimoine culturel médiéval parvenu par écrit : le texte coranique, la poésie ancienne, la philosophie, l’historie, etc. La nature et l’origine de cette langue de la littérature antéislamique ont donné lieu à une évolution qui a abouti à l’apparition d’un arabe dit moderne ou standard.
• Arabe moderne standard : D’une manière générale, l’arabe standard ou l’arabe contemporain est le résultat de l’interaction entre l’arabe classique et les dialectes [Ammar 2012]. Dans le monde arabe, l’arabe moderne standard (MSA) est la langue des médias, de la vie intellectuelle et de la littérature. En outre, il représente la forme de l’arabe universel enseignée dans les écoles du monde arabe et même utilisée à des conférences et des discussions formelles.
• L’arabe dialectal : L’arabe dialectal est une forme extrêmement simplifiée de l’arabe classique et de l’arabe moderne. C’est la langue maternelle de chaque locuteur arabophone. Il est parlé dans tous les jours et qui ne s’embarrasse pas de toutes les règles rigides de la langue écrite et savante et qui évolue de plus en plus en fonction de l’époque et des besoins de communication. Il existe plusieurs dialectes arabes et ces formes linguistiques se diffèrent parfois d’une région à une autre même légèrement d’une ville à une autre. Principalement, nous distinguons que le monde arabe est divisé en deux aires dialectales : le groupe occidental et le groupe oriental. Ainsi la frontière naturelle entre ces deux groupes est marquée par le plus long fleuve du monde le « Nil». D’une part, le groupe occidental correspond aux variétés parlées en Égypte, à Djibouti, au Soudan, au Tchad, dans les États dits du Machrek (Irak, Syrie, Liban, Jordanie, Palestine et Koweït) et ceux des états de la péninsule Arabique (Arabie Saoudite, Yémen, Oman, Qatar, Émirats arabes unis, Koweït et Bahreïn). De sa part, le groupe maghrébin correspond aux variétés d’arabe parlées dans les pays du Maghreb (Tunisie, Algérie, Maroc, Libye, Mauritanie et Sahara occidental) en Andalousie (Espagne), ainsi que dans l’île de Malte.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction générale
1 Caractéristiques générales de la langue arabe : du littéral au dialectal
1.1 Introduction
1.2 La langue arabe
1.2.1 Historique de la langue arabe
1.2.2 Particularités de la langue arabe
1.2.2.1 Absence des voyelles
1.2.2.2 Agglutination
1.2.3 Registres linguistiques de la langue arabe
1.2.4 Les différences entre la langue arabe et ses dialectes
1.3 Le dialecte tunisien
1.3.1 Historique du dialecte tunisien
1.3.2 Situation linguistique de dialecte tunisien
1.3.3 Registres linguistique de dialecte tunisien
1.3.4 Répartition sociolinguistique
1.3.4.1 Différences morphologiques
1.3.4.2 Différences phonologiques
1.3.4.3 Différences lexicales
1.4 Le dialecte tunisien Vs la langue arabe
1.4.1 Les caractéristiques phonologiques
1.4.1.1 Système vocalique
1.4.1.2 Système consonantique
1.4.2 Les caractéristiques morphologiques
1.4.2.1 La morphologie verbale
1.4.2.2 Catégorie grammaticale
1.4.2.3 Les nouveaux clitiques
1.4.3 Les caractéristiques lexicales
1.4.4 Les caractéristiques syntaxiques
1.5 Conclusion
2 Reconnaissance automatique de la parole
2.1 Introduction
I. Architecture d’un système de reconnaissance automatique de la parole
2.2 Principes généraux
2.3 Extraction de paramètres
2.4 Modélisation acoustique
2.4.1 Définitions des modèles de Markov cachés
2.4.2 Les limites des HMM
2.5 Modélisation statistique de langage
2.5.1 Le modèle n-grammes
2.5.2 Techniques de lissage
2.5.3 Modèles de langage n-classes
2.5.4 Autres modèles de langage
2.5.5 Evaluation d’un modèle de langage
2.6 Dictionnaire de prononciation
2.7 Décodeur
2.8 Sortie d’un SRAP
2.8.1 Liste de N meilleures hypothèses
2.8.2 Graphe de mots
2.8.3 Réseau de confusion
2.8.4 Mesures de confiance
2.9 Evaluation d’un SRAP
II. Aperçu sur quelques SRAP pour des langues peu dotées
2.10 Définition des langues peu dotées
2.10.1 Les langues bien dotées
2.10.2 Les langues peu dotées
2.11 Les SRAP pour les langues peu dotées
2.12 Un SRAP pour la langue Swahili
2.12.1 Recueil des ressources
2.12.2 Expérimentations
2.13 Un SRAP pour le dialecte qatarien
2.13.1 Recueil des ressources
2.13.2 Expérimentations
2.14 Conclusion
3 Etat de l’art sur la conversion G2P
3.1 Introduction
3.2 La conversion G2P
3.3 Les approches de la conversion G2P
3.3.1 Approche manuelle
3.3.2 Approche à base de règles
3.3.3 Approche guidée par les données
3.3.3.1 Les techniques basées sur la classification locale
3.3.3.2 Prononciation par analogie : PPA
3.3.3.3 Les approches probabilistes
3.4 Conclusion
4 Recueil des corpus pour le dialecte tunisien
4.1 Introduction
4.2 Ressources développées pour le traitement automatique du dialecte tunisien
4.3 Convention orthographique pour le dialecte tunisien (CODA)
4.3.1 Les objectifs de CODA
4.3.2 Les principes de CODA
4.4 Les Lignes directives de CODA pour le dialecte tunisien
4.4.1 Les extensions phonologiques
4.4.1.1 Système vocalique
4.4.1.2 Système consonantique
4.4.2 Les extensions morphologiques
4.4.2.1 Les affixes
4.4.2.2 Les clitiques
4.4.3 Les exceptions lexicales
4.5 Corpus de renseignement ferroviaire Tunisien
4.5.1 Enregistrement
4.5.2 Respect de la vie privée
4.5.3 Outil d’aide à la transcription orthographique : Transcription
4.5.3.1 Transcriber
4.5.3.2 Conventions de transcription avec Transcriber
4.6 Aspiration des blogs
4.7 Translittération des données en dialecte tunisien
4.7.1 L’orthographe spontanée du dialecte tunisien
4.7.2 Translittération vers le script arabe
4.7.3 Evaluation de l’outil de translittération
4.7.3.1 L’évaluation hors contexte
4.7.3.2 L’évaluation en contexte
4.8 Conclusion
Conclusion générale

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *