Traitement automatique des langues naturelles

Traitement automatique des langues naturelles

Morphologie de la langue arabe

Introduction

La langue arabe est la langue principale de tous les pays arabes, elle est parmi les langues les plus anciennes connues dans le monde entier qui a constitué un facteur très puissant dans le développement de l’humanité. Dans ce travail, l’arabe standard sera notre objectif : c’est la langue de communication officielle ; en outre c’est la langue essentiellement écrite dans la littérature et dans la presse, parlée ordinairement à la radio et utilisée dans les discours officiels, les cours et les conférences universitaires dans tous les domaines scientifiques, administratifs, techniques, etc.
Ce chapitre sera consacré à l’étude de la morphologie de l’arabe standard, rappelons que la morphologie est la branche de la linguistique qui consiste en l’étude de la structure interne des mots. Un mot peut être décomposé en unités morphologiques. C’est-à-dire en unités de sens appelées des morphèmes. Dans ce chapitre tel qu’elle est présentée par les grammairiens arabes.
Nous commençons par données une définition de la morphologie arabe. Puis, les types de la morphologie arabe. Ensuite, nous présentons ses éléments essentiels de la morphologie arabe

La morphologie

La morphologie est un domaine de la langue naturelle qui permet la description des règles régissant la structure interne des mots (appelé unité lexicale), chez un grammairien la morphologie est l’étude des mots (flexions et dérivation), en d’autres termes, la morphologie est l’étude des mots considérés isolement sous le double aspect de la nature et les variations qu’ils peuvent subir. Donc, le principal objectif d’une analyse morphologique est de reconnaitre ces unités et d’attribuer à chacune divers types d’informations telles que la catégorie grammaticale (verbe, adjectif…) et les traits morphologiques (genre, la voix, le mode…,etc.).
À chaque classe on associe une étiquette appelée catégorie grammaticale ou catégorie lexicale. Il arrive qu’un même mot puisse avoir différentes catégories grammaticales, on dit qu’il y a ambiguïté grammaticale ou une homographie.L’analyse morphologique est indispensable pour tout système de traitement automatique de la langue naturelle, cette analyse permet de regrouper les mots en classes utilisables par les autres niveaux d’analyse.La différence principale de la langue arabe et les autres langues est que la langue arabe est dérivationnelle contrairement aux autres langues qui on flexionnelle, la figure suivante présente le système de dérivation arabe :

Morphologie flexionnelle

La langue arabe est aussi une langue flexionnelle, ce type de morphologie est employé, principalement, pour la déclinaison des noms et la conjugaison des verbes, des indices d’aspect, de temps, de mode, Personne, de nombre, de cas, de mode, etc., qui sont présentés généralement sous forme de préfixes et suffixes (Mesfar, 2008).
• Le mode des verbes : par exemple, pour le verbe  » بَھذَ  » (aller), les formes à l’accompli sont repérables à l’aide de leurs suffixes tel que « ‘ت ََھذ » (je suis allé) ou de leurs préfixations telles que « ‘بھذأَ » (je vais) ;
• La fonction des noms à l’aide des suffixations tels que « نِ رَ » (deux hommes au nominatif) ou « نر  » (deux hommes à l’accusatif ou génitif).

Flexion des verbes

La conjugaison des verbes décrit la variation de leurs formes en fonction des circonstances.Généralement, la conjugaison regroupe un certain nombre de valeurs dont :
• La valeur aspectuelle: L’aspect est un trait grammatical associé, le plus souvent, au verbepour indiquer la façon dont le procès ou l’état exprimé par le verbe est envisagé du point de vue de son développement (commencement, déroulement, achèvement, évolution globale, etc.), indépendamment du moment où l’on parle ;
• La valeur modale : Le mode dénote la manière dont l’action exprimée par le verbe est conçue et présentée. L’action peut être mise en doute, affirmée comme réelle ou éventuelle. Ils se combinent à la sémantique des verbes et par là créent les aspects ;
• La valeur temporelle : Le temps est un trait grammatical permettant de situer un fait (qui peut être un état ou une action) dans l’axe du temps de l’énonciation par rapport à trois repères : passé, présent et le futur. Les indications temporelles sont souvent accompagnées d’indications aspectuelles qui lui sont plus ou moins liées.
Ces trois principales valeurs sont étroitement liées (CHAIRET & Mohamed, 1996); elles permettent de décrire deuxformes fondamentales du verbe :
L’accompli  » ا « : il indique que le déroulement de l’action exprimée par le verbe est achevé, ce qui implique le passé. Il se caractérise par une suffixation des marques de la personne, du genre, du nombre et du mode à la racine verbale. Par exemple, pour le pluriel féminin du verbe « بَََ » (écrire), nous ajoutons le suffixe « نَ » pour avoir la forme « نَََ» (elles ont écrit) et pour le pluriel masculin, nous ajoutons le suffixe « او  » (elles ont écrit) et pour le pluriel masculin, nous ajoutons le suffixe  »  » pour avoir la forme  » او ََ » (ils ont écrit) ;
L’inaccompli « عرا » :il signale un déroulement inachevé, ce qui peut impliquer le présent. Il se caractérise par une préfixation de ses éléments ainsi qu’une ou plusieurs infixations sous forme de duplication de lettres ou de substitution de voyelles. Par exemple, pour le verbe « دَ » (tendre), nous pouvons obtenir « دأُ » (je tends) ou « نَدْدُِْ». (elles tendent).L’inaccompli inclut deux types de flexions modales :
o L’inaccompli indicatif de mode réel où le locuteur énonce le caractère réel (relise, devant être réalisé, en cours de réalisation, etc.) de l’action ou l’état exprimé par le verbe ;
o L’inaccompli subjonctif et apocope de mode potentiel où le locuteur se contente d’énoncer la nature possible ou virtuelle de l’action ou l’état exprimé par le verbe.
Dans la littérature, on convient d’ajouter un paradigme supplémentaire qui est :
L’impératif : il exprime l’ordre, le commandement, la défense ou l’exhortation et dont les éléments n’existent qu’à la 2ème personne au singulier, féminin duel et pluriel ;
Les formes ainsi obtenues peuvent combiner des valeurs aspectuelles, modales et temporelles bien que, dans l’usage moderne, l’aspect temporel semble être plus saillant. À l’exception des verbes sains dont la conjugaison est régulière et suit des règles flexionnelles bien définies, tous les autres types de verbes nécessitent un traitement particulier selon le type de défectuosité.

Flexion des noms

En arabe, la déclinaison des noms comporte trois cas : « عو رَْ »( nominatif), « بو ْ َ » (accusatif) et  » رورٌ َْ » (génitif). À l’exception de certains cas particuliers, les noms sont 33  » ٌرَُْ »(déclinables) et se met à l’un de ces trois cas suivants leur fonction dans la phrase. Sur le plan de la graphie, le cas ne correspond qu’à un élément graphique adjoint à la fin des formes nominales.
Le système nominal de l’arabe admet différents systèmes de déclinaison suivant la nature de la forme (simple, diptotes, etc.) et le nombre de celle-ci (singulier, duel ou pluriel). Nous pouvons distinguer :
Déclinaison du nom au singulier :
o Déclinaison de base à trois cas : C’est le cas le plus fréquent, il prend la voyelle  » ٌ َ » (◌ُ) comme une marque du nominatif, la  » ٌََْ » (◌َ) à l’accusatif et la ٌ َ ِ رَ  « ة ْ  » (◌) au génitif. Quand le nom est indéfini, la nunnation(نوا ) apparaît marquée respectivement par les trois signes diacritiquesٌٍ ً »  » .A l’accusatif indéfini, excepté le cas des noms qui se terminent par  » ة  » ou par  » ءا  » , la lettre« ا »vient renforcer la nunnation( ً)par exemple, à l’accusatif indéfini, le nom « ب ِ » (un livre) produit  » ًِ » (un livre à l’accusatif indéfini) et le nom « ةرز َ » (île) produit « ةرزً َ » (île à l’accusatif indéfini).
o Déclinaison des diptotes : Les diptotes sont les noms qui, indéfinis grammaticalement, n’acceptent pas de nunnation et prennent la même marque à l’accusatif et le génitif, soit la » ٌََْ »(◌َ). Par contre, quand ils sont définis, ils suivent la déclinaison de base à trois cas. C’est le cas des noms féminins qui se terminent par  » ءا « tel que « ءار  » (désert), les adjectifs masculins de couleur ayant pour schème « ل أْ »tel que « ر أْ » (rouge) et ceux qui sont féminins de schème « ء َْ » tel que « ءٌ َْ » (blanche)
o Déclinaison des cinq noms : Ce sont des noms bilitères qui prolongent leur voyelle finale quand ils sont définis par un complément, les cinq noms sont : les 3 noms : « وأ « (père), و » أ « (frère) et « و  » (beau-père) ; une variante de « م  » (bouche) : « و « ,  »  » et  »  » ; le nom « وذ » (possesseur).
o Déclinaison de déverbaux de racines défectueuses : Certains participes actifs et noms verbaux des verbes à racine défectueuse tels que le participe actif « ضٍ  » (passé) et le nom verbal « لٍََ » (abandon) ne prennent la marque du cas qu’à l’accusatif: le « ي » (dernière lettre de la racine) est remplacé par la nunnation(◌ٍ) aux nominatif et génitif indéfini. Quant aux participes passifs qui se terminent par « ى » ou « ا » tel que « ط ُْ » (donné), ils perdent leur flexion
casuelle. Une nunnation différencie le nom indéfini du nom défini. À ce niveau, il nous importe de signaler que l’usage de cette règle de déclinaison est abandonné. En effet, dans les textes courants la forme du nom verbal « ضٍ  » (avocat) est, généralement, altérée en  »  » (avocat) par adjonction du glide « ي » à la fin de la forme initiale.
o Déclinaison du nom au duel : Il existe en arabe  » اّ  » (le duel) pour désigner deux choses ou deux personnes. Il prend la place entre le singulier (pour désigner une chose ou une personne) et le pluriel (à partir de trois choses ou trois personnes).
Il s’agit d’une déclinaison avec deux alternatives où la marque du nominatif est le « ا », et celle de l’accusatif et le génitif est le « ي ». Pour former le duel d’un nom indéfini ou défini par l’article, nous lui suffixons : « نا » au nominatif et « نْ » ٌ َ » (une à l’accusatif et le génitif. Par exemple, la forme duelle du nom « ةر  َ َ voiture) prend la forme « ن ر َ » (deux voitures, au nominatif) ou « نْرَ َ » ِ ِ  (deux voitures, accusatif et génitif)
Dans certains cas, notamment pour les mots dont la racine est défectueuse ou qui se terminent par un « ى » (a) , un (و)ou un hamza (ء), la terminaison du nom se transforme devant le suffixe du duel. En l’occurrence, la forme  »  » (un café) a pour forme duelle « ن َََْ » (deux cafés) ِ
o Les pluriels externes ou réguliers : Les pluriels externes sont formés par l’ajout d’un suffixe au singulier sans changement de la structure du mot. Nous distinguons :
Le pluriel externe masculin : Pour le pluriel masculin nous rajoutons les deux lettres « ن  » ou « نو » dépendamment de la position du mot dans la phrase (sujet ou complément d’objet), exemple : « م « (musulman) devient « نو  » (musulmans, au nominatif) ou « ن  » (musulmans, accusatif ou génitif) ;
Le pluriel externe féminin : De la même manière, nous rajoutons pour le pluriel féminin le morphème  » تا  » (àt), exemple « ةرَ  » (une voiture) devient « تارَ  » (des voitures).
o Les pluriels internes ou brisés: Les pluriels internes sont désignés par pluriels brisés à cause des modifications et infixations qu’ils nécessitent par rapport à la forme du singulier, à la différence de ce qui se passe avec lespluriels réguliers (masculin et féminin). Les formes du pluriel brisé sont nombreuses et généralement imprévisibles; elles suivent une diversité de règles complexes et dépendent du nom ; par exemple : le nom « ب  » (un écrivain) se transforme pour donner les deux formes plurielles « بٌ ُ » (écrivains) ou  » ٌَََ » (écrivains). Notons aussi que les grammairiens arabes ont formulé des distinctions entre pluriels de petit nombre et pluriels collectifs ; par exemple : le nom « رٌَْ  » (mois) admet deux formes plurielles :  » رٌُأْ  » (moins de 12 mois) et  » روٌُُ  » (au-delà) ;
Seuls les pluriels externes suivent des déclinaisons propres. Les pluriels internes se rattachent aux déclinaisons du singulier (déclinaisons de base à trois cas et diptotes).

Flexion des mots outils

Lorsqu’il s’agit de la flexion des particules, nous en distinguons deux catégories :
• Les mots outils non déclinables ou invariables : leurs formes sont constantes et n’acceptent aucune déclinaison ; par exemple :  » َ » (sur), « ذ ُ » (depuis), etc.
• Les mots outils déclinables ou variables : ils suivent le système de déclinaison à trois cas selon leurs fonctions dans la phrase. Par exemple, le quantificateur  » ّل » (tout) peut accepter les trois voyelles casuelles filiales pour désigner le nominatif, accusatif ou génitif selon sa fonction dans la phrase.

Morphologie dérivationnelle

La morphologie dérivationnelle est la branche de la morphologie qui s’intéresse à la construction de nouvelles primitives morphologiques à partir de celles existantes selon des règles de dérivation adéquates. Tout verbe a dans son sillage des formes dérivées qui lui sont associées et avec les lesquelles il entretient des relations morphologiques, syntaxiques et sémantiques. Le nombre et la nature de ces formes varient selon le statut du verbe.
• Le nom verbal ( ق ما): c’est le type des noms qui sont dérivés à partir de la même racine que le verbe associé avec un contenu sémantique pareil. Généralement, tous les verbes arabes possèdent un nom verbal associé ou plus dans certains cas. En ce qui concerne les verbes augmentés « ةدزا لا », ils possèdent un seul nom verbal.
Par contre les verbes nus « ةدرا لا » peuvent avoir jusqu’à cinq noms verbaux (Mesfar, 2008). Par exemple le verbe « بَََ» (écrire) admet quatre noms dérivés différents « بٌ ِ» (un livre) , « ٌَََ» (une bibliothèque) , «بوٌ َ»(écrit), « بٌََ» (un bureau).
• Le nom de l’agent4«لا ما » : ce type de noms sont généralement associés aux verbes transitifs « يد » ou intransitifs « مز » en montrant l‘agent qui effectue l’action. Par exemple, les verbes à racine simple tels que «جر » (sortir) suit le schème « ل » pour produire le nom de l’agent « جر » (celui qui sort).
• Le dû patient5لوا ما : c’est le type de noms dérivés qui sont, généralement, associés aux verbes transitifs « يد » en indiquant le patient qui a subi l’action. Par exemple, le verbe à racine simple « قَرََ »(voler), il subit le schème « لوٌ َ» pour produire le nom du patient « قورٌ َ»(volé) .
Ces trois déverbaux sont ceux qui existent pour le plus grand nombre de verbes. Leurs formations obéissent, pour un type donné de verbe, à des règles extrêmement générales. Habituellement, nous assimilons le participe actif au participe présent français et le participe passif au participe passé. Cette assimilation n’occulte pas les propriétés spécifiques que ces déverbaux en arabe. Pour tous les verbes, simples et augmentés, les participes se forment sur des schèmes stables ; ils ont, donc, un comportement morphologique d’une grande régularité. En tant que noms, les participes peuvent recevoir toutes les marques morphologiques de cette classe : genre, déclinaison, nombre et détermination.
L’accompli (ا Aux formes dérivées ci-dessus s’ajoutent d’autres formes dont le rang d’utilisation est moins important.
• Le nom de lieu « نا ما ».
• Le nom de temps « نزا ما ».
• Le nom d’instrument« ا ما ».
• Le nom de fois« ةرا ما ».
• Le nom de manière« نا ما ».
Contrairement aux verbes, les noms primitifs échappent au système dérivationnel. Cependant, certaines règles peuvent être mises en place pour décrire les gentilés et ethnonymes qui sont des noms ou adjectifs par lesquels nous désignons des habitants d’un lieu, une nationalité, une identité nationale, etc.

Les propriétés morphologiques

Les propriétés morphologiques verbales

En général, un verbe peut avoir les propriétés morphologiques suivantes :
a. L’aspect
En langue arabe, on peut différencier entre trois types d’aspects des verbes :
) : appelé aussi « le passé », désigne une action achevée.
L’inaccompli (عرا ) : appelé aussi « le présent »,désigne une action encours de se produire, sans être achevée.
L’impératif (را ) : désigne l’ordre. Il peut être conjugué seulement avec les deuxièmes personnes.
b. Le mode
On distingue trois modes :
Le nominatif (عورا ) : il se caractérise par(ا – ◌ُ) à la fin.
L’accusatif (بوا ):il se caractérise par(ا -◌َ) à la fin.
L’apocope (موزا ) :il se caractérise par l’absence de la marque (نوا
-◌ْ) à la fin.
c. La voix
La langue arabe a deux voix :
L’actif (موا ).
Le passif (لوا ) .
d. La personne
Comme les autres langues, on distingue trois personnes :
Première personne :أ , ن
Deuxième personne :نَُأ,مأُ , أُ ,تأِ ,تَ َأ
Troisième personne :وَھُ , َھِ , ھُ ,مْھُ ,نھُ
e. Le genre
Dans la langue arabe, il existe deux genres :
Masculin : pour examiner tous les verbes masculins.
Féminin : pour examiner tous les verbes féminins.
f. Le nombre
Un verbe arabe peut avoir trois nombres :
Le singulier.
Le duel.
Le pluriel.

Les propriétés morphologiques nominales

En général, un nom arabe peut avoir les propriétés suivantes :
g. Le genre du nom
Dans la langue arabe, il existe deux genres :
Masculin.
Féminin.
h. Le nombre du nom
Un nom arabe peut avoir trois types des nombres :
Singulier.
Dual.
Pluriel : le pluriel externe ou sain est un pluriel à suffixe de masculin ou féminin. Il y’a un cas particulier de pluriel qui s’appelle le pluriel brisé6 « ر », qu’in s’ajoute, d’une part, pour enrichir cette langue, et d’autre part, pour compliquer son traitement automatique. Ce pluriel est souvent rencontré dans la langue arabe, et il suit des règles imprévisibles et complexes.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie ?avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Remerciements
2. Introduction générale
3. Chapitre 1 TALN et la langue arabe
1.1 Introduction
1.2 Traitement automatique des langues naturelles
1.2.1 Analyse morphologique
1.2.2 Analyse syntaxique
1.2.3 Analyse sémantique
1.2.4 Analyse pragmatique
1.2.5 Analyse et génération
1.3 Langue arabe et TALN
1.1.1 Particularités de la langue arabe
1.3.1 L’alphabet arabe
1.3.2 Structure d’un mot
1.3.3 Le principe de composition des mots arabes
1.3.4 Les catégories d’un mot
1.4 Conclusion
2Chapitre 2 : Morphologie de la langue arabe
2.1 Introduction
2.2 La morphologie
2.3 Morphologie flexionnelle
2.3.1 Flexion des verbes
2.3.2 Flexion des noms
2.3.3 Flexion des mots outils
2.4 Morphologie dérivationnelle
2.5 Les propriétés morphologiques
2.5.1 Les propriétés morphologiques verbales
2.5.2 Les propriétés morphologiques nominales
2.6 Les éléments essentiels de la morphologie arabe
2.6.1 Les racines « ذر ا »
2.6.2 Les schèmes « وزان ا »
2.6.3 Les affixes « د زّوا ا »
2.6.4 Les radicales « ذوع ا »
2.6.5 Les mots dérivés « ر! » ءا « $ ا »
2.6.6 Les mots isolés « دة  » ءا « $ ا »
2.6.7 Les signes diacritiques « ل&’ ا »
2.7 Conclusion
3Chapitre 3 : Analyseur morphologique de la langue arabe
3.1 Introduction
3.2 L’analyse morphologique
3.2.1 Segmentation
3.2.2 Prétraitement morphologique
3.2.3 Stemming
3.2.4 Analyse affixale
3.2.5 Analyse morphologique
3.2.6 Désambiguïsation
3.3 Étude sur les techniques de l’analyse morphologie
3.3.1 La table de correspondance
3.3.2 Les approches combinatoires
3.3.3 Les approches linguistiques
3.4 L’ambiguïté
3.4.1 Ambiguïtés dérivationnelles et flexionnelles
3.4.2 Ambiguïtés dues à l’agglutination
3.4.3 Ambiguïtés dues à la non-voyellation
3.5 Les approches de désambiguïsation :
3.5.1 Approche par Contrainte
Les arbres de décision
3.5.2 Approche statistique
3.5.3 Approche hybride
3.5.4 Approche basée à l’aide multicritère à la décision.
3.6 Les travaux de domaine
3.6.1 Analyseur morphologique de Khoja
3.6.2 Analyseur morphologique de Buckwalter ( BAMA)
Analyseur morphologique de Xerox
3.6.3 Analyseur morphologique ElixiarFM ďOtakar Smrž
Analyseur morphologique MAGEAD de Nizar Habash
3.6.4 Analyseur morphologique Sebawai de Darwish
3.6.5 Analyseur morphologique d’Hilal
3.6.6 Analyseur morphologique de Hegazi and El-Sharkawi
3.6.7 Analyse morphologique de Thalouth et Al Dannan
3.6.8 Analyseur morphologique d’Al-Fedaghi et Al-Anzi
3.6.9 Analyseur morphologique Multi-Mode
3.6.10 Analyseur morphologique Morpho3 d’Attia
3.6.11 Analyseur morphologique G-LexAr
3.6.12 Analyseurs morphologique de DAVID COHEN :
3.6.13 Autres analyseurs morphologiques arabes
3.7 Conclusion
4Chapitre 4 : Développement d’un analyseur morphologique
4.1 Introduction
4.2 Défis et objectifs de l’analyse morphologique arabe
4.3 Processus d’analyse morphologique
4.3.1 Lecture du fichier
4.3.2 Segmentation du texte arabe
4.3.3 Chargement de ressources
4.3.4 Stemming
4.3.5 Validation des segments
4.3.6 Génération des résultats
4.3.7 Mise à jour de la base de connaissance
4.3.8 Conclusion
4. Conclusion générale
5. Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *