Correction des fautes d’orthographes et des incohérences

Télécharger le fichier pdf d’un mémoire de fin d’études

Problèmes du traitement automatique de la langue arabe

Un des aspects complexes de la langue arabe est l’absence des voyelles dans le texte, qui risque de générer certaines ambigüités à deux niveaux [Douzidia, 2004] : sémantique et syntaxique.
Nous citons dans cette section quelques problèmes rencontrés lors du traitement automatique de la langue arabe :

La vocalisation

Dans les textes arabes, comme c’est le cas en Hébreu et dans d’autres langues sémitiques dont le système graphique est issu de l’alphabet phénicien, un nombre important de signes ne sont pas notés. Il s’agit pour l’essentiel, en arabe, des voyelles brèves, de la gémination des consonnes et de certaines marques casuelles et de détermination. On le voit, ces signes peuvent être graphémiques (voyelles brèves, consonnes géminées). Lorsqu’ils sont notés (par exemple dans les éditions du texte coranique ou dans les éditions d’apparat de textes religieux ou de poésie ancienne), ils sont réalisés sous la forme de signes secondaires [Abbès, 2004].

La confusion dans l’écriture de certaines lettres

Avec la Chadda, nous avons soulevés le problème qu’engendre l’absence du signalement graphique d’une consonne. Dans ce paragraphe nous allons présenter un autre problème touchant les consonnes, la confusion dans l’écriture de certaines lettres.
Les cas que nous allons citer ne font pas office d’exception. Leurs fréquences d’utilisation les mettent dans le rang de la pratique d’écriture répandue chez les écrivains arabes.
Les confusions d’écriture des consommes peuvent poser des incohérences au niveau de texte, qui pose un traitement supplémentaire. Exemples :
Identification d’opinions dans les journaux arabes
– La Hamza et le Alif
Les textes arabes confondent les lettres أ et إ au début et au milieu des mots. Ils les notent indifféremment en tant que ا (alif). Ce qui en plus d’être une erreur d’orthographe présente une grande source d’ambigüité.
Exemple :
– signifie « il s’est écoulé » « il a coulé », du verbe – (racine ليس ).
– signifie « il a questionné » ou « il a posé une question », du verbe – (racine لأس).
Beaucoup de mots minimaux ont un homographe avec et vice-versa, et ils ne sont pas toujours de la même famille. Exemple :
– Le nom (amarat) signifie « un marque de… » ou « signifie de »
– Le nom (imarat) signifie «Emirat »
De surcroît, avec une voyelle au-dessus ou au-dessous, le Alif peut faire partie du mot. Comme dans le déverbal فارنحا (inhiraf). « Déviation » ou dans la particule de détermination
لا (al). Exemple :
– «liée deux… » ou « mariage ».
– « le Coran ».
– Le Ya et le Alif Maqsûra
Dans l’usage typographique égyptien par exemple, les auteurs notent la lettre ي à la fin des mots sans point dessous, ce qui la rend équivalente à ى Alif maqsûra. L’absence des deux points change totalement le mot, et pose un vrai problème de reconnaissance de la forme écrite. A l’image du premier point, la plus part des mots se terminent avec Alif Maqsûra ont un homographe avec le Ya. Exemple :
– Le mot outils .
– Le nom propre .
Remarque : certains mots peuvent cumuler les deux confusions, Hamza avec Alif d’un côté et
Ya avec Alif Maqsûra de l’autre. Exemple : لىولاا (alawla).

Le Tanwin

Le Tanwin pose la difficulté de variation de sa position au cas direct à la fin des mots.
Les terminaisons ا ـــ , sont très souvent notées اـــ.
Identification d’opinions dans les journaux arabes
Il s’agit d’une variation typographique, empruntée à l’usage des calligraphes qui peuvent noter le signe du Tanwin «ّ » avant, au dessus ou après le alif « ا ».

Le caractère 

Les typographes font un usage fréquent du caractère ‘-’ (appelé Kashida), qui permet l’allongement du trait au milieu des mots, pour une meilleure lisibilité, pour limiter les espaces blancs sur une ligne justifiée, voire pour des raisons purement esthétiques. Or cet usage peut nuire aux analyses automatiques : ce caractère ne fait pas partie de l’alphabet arabe, il est considéré comme un intrus par le système d’analyse automatique. Il faut donc recourir à un sous-programme particulier afin de l’éliminer. Exemple : le mot باتكلا : peut être
écrit de plusieurs façons :

Mots étrangers translittérés en arabe

Les translittérations en arabe de mots étrangers posent un problème, puisqu’ils n’ont pas de racine en arabe. Les mots translittérés sont considérés comme inconnus par l’analyseur.
Quelques items étrangers méritent une attention particulière en raison de leurs fréquences élevées. Exemple: وروأ, رلاود …etc.

L’ambigüité

Les mots peuvent être ambigus aux niveaux lexical et grammatical. Le mot « بهذ » est ambigu lexicalement. Il peut désigner l’or en français ou encore le verbe aller. «بتاك », quant à lui, est ambigu grammaticalement. Il peut appartenir à plusieurs catégories grammaticales différentes; لعاف مسا ,مسا ,لعف Le sens de ce mot sera très différent selon sa catégorie, nom : « écrivain » ou verbe : « écrit » ; il peut appartenir à quatre catégories grammaticales différentes. Le nombre de catégories auxquelles un mot peut appartenir, dépend du jeu d’étiquettes choisies. En moyenne, le nombre d’étiquettes par unité lexicale voyellée est de 9, alors que pour les unités lexicales non voyellées, elle peut atteindre 12 étiquettes par unité lexicale. Le mot لاََقأ signifie « est-ce qu’il a dit ? », « est-ce qu’il a fait la sieste ? » et « il a démis quelqu’un (de ses fonctions) ». A chaque cas correspond une racine différente. Un simple listing peut occulter un ou plusieurs de ces sens.
Un lexique est indispensable à tout étiqueteur de mot arabe qui doit attester à la fois de la bonne orthographe du mot et aussi de son appartenance à la langue.
L’ambigüité lexicale est due au fait que le dictionnaire permet d’attribuer plusieurs valeurs d’étiquettes pour une même entrée lexicale.
Le taux d’ambigüité évolue dans le même sens que la surface de la langue couverte par le lexique. Plus le lexique est riche plus il génère de possibilités d’analyse. Le nombre d’entrées et le nombre d’informations morpho-syntaxiques attachées aux lexèmes influent directement sur le taux des ambigüités lexicales.
Identification d’opinions dans les journaux arabes
Pour une langue agglutinante, aussi flexionnelle que l’arabe et de surcroit non vocalisé, nous devons nous attendre à plusieurs situations où les mêmes formes graphiques n’ont pas la même analyse morpho-syntaxique [Abbès, 2004].

L’analyse morphologique en arabe

L’analyse morphologique en arabe s’intéresse, comme les autres langues, aux formats du mot. Mais étant donnée la richesse du mot graphique, l’opération englobe rapidement des aspects formels de la langue, reléguant les traits sémantiques et pragmatiques en arrière plan.
Dans cette partie nous essayerons de présenter les difficultés posées lors d’une analyse morphologique ou morpho-syntaxique en détaillant les composants du mot graphique en arabe.

Difficulté de l’analyse morphologique de l’arabe

En analyse morphologique, le principal problème à résoudre est l’ambigüité. Il existe différents types d’ambigüités. D’abord, les mots peuvent être ambigus aux niveaux lexical et grammatical. Le mot « بهذ » est ambigu lexicalement. Il peut désigner l’or en français ou
encore le verbe aller. « بتاك », quant à lui, est ambigu grammaticalement. Il peut appartenir à plusieurs catégories grammaticales différentes : مسا ,لعف ,لعاف مسا. Le sens de ce mot sera très différent selon sa catégorie, nom : « écrivain » ou verbe « écrit » ; il peut appartenir à plusieurs catégories grammaticales différentes.
Le nombre de catégories auxquelles un mot peut appartenir dépend du jeu d’étiquettes choisies. En moyenne, le nombre d’étiquettes par unité lexicale voyellée est de 9, alors que pour les unités lexicales non voyellées, elles peuvent atteindre 12 étiquettes par unité lexicale. Un autre facteur pour la langue arabe, est le nombre d’unités lexicales ambigües dans un texte. Contrairement au français et à l’anglais, il peut concerner 66% des unités lexicales qui composent le texte. Ces difficultés peuvent poser plusieurs ambigüités au niveau sémantique et syntaxique [Abbès, 2004].

Ambiguïté dérivationnelle et flexionnelle

La flexion est la variation de la forme des mots en fonction de facteurs grammaticaux telle que la conjugaison pour les verbes (exemple : le mot نورثأتي (ils s’influencent) est le résultat de la concaténation du préfixe « ي » indiquant le présent et du suffixe «نو » indiquant le masculin pluriel du verbe « رثأت »).
Le problème en analyse morphologique de l’arabe se rapporte surtout au niveau de la dérivation qui est un phénomène plus complexe que la flexion. En effet, la dérivation est la formation de nouveaux mots à partir de mots existants. Dans le cas de la langue arabe, la plupart des mots sont dérivés à partir de racines trilitères ou quadrilitères. Le mot arabe n’est pas le résultat d’une simple concaténation de morphèmes comme c’est le cas en anglais (exemple : unfailingly = un+fail+ing+ly), mais c’est à partir d’une racine, d’une combinaison de voyelles, de préfixes, d’infixes, de suffixes et d’un schème morphologique qu’on obtient un mot (exemple : à partir de la racine «رثأ », on peut dériver plusieurs verbes tel que «رثأت » (s’influencer) et plusieurs noms tel que « رثأتم » (ému)).

Ambiguïté d’agglutination

Contrairement aux langues latines, en arabe, les articles, les prépositions, les noms, etc. collent aux adjectifs, noms, verbes et particules auxquels ils se rapportent. Comparé au français, un mot arabe peut parfois correspondre à une phrase française, (exemple : le mot en arabe «اننوركذتتأ » correspond en français à la phrase «Est-ce que vous vous souvenez de nous).
Cette caractéristique engendre une ambiguïté morphologique au cours de l’analyse. En effet il n’est pas toujours facile de distinguer un proclitique ou un enclitique d’un caractère original du mot. Par exemple le mot « حتفو » (et il a ouvert), il s’agit plutôt d’une proclitique.

Ambiguïté due à la non voyellation

La morphologie arabe est assez régulière lorsque les mots sont présentés sous leurs formes non voyellées. Cependant, la majorité des documents arabes sont non voyellés sauf pour le Coran et pour certains ouvrages scolaires pour les débutants. En fait, les mots non voyellés engendrent beaucoup de cas ambigus au cours de l’analyse (exemple : le mot non voyellés «لصف » pris hors contexte peut être un verbe au passé conjugué à la troisième
personne du singulier « لصَّ ف » (il a licencié), ou un nom masculin singulier « لص ف » (chapitre/saison), ou encore une concaténation de la conjonction de coordination «ّ ف » (puis) avec le verbe « لص » : impératif du verbe lié conjugué à la deuxième personne du singulier masculin).

Les vecteurs

Un vecteur est un ensemble de valeurs, ou composantes, représentant typiquement un objet ou un individu par des traits numériques. Par exemple, on peut décrire les habitants d’une ville par leur âge, revenu, niveau d’éducation, nombre d’enfants… Des traits qualitatifs (non numériques) comme le sexe, le statut marital, la profession, peuvent se traduire aisément en valeurs binaires, donc également numériques. Les traits peuvent être pondérés selon leur importance, mais ne sont pas autrement structurés entre eux.
En prenant ces valeurs comme des coordonnées dans un espace multidimensionnel, on retrouve la conception géométrique du vecteur : un point dans un espace à n dimensions. Ce point correspond à un segment de droite dirigé (une flèche) à partir de l’origine des coordonnées, ce qui est une représentation familière (bien que simpliste) des vecteurs. Le nombre de traits choisis pour décrire les individus en jeu est la dimension de l’espace vectoriel. Cette représentation vectorielle a l’avantage de récupérer dans une certaine mesure (demandant des précautions) notre intuition de l’espace physique habituel à trois dimensions, tout en permettant un nombre de dimensions quelconque, de plusieurs milliers si nécessaire. Le caractère à la foi algébrique et géométrique de l’algèbre linéaire en font ainsi un domaine très fructueux. La théorie est maintenant très bien comprise et formalisée, et on en a tiré de nombreuses applications.
En bref, on peut voir plus ou moins intuitivement un espace vectoriel comme un espace abstrait à nombre quelconque de dimensions. Une fois que des objets (par exemple des documents) auront été représentés par de vecteurs dans un espace vectoriel approprié, on pourra les traiter grâce aux opérations usuelles sur les vecteurs. Les opérations de base sont l’addition vectorielle et la multiplication par u scalaire, qui sont des généralisations de l’addition et de la multiplication ordinaires.
On additionne deux vecteurs en additionnant leurs composantes terme à terme (les deux vecteurs doivent avoir la même dimension), on multiplie un vecteur en multipliant chacune de ses composantes par un nombre. D’autres opérations s’en déduisent aisément, comme la soustraction vectorielle et la division par un scalaire.
Mais on cherche aussi très souvent à mesurer la ressemblance ou similitude de deux vecteurs, et on dispose pour cela d’opérations précises et faciles à calculer comme le produit scalaire. Ce dernier permet de mesurer des notions géométriques comme longueur, angle ou distance.[Memmi, 2000].

Méthodes de représentation des textes

D’après [Jaillet, 2004], il existe trois méthodes de représentation de textes : la représentation statistique, la représentation conceptuelle, et une autre méthode qui réunit les avantages des représentations statistiques et conceptuelles, appelée représentation mixte.

Représentation statistique

Le formalisme le plus utilisé pour représenter les textes est le formalisme vectoriel. Dans ce formalisme, chaque dimension de l’espace vectoriel correspond à un mot, que l’on nomme terme d’indexation. La représentation vectorielle consiste à associer à chaque mot une dimension au sein de l’espace. Cette représentation offre l’avantage de représenter chaque sens sur une dimension propre de l’espace.
L’utilisation des mots, est possible mais pose toutefois un certain nombre de problèmes. En effet, il existe plusieurs dizaines de milliers de mots et associer à chacun de ces mots un sens, c’est à dire une dimension de l’espace, est maladroit. Un prétraitement linguistique en amont de la représentation est la plupart du temps mis en place afin de résoudre ce problème. Les deux prétraitements les plus connus sont : la radicalisation et la lemmatisation.

Représentation conceptuelle

Une autre méthode de représentation, bien que se basant aussi sur le formalisme vectoriel pour représenter les documents, reste fondamentalement différente de la représentation précédente. Les dimensions de l’espace vectoriel ne sont pas associées ici à des termes d’indexation mais à des concepts. Pour permettre une telle représentation des documents, il est nécessaire de pouvoir projeter n’importe quelle lexie du dictionnaire sur l’espace généré par l’ensemble des concepts prédéfinis.
Exemple : Les concepts : pic, cime, sommet, crête peuvent être réduits à un seul.

Représentation mixte

L’avantage de la représentation conceptuelle est en particulier, de réduire les effets synonymiques du vocabulaire Par exemple, “pic”, “cime”, “sommet”, “crête” possèdent des sens en commun. Lors d’une représentation statistique, chaque mot sera associé à une dimension. Il n’y aura donc aucune ressemblance entre des textes utilisant ces différents mots. L’avantage de la représentation conceptuelle est que des mots synonymes partagent au moins un concept. Cependant, l’inconvénient majeur de la représentation conceptuelle est que les noms propres du document ne sont pas pris en compte. En effet les noms propres, étant sémantiquement vides par définition, ne possèdent pas de représentation au sein du thésaurus. Par exemple les mots « Ferrari » et « Renault » sont définis comme des vecteurs « nuls » alors qu’ils peuvent être utile lors d’un processus de catégorisation, notamment pour des catégories de type : « Automobile ».
L’idée de la représentation mixte est donc d’allier, à une représentation conceptuelle pure, une dimension statistique supplémentaire. Cette double représentation des textes a pour avantage de fournir deux informations différentes et complémentaires à un processus de catégorisation. En effet, la représentation statistique permet de mettre en évidence le vocabulaire discriminant tandis que la représentation conceptuelle permet quant à elle, d’obtenir une vision plus globale du texte en projetant ce dernier sur un ensemble de concepts. Cette projection permet d’en déduire le « champ sémantique » du texte en question. Chaque document dans le processus de catégorisation mixte sera représenté par un vecteur défini comme la concaténation des deux vecteurs suivants :
– La première moitié du vecteur mixte correspondra au vecteur statistique.
– La seconde moitié du vecteur mixte correspondra au vecteur conceptuel.

Représentation sémantiques des textes

Une des difficultés majeures de la catégorisation concerne la dimension extrêmement élevée de l’espace de représentation. Celui-ci se compose en effet d’un ensemble de termes uniques (mots ou phrases) dont la dimension peut atteindre plusieurs centaines de milliers pour une collection de textes relativement modérée, or seuls quelques traitements basés sur les réseaux neuronaux sont actuellement capables de traiter un si grand nombre de nœuds. Il est donc hautement souhaitable de réduire la dimension de l’espace d’origine, mais sans sacrifier pour autant la précision de la classification.
Au cours de dernières années, plusieurs recherches ont été axe pour remédier ce problème.
Nous présentons dans cette partie les deux célèbres méthodes de représentation sémantique des textes : LSA et ExpLSA.

La méthode LSA (Latent Semantic Analysis)

La méthode LSA est fondée sur le fait que des mots qui apparaissent dans un même contexte sont sémantiquement proches. Le corpus est représenté sous forme matricielle. Les lignes sont relatives aux mots et les colonnes représentent les différents contextes choisis (un document, un paragraphe, une phrase, etc.). Chaque cellule de la matrice représente le nombre d’occurrences des mots dans chacun des contextes du corpus. Deux mots proches au niveau sémantique sont représentés par des vecteurs proches. La mesure de proximité est généralement définie par le cosinus de l’angle entre les deux vecteurs. [Béchet, et al., 2008].

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
Chapitre 1 : Identification d‘opinions
1.1. Introduction
1.2. Définitions
1.3. Travaux de recherche
1.4. Domaines de recherche
1.5. Conclusion
Chapitre 2 : Prétraitement de textes arabes
2.1. Introduction
2.2. Problèmes du traitement automatique de la langue arabe
2.2.1. La vocalisation
2.2.2. La Chadda
2.2.3. La confusion dans l’écriture de certaines lettres
2.2.4. Le Tanwin
2.2.5. Le caractère ‘
2.2.6. Mots étrangers translittérés en arabe
2.2.7. L’ambigüité
2. 3. L’analyse morphologique en arabe
2.3.1. Difficulté de l’analyse morphologique de l’arabe
2.3.1.1. Ambiguïté dérivationnelle et flexionnelle
2.3.1.2. Ambiguïté d’agglutination
2.3.1.3. Ambiguïté dues à la non voyellation
2.3.2. Le modèle du mot dans les prétraitements en arabe
2.3.3. Composition de lexique utilisé en analyse morphologique
2.3.3.1. Les particules
2.3.3.1.1. Les préfixes
2.3.3.1.2. Les suffixes
2.3.3.1.3. Les proclitiques
2.3.3.1.4. Les enclitiques
2.3.3.1.5. Les pré-bases
2.3.3.1.6. Les post-bases
2.3.3.1.7. La particule vide
2.3.3.2. Les lexèmes
2.3.3.3. Les mots outils
2.3.4. Désambigüisation
2.3.4.1. Quelques techniques de désambigüisation
2.3.4.1.1. Segmentation des textes
2.4.1.2. Détection de la racine
2.4. Etapes de processus du prétraitement
2.5. Conclusion
Chapitre 3 : Représentation de textes
3.1. Introduction
.2. Concepts fondamentaux
3.2.1. Les espaces vectoriels
3.2.2. Les vecteurs
3.3. Méthodes de représentation des textes
3.3.1. Représentation statistique
3.3.2. Représentation conceptuelle
3.3.3. Représentation mixte
3.4. Représentation sémantiques des textes
3.4.1. La méthode LSA (Latent Semantic Analysis)
3.4.1.1. Limites de LSA
3.4.1.2. L’ajout de connaissances syntaxiques à LSA
3.4.2. La méthode ExpLSA (Expansion Latent Semantic Analysis)
3.4.2.1. Principe de la méthode ExpLSA
3.4.2.1.1. Utilisation d’un analyseur syntaxique
3.4.2.1.2. Regroupement des objets en fonction de la proximité des verbes
3.5. L’enrichissement appliqué à la classification de textes
3.6. Comparaison
3.7. Conclusion
Chapitre 4 : Classification d’opinions
4.1. Introduction
4.2. Définitions
4.3. Techniques de classification de textes
4. 3.1. Classification supervisée
4.3.1.1. Algorithmes de classification supervisée
4.3.2. Classification non supervisée
4.3.2.1. Quelques algorithmes de classification non supervisée
4.3.3. Critères d’agrégation
4.4. Classification d’opinions
4.4.1 Travaux de recherches
4.4.2 Méthodes de classification
4.5 Critères pour une bonne classification
4.7. Conclusion
Chapitre 5 : Notre système IOJAR
5.1. Introduction
5.2. Identification d’une opinion
5.2.1. Modèle conceptuel
5.2.2. Représentation XML d’une opinion
5.2.3. Extraction des éléments d’opinion
5.3. Notre système d’identification
5.3.1. Constitution du corpus
5.3.2. Architecture générale
5.3.2.1. Prétraitement de textes
5.3.2.1.1. Encodage uniques des textes
5.3.2.1.2. Normalisation des textes
5.3.2.1.3. Suppression des mots vides
5.3.2.1.4. Correction des fautes d’orthographes et des incohérences
5.3.2.1.5. Traitement des ambigüités
5.3.2.2. Identification d’opinions
5.3.2.2.1. Extraction de segments porteurs d’opinions
5.3.2.2.2. Extraction des éléments et d’attributs d’opinions
5.3.2.3. Expansion sémantique des textes d’opinions
5.3.2.4. Classification d’opinions
5.3. Conclusion
Chapitre 6 : Implémentation
6.1. Introduction
6.2. Environnement de développement
6.2.1. Java
6.2.2. Eclipse IDE (Integrated Development Environment)
6.3. Description de IOJAR
6.4. Déroulement
6.4.1. Sélection des textes
6.4.2. Prétraitement des textes
6.4.3. Identification des opinions
6.4.3.1. Extraction des segments porteurs d’opinions
6.4.3.2. Identification des éléments d’opinions
6.4.3.3. Représentation XML d’opinions identifiées
6.4.4. Expansion sémantique de textes d’opinions
6.4.5. Classification des opinions
6.5. Interprétation des résultats
6.6. Conclusion
Conclusion et perspectives
Références bibliographiques
Références Webographiques

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *