Traitement automatique du langage naturel (TALN)

Un bouleversement considérable s’est apparu dans les années 90 : ordinateurs personnels standardisés, avec des capacités de stockage et de traitement en progression exponentielle, ainsi que l’apparition du Web qui a marqué l’apogée technologique en informatique. Dans tout ce changement est née « l’ingénierie linguistique ». La linguistique appelée aussi sciences du langage, est l’étude scientifique des langues naturelles de l’espèce humaine.
Les textes constituent la masse d’information la plus présente sur le Web (le son et les images sont plus récents). Ainsi toute contribution au classement, au traitement des documents textuels et l’extraction de l’information devient une préoccupation principale.
C’est dans cette perspective que l’ingénierie linguistique se met ainsi au service de la “fouille de textes” où on remarque la domination des méthodes statistiques sur les méthodes symboliques.
Pour distinguer la langue humaine, on parle actuellement des “langues naturelles”, contrairement aux “langues artificielles” ou “formelles” que sont les langages de programmation informatique ou la logique mathématique. « On regroupe sous le vocable de traitement automatique du langage naturel (TALN) l’ensemble des recherches et développements visant à modéliser et à reproduire, à l’aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques dans des buts de communication » Véronis (2001) ; Tellier (2010) ; Yvon (2010) Le traitement automatique du langage, récemment à la croisée de la linguistique, de l’informatique et de l’intelligence artificielle, voit ses applications, ses programmes et beaucoup de techniques informatiques, au service du langage humain en vue d’appréhender le sens des données en langage naturel. Une compréhension de haut niveau pour ce raisonnement humain a était longtemps recherchée et considérée comme le but extrême des premiers travaux.
Ce chapitre présente ce que peut être un traitement automatique du langage naturel TALN, son architecture, ses niveaux d’analyse du langage traité et ses différents formalismes de représentation de connaissances et du sens sont exposés. Un aperçu d’horizon sur les différents systèmes ou outils TALN, développé pour la langue arabe sera traité à la fin de ce chapitre.

Les différents niveaux d’analyse en TALN

L’analyse d’un système TALN
A ce niveau, deux études formelles ont été menées. L’une peu ancienne, au niveau de la morphologie et de la syntaxe, et l’autre beaucoup plus récente au niveau de la sémantique et de la pragmatique linguistique. A noter qu’on confond souvent la sémantique lexicale, qui explique le sens d’unités individuelles, et la sémantique propositionnelle qui étudie le sens d’énoncés dans son ensemble et à qui on peut lui donner une valeur de vérité.

Analyse morphologique
La morphologie : interprète comment les mots sont structurés et quels sont leurs rôles dans la phrase. Cette analyse consiste à une segmentation du texte en unités élémentaires auxquelles sont attachées des connaissances dans le système : une fois cette segmentation effectuée, ce n’est plus le texte qui est manipulé, mais une liste ordonnée d’unités. Pour le traitement d’un texte numérique : on part d’une chaîne de caractères typographiques, et on essaie de la segmenter de manière à ce que chaque partie corresponde à une unité classée dans le système.
Exemple :

soit la chaîne de caractères « التفاحة يأكل عـمر »
La segmentation se fera de la manière suivante :
U1 = يأكل
U2= عـمر
U3= التفاحة
Maintenant, on pourra associer toutes sortes d’informations aux Ui (i = 1, 2, 3, …), comme par exemple : U2 = عـمر
Informations morpho-syntaxiques : nom propre, masculin, singulier.
Informations sémantiques : animé, humain, prénom …
du monde Connaissances
U1 = يأكل
Forme lemmatisée : أكل
Informations morpho-syntaxiques : verbe , passé , indicatif , 3ème personne, singulier, constructions : transitif, … Idem pour U3…
Remarque : il y a des phénomènes (concernant le choix et le statut des unités) qui sont répertoriés de longue date par les linguistes : qui conduisent à s’interroger sur la notion de mot : élisions1 , amalgames, flexions, dérivations, compositions, …

Analyse syntaxique
C’est une partie de la grammaire qui traite la manière dont les mots peuvent se combiner pour former des propositions et de l’enchaînement des propositions entre elles. Cela consiste à associer, à la chaîne découpée en unités, une représentation des groupements structurels entre ces unités ainsi que des relations fonctionnelles qui unissent les groupes d’unités (voir Fig.3).
Le résultat de l’analyse syntaxique pourra être par exemple l’arbre suivant :

Analyse sémantique
Le niveau sémantique est encore beaucoup plus complexe à décrire et à formaliser que les niveaux précédemment énoncés. De ce fait, peu d’outils de traitement reste opérationnel ou du moins, concernent des applications très réduites où l’analyse sémantique se limite à un domaine parfaitement étroit ; par contre, il reste beaucoup à apprendre sur la manière de construire en grandeur réelle des analyseurs sémantiques généraux qui couvriraient la totalité de la langue arabe et seraient indépendants d’un domaine d’application particulier.
La phrase est l’unité d’analyse principale que prend en charge le traitement sémantique afin de représenter sa partie significative. Ces phrases, dont l’analyseur sémantique doit décrire le sens, se composent d’un certain nombre de mots identifiés par l’analyse morphologique, et regroupés en structures par l’analyse syntaxique. Ces mots et ces structures constituent autant d’indices pour le calcul du sens : on pourrait dire, que le sens résulte de la double-donnée du sens des mots et du sens des relations entre ces mots.

Analyse contextuelle
La phrase traitée hors contexte, c’est-à-dire isolé de son texte, n’a peut être pas le même sens que dans son contexte. L’analyse sémantique de la phrase isolée, nous amène à représenter la partie de la signification des mots dans cette phrase, elle n’épuise donc pas ce que l’on peut appeler la signification complète d’un texte, à savoir les relations existantes entre les phrases du texte telles que l’humain l’appréhende lors d’un processus de compréhension.
C’est ainsi qu’intervient l’analyse contextuelle qui consiste à trouver la signification « réelle » des phrases liées aux conditions positionnelles et contextuelles d’utilisation des mots.

Le sens

Le sens est partout dans le traitement automatique des langues : il faudrait parler des aspects :
→ Lexicaux (quels liens existent entre les mots et leurs sens ?).
→ Syntaxiques (quel sens est porté par les structures dans lesquelles ces mots
interviennent?).
→ Sémantiques bien sûr (comment sont représentées, obtenues et traitées des significations ?)
→ Contextuelles (quelles sont les influences des connaissances sur le monde et la situation pour déterminer le sens ?)…

Le problème du sens

Qu’est ce que le mot « sens » ? Tout le monde répondra à première vue que c’est « approfondir un peu », c’est-à-dire aller plus loin que « le sens d’un terme, que veut-il
évoquer ? ». Plusieurs interprétations du sens du mot « sens » peuvent exister. Toutes ces définitions dévoilent le flou qui couvre ce domaine, mais permettent aussi de souligner une différence entre le sens fondamental et le sens interprété, lié également à la prise en considération ou non du contexte [JPM-00]. En effet, une grande partie des travaux en intelligence artificielle et surtout en traitement automatique des langues suppose (implicitement ou non) la possibilité de calculer un sens littéral (qui relève de ce qui est alors appelé sémantique), puis de l’interpréter selon les connaissances générales sur le monde de référence, le contexte et les caractéristiques des interlocuteurs (on parle alors de contextuel).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION GENERALE
PROBLEMATIQUE
OBJECTIF
MOTIVATION POUR UNE APPROCHE D’ONTOLOGIE LEXICALE
PLAN DU MEMOIRE
Chapitre 1 : Traitement automatique du langage naturel (TALN)
2. LES DIFFERENTS NIVEAUX D’ANALYSE EN TALN
2.1. L’ANALYSE D’UN SYSTEME TALN
2.1.1. Analyse morphologique
2.1.2. Analyse syntaxique
2.1.3 Analyse sémantique
2.1.4 Analyse contextuelle
2.2. LE SENS
2.3. LE PROBLEME DU SENS
3. COMPREHENSION ET FORMALISMES DE REPRESENTATIONS DIVERSES
3.1. LA COMPREHENSION D’UN TEXTE
3.2. LE SENS ET SA REPRESENTATION
3.3. LES LOGIQUES
3.4. LES GRAPHES CONCEPTUELS
3.5. STRUCTURES DE TRAITS (SDT)
4. REPRESENTATION DES CONNAISSANCES LINGUISTIQUES
4.1. LES LEXIQUES
4.2. LES GRAMMAIRES FORMELLES
4.3. LES MOTS CLEFS D’UN TEXTE
5. CONNAISSANCES DU MONDE (CM) ET CONNAISSANCES LINGUISTIQUES (CL)
5.1 METHODOLOGIE D’IDENTIFICATION DES CONNAISSANCES ENCODEES DANS LE LEXIQUE
5.1.1 Encodage des Connaissances du Monde (CM)
5.1.2 Comment les connaissances sont lexicalisées ?
5.1.3. Dictionnaires et connaissances lexicalisées
a/ Détermination du genre prochain (hyperonymie)
b/ Détermination des différences spécifiques
5.2 FOUILLE DES CONNAISSANCES DANS LES LIENS LEXICAUX
6. LES OUTILS DU TRAITEMENT AUTOMATIQUE DE LA LANGUE (TAL) ARABE
6.1. ANALYSEURS MORPHOLOGIQUE
6.1.1. L’analyseur morphologique à états finis de Beesley 2001 (Xerox)
6.1.2 L’analyseur morphologique de Buckwalter : Aramorph
6.1.3 L’analyseur morphologique Sebawi de Darwish
6.2. LES PART OF SPEECH TAGGERS:
6.3. LE TAGGER APT DE KHOJA
7. CONCLUSION
Chapitre 2 : Les ontologies
1. INTRODUCTION
2. LA NOTION ONTOLOGIE
2.1. L’ORIGINE DES ONTOLOGIES
2.2. QU’EST CE QU’UNE ONTOLOGIE ?
2.3. POURQUOI LES ONTOLOGIES ?
2.4. LA REPRESENTATION DES CONNAISSANCES ET LES ONTOLOGIES
2.5. LES CONSTITUANTS D’UNE ONTOLOGIE
2.5.1. Les connaissances et domaines de connaissance
2.5.2. Les concepts et les relations
a. Concepts
b. Relations
2.6. LES FORMALISMES DE REPRESENTATION [GAE02]
2.6.1. Les formalismes logiques
2.6.2. Les réseaux sémantiques
2.6.3. Les schémas (Frame)
2.6.4. Les scripts
3. CONSTRUCTION D’UNE ONTOLOGIE
3.1. LE CYCLE DE VIE DES ONTOLOGIES
3.1.1. Evaluation des besoins
3.1.2. Conceptualisation [FUR02]
3.1.3. Ontologisation
3.1.4. Opérationnalisation
3.2. L’EVALUATION ET L’EVOLUTION D’UNE ONTOLOGIE
3.3. LA FUSION DES ONTOLOGIES
3.4. METHODOLOGIE ET OUTILS DE CONSTRUCTION D’ONTOLOGIES
4. CLASSIFICATION DES ONTOLOGIES
5. CONCLUSION
Chapitre 3 : Ontologie WordNet (Modèle de notre axe de recherche)
1. HISTORIQUE ET ORIGINE
2. PRESENTATION DE WORDNET
3. CONCEPTION & STRUCTURE DE WORDNET
3.1. SYNSET
3.2. ORGANISATION
3.3. LA MATRICE LEXICALE
4. LES RELATIONS DANS WORDNET
4.1. SYNONYMIE
4.2. ANTONYMIE
4.3. L’HYPERONYMIE / HYPONYMIE
4.4. MERONYMIE
5. LES VERBES DANS WORDNET (RESEAU SEMANTIQUE)
6. L’HYPONYMIE ENTRE LES VERBES
7. POLYSEMIE
8. ARABIC WORDNET (AWN)
8.1. L’ECRITURE ARABE [BLA06]
8.2. DESCRIPTION D’AWN
8.3. CONSTRUCTION D’ARABIC WORDNET (AWN)
8.4. L’INTERFACE UTILISATEUR
9. CONCLUSION
Chapitre 4 : Etat de l’art – Apprentissage ontologique (Extraction des connaissances à partir des textes)
INTRODUCTION
PARTIE I : COMPARAISON ENTRE DIFFERENTS SYSTEMES & APPROCHES
1. LES SYSTEMES D’APPRENTISSAGES ONTOLOGIQUES
2. LES SIX DIMENSIONS DE COMPARAISON
2.1. LES ELEMENTS A APPRENDRE
2.1.1. Les termes
2.1.2. Les concepts
2.1.3. Les instances
2.1.4. Les relations entre concepts
2.1.5. Les axiomes
2.1.6. Les Méta-connaissances
2.2. LES SOURCES D’APPRENTISSAGES
2.2.1. Les sources réutilisables (Ontologie de base)
2.2.2. Les entrées
2.3. LE PRETRAITEMENT
2.4. LES METHODES D’APPRENTISSAGES
2.4.1. Approches d’apprentissage
a. L’approche statistique
b. L’approche logique
c. Les approches linguistiques
d. Les approches basées sur les Patrons (Pattern matching approaches)
e. Les approches heuristiques
f. Stratégie d’apprentissage Multiples
2.4.2. Les tâches d’apprentissage
2.4.3. Le degré d’automatisation
2.5. LES RESULTATS
2.6. L’EVALUATION
PARTI II : APPRENTISSAGE ONTOLOGIQUE
TECHNIQUES ET APPROCHES
1. INTRODUCTION
2. CLASSIFICATION DES SOURCES D’APPRENTISSAGE
3. UN PROCESSUS D’APPRENTISSAGE CONSENSUEL
4. METHODES D’EXTRACTION DES TERMES (LEXICAUX)
4.1. EXTRACTION DES FUTURS CONCEPTS.
4.2. OUTILS D’EXTRACTION
4.2.1. Méthodes statistiques
4.2.2. Méthodes à base de dictionnaires (notre axe de recherche)
4.3. EXTRACTION DE RELATION
4.4. RELATIONS TAXONOMIQUES
CONCLUSION