Traitement automatique du langage naturel (TALN)
Un bouleversement considรฉrable sโest apparu dans les annรฉes 90 : ordinateurs personnels standardisรฉs, avec des capacitรฉs de stockage et de traitement en progression exponentielle, ainsi que lโapparition du Web qui a marquรฉ lโapogรฉe technologique en informatique. Dans tout ce changement est nรฉe ยซ lโingรฉnierie linguistique ยป. La linguistique appelรฉe aussi sciences du langage, est lโรฉtude scientifique des langues naturelles de lโespรจce humaine.
Les textes constituent la masse dโinformation la plus prรฉsente sur le Web (le son et les images sont plus rรฉcents). Ainsi toute contribution au classement, au traitement des documents textuels et lโextraction de lโinformation devient une prรฉoccupation principale.
Cโest dans cette perspective que lโingรฉnierie linguistique se met ainsi au service de la โfouille de textesโ oรน on remarque la domination des mรฉthodes statistiques sur les mรฉthodes symboliques.
Pour distinguer la langue humaine, on parle actuellement des โlangues naturellesโ, contrairement aux โlangues artificiellesโ ou โformellesโ que sont les langages de programmation informatique ou la logique mathรฉmatique. ยซ On regroupe sous le vocable de traitement automatique du langage naturel (TALN) lโensemble des recherches et dรฉveloppements visant ร modรฉliser et ร reproduire, ร lโaide de machines, la capacitรฉ humaine ร produire et ร comprendre des รฉnoncรฉs linguistiques dans des buts de communication ยป Vรฉronis (2001) ; Tellier (2010) ; Yvon (2010) Le traitement automatique du langage, rรฉcemment ร la croisรฉe de la linguistique, de l’informatique et de l’intelligence artificielle, voit ses applications, ses programmes et beaucoup de techniques informatiques, au service du langage humain en vue dโapprรฉhender le sens des donnรฉes en langage naturel. Une comprรฉhension de haut niveau pour ce raisonnement humain a รฉtait longtemps recherchรฉe et considรฉrรฉe comme le but extrรชme des premiers travaux.
Ce chapitre prรฉsente ce que peut รชtre un traitement automatique du langage naturel TALN, son architecture, ses niveaux dโanalyse du langage traitรฉ et ses diffรฉrents formalismes de reprรฉsentation de connaissances et du sens sont exposรฉs. Un aperรงu dโhorizon sur les diffรฉrents systรจmes ou outils TALN, dรฉveloppรฉ pour la langue arabe sera traitรฉ ร la fin de ce chapitre.
Les diffรฉrents niveaux dโanalyse en TALN
Lโanalyse dโun systรจme TALN
A ce niveau, deux รฉtudes formelles ont รฉtรฉ menรฉes. Lโune peu ancienne, au niveau de la morphologie et de la syntaxe, et lโautre beaucoup plus rรฉcente au niveau de la sรฉmantique et de la pragmatique linguistique. A noter quโon confond souvent la sรฉmantique lexicale, qui explique le sens dโunitรฉs individuelles, et la sรฉmantique propositionnelle qui รฉtudie le sens dโรฉnoncรฉs dans son ensemble et ร qui on peut lui donner une valeur de vรฉritรฉ.
Analyse morphologique
La morphologie : interprรจte comment les mots sont structurรฉs et quels sont leurs rรดles dans la phrase. Cette analyse consiste ร une segmentation du texte en unitรฉs รฉlรฉmentaires auxquelles sont attachรฉes des connaissances dans le systรจme : une fois cette segmentation effectuรฉe, ce n’est plus le texte qui est manipulรฉ, mais une liste ordonnรฉe dโunitรฉs. Pour le traitement d’un texte numรฉrique : on part dโune chaรฎne de caractรจres typographiques, et on essaie de la segmenter de maniรจre ร ce que chaque partie corresponde ร une unitรฉ classรฉe dans le systรจme.
Exemple :
soit la chaรฎne de caractรจres ยซย ุงูุชูุงุญุฉ ูุฃูู ุนูู
ุฑ ย ยป
La segmentation se fera de la maniรจre suivante :
U1 = ูุฃูู
U2= ุนูู
ุฑ
U3= ุงูุชูุงุญุฉ
Maintenant, on pourra associer toutes sortes d’informations aux Ui (i = 1, 2, 3, …), comme par exemple : U2 = ุนูู
ุฑ
Informations morpho-syntaxiques : nom propre, masculin, singulier.
Informations sรฉmantiques : animรฉ, humain, prรฉnom …
du monde Connaissances
U1 = ูุฃูู
Forme lemmatisรฉe : ุฃูู
Informations morpho-syntaxiques : verbeย , passรฉ , indicatif , 3รจme personne, singulier, constructions : transitif, … Idem pour U3โฆ
Remarque : il y a des phรฉnomรจnes (concernant le choix et le statut des unitรฉs) qui sont rรฉpertoriรฉs de longue date par les linguistes : qui conduisent ร sโinterroger sur la notion de mot : รฉlisions1 , amalgames, flexions, dรฉrivations, compositions, …
Analyse syntaxique
C’est une partie de la grammaire qui traite la maniรจre dont les mots peuvent se combiner pour former des propositions et de lโenchaรฎnement des propositions entre elles. Cela consiste ร associer, ร la chaรฎne dรฉcoupรฉe en unitรฉs, une reprรฉsentation des groupements structurels entre ces unitรฉs ainsi que des relations fonctionnelles qui unissent les groupes dโunitรฉs (voir Fig.3).
Le rรฉsultat de l’analyse syntaxique pourra รชtre par exemple l’arbre suivant :
Analyse sรฉmantique
Le niveau sรฉmantique est encore beaucoup plus complexe ร dรฉcrire et ร formaliser que les niveaux prรฉcรฉdemment รฉnoncรฉs. De ce fait, peu dโoutils de traitement reste opรฉrationnel ou du moins, concernent des applications trรจs rรฉduites oรน l’analyse sรฉmantique se limite ร un domaine parfaitement รฉtroit ; par contre, il reste beaucoup ร apprendre sur la maniรจre de construire en grandeur rรฉelle des analyseurs sรฉmantiques gรฉnรฉraux qui couvriraient la totalitรฉ de la langue arabe et seraient indรฉpendants d’un domaine d’application particulier.
La phrase est lโunitรฉ dโanalyse principale que prend en charge le traitement sรฉmantique afin de reprรฉsenter sa partie significative. Ces phrases, dont l’analyseur sรฉmantique doit dรฉcrire le sens, se composent d’un certain nombre de mots identifiรฉs par l’analyse morphologique, et regroupรฉs en structures par l’analyse syntaxique. Ces mots et ces structures constituent autant d’indices pour le calcul du sens : on pourrait dire, que le sens rรฉsulte de la double-donnรฉe du sens des mots et du sens des relations entre ces mots.
Analyse contextuelle
La phrase traitรฉe hors contexte, c’est-ร -dire isolรฉ de son texte, nโa peut รชtre pas le mรชme sens que dans son contexte. L’analyse sรฉmantique de la phrase isolรฉe, nous amรจne ร reprรฉsenter la partie de la signification des mots dans cette phrase, elle n’รฉpuise donc pas ce que l’on peut appeler la signification complรจte d’un texte, ร savoir les relations existantes entre les phrases du texte telles que l’humain l’apprรฉhende lors d’un processus de comprรฉhension.
C’est ainsi quโintervient lโanalyse contextuelle qui consiste ร trouver la signification ยซย rรฉelleย ยป des phrases liรฉes aux conditions positionnelles et contextuelles dโutilisation des mots.
Le sens
Le sens est partout dans le traitement automatique des langues : il faudrait parler des aspects :
โ Lexicaux (quels liens existent entre les mots et leurs sens ?).
โ Syntaxiques (quel sens est portรฉ par les structures dans lesquelles ces mots
interviennent?).
โ Sรฉmantiques bien sรปr (comment sont reprรฉsentรฉes, obtenues et traitรฉes des significations ?)
โ Contextuelles (quelles sont les influences des connaissances sur le monde et la situation pour dรฉterminer le sens ?)โฆ
Le problรจme du sens
Qu’est ce que le mot ยซ sens ยป ? Tout le monde rรฉpondra ร premiรจre vue que cโest ยซ approfondir un peu ยป, cโest-ร -dire aller plus loin que ยซย le sens d’un terme, que veut-il
รฉvoquer ?ย ยป. Plusieurs interprรฉtations du sens du mot ยซย sensย ยป peuvent exister. Toutes ces dรฉfinitions dรฉvoilent le flou qui couvre ce domaine, mais permettent aussi de souligner une diffรฉrence entre le sens fondamental et le sens interprรฉtรฉ, liรฉ รฉgalement ร la prise en considรฉration ou non du contexte [JPM-00]. En effet, une grande partie des travaux en intelligence artificielle et surtout en traitement automatique des langues suppose (implicitement ou non) la possibilitรฉ de calculer un sens littรฉral (qui relรจve de ce qui est alors appelรฉ sรฉmantique), puis de l’interprรฉter selon les connaissances gรฉnรฉrales sur le monde de rรฉfรฉrence, le contexte et les caractรฉristiques des interlocuteurs (on parle alors de contextuel).
|
Table des matiรจres
INTRODUCTION GENERALE
PROBLEMATIQUE
OBJECTIF
MOTIVATION POUR UNE APPROCHE DโONTOLOGIE LEXICALE
PLAN DU MEMOIRE
Chapitre 1 : Traitement automatique du langage naturel (TALN)
2. LES DIFFERENTS NIVEAUX DโANALYSE EN TALN
2.1. LโANALYSE DโUN SYSTEME TALN
2.1.1. Analyse morphologique
2.1.2. Analyse syntaxique
2.1.3 Analyse sรฉmantique
2.1.4 Analyse contextuelle
2.2. LE SENS
2.3. LE PROBLEME DU SENS
3. COMPREHENSION ET FORMALISMES DE REPRESENTATIONS DIVERSES
3.1. LA COMPREHENSION D’UN TEXTE
3.2. LE SENS ET SA REPRESENTATION
3.3. LES LOGIQUES
3.4. LES GRAPHES CONCEPTUELS
3.5. STRUCTURES DE TRAITS (SDT)
4. REPRESENTATION DES CONNAISSANCES LINGUISTIQUES
4.1. LES LEXIQUES
4.2. LES GRAMMAIRES FORMELLES
4.3. LES MOTS CLEFS DโUN TEXTE
5. CONNAISSANCES DU MONDE (CM) ET CONNAISSANCES LINGUISTIQUES (CL)
5.1 METHODOLOGIE DโIDENTIFICATION DES CONNAISSANCES ENCODEES DANS LE LEXIQUE
5.1.1 Encodage des Connaissances du Monde (CM)
5.1.2 Comment les connaissances sont lexicalisรฉes ?
5.1.3. Dictionnaires et connaissances lexicalisรฉes
a/ Dรฉtermination du genre prochain (hyperonymie)
b/ Dรฉtermination des diffรฉrences spรฉcifiques
5.2 FOUILLE DES CONNAISSANCES DANS LES LIENS LEXICAUX
6. LES OUTILS DU TRAITEMENT AUTOMATIQUE DE LA LANGUE (TAL) ARABE
6.1. ANALYSEURS MORPHOLOGIQUE
6.1.1. Lโanalyseur morphologique ร รฉtats finis de Beesley 2001 (Xerox)
6.1.2 Lโanalyseur morphologique de Buckwalter : Aramorph
6.1.3 Lโanalyseur morphologique Sebawi de Darwish
6.2. LES PART OF SPEECH TAGGERS:
6.3. LE TAGGER APT DE KHOJA
7. CONCLUSION
Chapitre 2 : Les ontologies
1. INTRODUCTION
2. LA NOTION ONTOLOGIE
2.1. LโORIGINE DES ONTOLOGIES
2.2. QUโEST CE QUโUNE ONTOLOGIE ?
2.3. POURQUOI LES ONTOLOGIES ?
2.4. LA REPRESENTATION DES CONNAISSANCES ET LES ONTOLOGIES
2.5. LES CONSTITUANTS DโUNE ONTOLOGIE
2.5.1. Les connaissances et domaines de connaissance
2.5.2. Les concepts et les relations
a. Concepts
b. Relations
2.6. LES FORMALISMES DE REPRESENTATION [GAE02]
2.6.1. Les formalismes logiques
2.6.2. Les rรฉseaux sรฉmantiques
2.6.3. Les schรฉmas (Frame)
2.6.4. Les scripts
3. CONSTRUCTION DโUNE ONTOLOGIE
3.1. LE CYCLE DE VIE DES ONTOLOGIES
3.1.1. Evaluation des besoins
3.1.2. Conceptualisation [FUR02]
3.1.3. Ontologisation
3.1.4. Opรฉrationnalisation
3.2. LโEVALUATION ET LโEVOLUTION DโUNE ONTOLOGIE
3.3. LA FUSION DES ONTOLOGIES
3.4. METHODOLOGIE ET OUTILS DE CONSTRUCTION DโONTOLOGIES
4. CLASSIFICATION DES ONTOLOGIES
5. CONCLUSION
Chapitre 3 : Ontologie WordNet (Modรจle de notre axe de recherche)
1. HISTORIQUE ET ORIGINE
2. PRESENTATION DE WORDNET
3. CONCEPTION & STRUCTURE DE WORDNET
3.1. SYNSET
3.2. ORGANISATION
3.3. LA MATRICE LEXICALE
4. LES RELATIONS DANS WORDNET
4.1. SYNONYMIE
4.2. ANTONYMIE
4.3. LโHYPERONYMIE / HYPONYMIE
4.4. MERONYMIE
5. LES VERBES DANS WORDNET (RESEAU SEMANTIQUE)
6. L’HYPONYMIE ENTRE LES VERBES
7. POLYSEMIE
8. ARABIC WORDNET (AWN)
8.1. LโECRITURE ARABE [BLA06]
8.2. DESCRIPTION DโAWN
8.3. CONSTRUCTION DโARABIC WORDNET (AWN)
8.4. LโINTERFACE UTILISATEUR
9. CONCLUSION
Chapitre 4 : Etat de lโart – Apprentissage ontologique (Extraction des connaissances ร partir des textes)
INTRODUCTION
PARTIE I : COMPARAISON ENTRE DIFFERENTS SYSTEMES & APPROCHES
1. LES SYSTEMES DโAPPRENTISSAGES ONTOLOGIQUES
2. LES SIX DIMENSIONS DE COMPARAISON
2.1. LES ELEMENTS A APPRENDRE
2.1.1. Les termes
2.1.2. Les concepts
2.1.3. Les instances
2.1.4. Les relations entre concepts
2.1.5. Les axiomes
2.1.6. Les Mรฉta-connaissances
2.2. LES SOURCES DโAPPRENTISSAGES
2.2.1. Les sources rรฉutilisables (Ontologie de base)
2.2.2. Les entrรฉes
2.3. LE PRETRAITEMENT
2.4. LES METHODES DโAPPRENTISSAGES
2.4.1. Approches dโapprentissage
a. Lโapproche statistique
b. Lโapproche logique
c. Les approches linguistiques
d. Les approches basรฉes sur les Patrons (Pattern matching approaches)
e. Les approches heuristiques
f. Stratรฉgie d’apprentissage Multiples
2.4.2. Les tรขches dโapprentissage
2.4.3. Le degrรฉ dโautomatisation
2.5. LES RESULTATS
2.6. LโEVALUATION
PARTI II : APPRENTISSAGE ONTOLOGIQUE
TECHNIQUES ET APPROCHES
1. INTRODUCTION
2. CLASSIFICATION DES SOURCES DโAPPRENTISSAGE
3. UN PROCESSUS DโAPPRENTISSAGE CONSENSUEL
4. METHODES DโEXTRACTION DES TERMES (LEXICAUX)
4.1. EXTRACTION DES FUTURS CONCEPTS.
4.2. OUTILS DโEXTRACTION
4.2.1. Mรฉthodes statistiques
4.2.2. Mรฉthodes ร base de dictionnaires (notre axe de recherche)
4.3. EXTRACTION DE RELATION
4.4. RELATIONS TAXONOMIQUES
CONCLUSION
Tรฉlรฉcharger le rapport complet