Traitement automatique du langage naturel (TALN)

Traitement automatique du langage naturel (TALN)

Un bouleversement considรฉrable sโ€™est apparu dans les annรฉes 90 : ordinateurs personnels standardisรฉs, avec des capacitรฉs de stockage et de traitement en progression exponentielle, ainsi que lโ€™apparition du Web qui a marquรฉ lโ€™apogรฉe technologique en informatique. Dans tout ce changement est nรฉe ยซ lโ€™ingรฉnierie linguistique ยป. La linguistique appelรฉe aussi sciences du langage, est lโ€™รฉtude scientifique des langues naturelles de lโ€™espรจce humaine.
Les textes constituent la masse dโ€™information la plus prรฉsente sur le Web (le son et les images sont plus rรฉcents). Ainsi toute contribution au classement, au traitement des documents textuels et lโ€™extraction de lโ€™information devient une prรฉoccupation principale.
Cโ€™est dans cette perspective que lโ€™ingรฉnierie linguistique se met ainsi au service de la โ€œfouille de textesโ€ oรน on remarque la domination des mรฉthodes statistiques sur les mรฉthodes symboliques.
Pour distinguer la langue humaine, on parle actuellement des โ€œlangues naturellesโ€, contrairement aux โ€œlangues artificiellesโ€ ou โ€œformellesโ€ que sont les langages de programmation informatique ou la logique mathรฉmatique. ยซ On regroupe sous le vocable de traitement automatique du langage naturel (TALN) lโ€™ensemble des recherches et dรฉveloppements visant ร  modรฉliser et ร  reproduire, ร  lโ€™aide de machines, la capacitรฉ humaine ร  produire et ร  comprendre des รฉnoncรฉs linguistiques dans des buts de communication ยป Vรฉronis (2001) ; Tellier (2010) ; Yvon (2010) Le traitement automatique du langage, rรฉcemment ร  la croisรฉe de la linguistique, de l’informatique et de l’intelligence artificielle, voit ses applications, ses programmes et beaucoup de techniques informatiques, au service du langage humain en vue dโ€™apprรฉhender le sens des donnรฉes en langage naturel. Une comprรฉhension de haut niveau pour ce raisonnement humain a รฉtait longtemps recherchรฉe et considรฉrรฉe comme le but extrรชme des premiers travaux.
Ce chapitre prรฉsente ce que peut รชtre un traitement automatique du langage naturel TALN, son architecture, ses niveaux dโ€™analyse du langage traitรฉ et ses diffรฉrents formalismes de reprรฉsentation de connaissances et du sens sont exposรฉs. Un aperรงu dโ€™horizon sur les diffรฉrents systรจmes ou outils TALN, dรฉveloppรฉ pour la langue arabe sera traitรฉ ร  la fin de ce chapitre.

Les diffรฉrents niveaux dโ€™analyse en TALN

Lโ€™analyse dโ€™un systรจme TALN
A ce niveau, deux รฉtudes formelles ont รฉtรฉ menรฉes. Lโ€™une peu ancienne, au niveau de la morphologie et de la syntaxe, et lโ€™autre beaucoup plus rรฉcente au niveau de la sรฉmantique et de la pragmatique linguistique. A noter quโ€™on confond souvent la sรฉmantique lexicale, qui explique le sens dโ€™unitรฉs individuelles, et la sรฉmantique propositionnelle qui รฉtudie le sens dโ€™รฉnoncรฉs dans son ensemble et ร  qui on peut lui donner une valeur de vรฉritรฉ.

Analyse morphologique
La morphologie : interprรจte comment les mots sont structurรฉs et quels sont leurs rรดles dans la phrase. Cette analyse consiste ร  une segmentation du texte en unitรฉs รฉlรฉmentaires auxquelles sont attachรฉes des connaissances dans le systรจme : une fois cette segmentation effectuรฉe, ce n’est plus le texte qui est manipulรฉ, mais une liste ordonnรฉe dโ€™unitรฉs. Pour le traitement d’un texte numรฉrique : on part dโ€™une chaรฎne de caractรจres typographiques, et on essaie de la segmenter de maniรจre ร  ce que chaque partie corresponde ร  une unitรฉ classรฉe dans le systรจme.
Exemple :

soit la chaรฎne de caractรจres ยซย ุงู„ุชูุงุญุฉ ูŠุฃูƒู„ ุนู€ู…ุฑ ย ยป
La segmentation se fera de la maniรจre suivante :
U1 = ูŠุฃูƒู„
U2= ุนู€ู…ุฑ
U3= ุงู„ุชูุงุญุฉ
Maintenant, on pourra associer toutes sortes d’informations aux Ui (i = 1, 2, 3, …), comme par exemple : U2 = ุนู€ู…ุฑ
Informations morpho-syntaxiques : nom propre, masculin, singulier.
Informations sรฉmantiques : animรฉ, humain, prรฉnom …
du monde Connaissances
U1 = ูŠุฃูƒู„
Forme lemmatisรฉe : ุฃูƒู„
Informations morpho-syntaxiques : verbeย  , passรฉ , indicatif , 3รจme personne, singulier, constructions : transitif, … Idem pour U3โ€ฆ
Remarque : il y a des phรฉnomรจnes (concernant le choix et le statut des unitรฉs) qui sont rรฉpertoriรฉs de longue date par les linguistes : qui conduisent ร  sโ€™interroger sur la notion de mot : รฉlisions1 , amalgames, flexions, dรฉrivations, compositions, …

Analyse syntaxique
C’est une partie de la grammaire qui traite la maniรจre dont les mots peuvent se combiner pour former des propositions et de lโ€™enchaรฎnement des propositions entre elles. Cela consiste ร  associer, ร  la chaรฎne dรฉcoupรฉe en unitรฉs, une reprรฉsentation des groupements structurels entre ces unitรฉs ainsi que des relations fonctionnelles qui unissent les groupes dโ€™unitรฉs (voir Fig.3).
Le rรฉsultat de l’analyse syntaxique pourra รชtre par exemple l’arbre suivant :

Analyse sรฉmantique
Le niveau sรฉmantique est encore beaucoup plus complexe ร  dรฉcrire et ร  formaliser que les niveaux prรฉcรฉdemment รฉnoncรฉs. De ce fait, peu dโ€™outils de traitement reste opรฉrationnel ou du moins, concernent des applications trรจs rรฉduites oรน l’analyse sรฉmantique se limite ร  un domaine parfaitement รฉtroit ; par contre, il reste beaucoup ร  apprendre sur la maniรจre de construire en grandeur rรฉelle des analyseurs sรฉmantiques gรฉnรฉraux qui couvriraient la totalitรฉ de la langue arabe et seraient indรฉpendants d’un domaine d’application particulier.
La phrase est lโ€™unitรฉ dโ€™analyse principale que prend en charge le traitement sรฉmantique afin de reprรฉsenter sa partie significative. Ces phrases, dont l’analyseur sรฉmantique doit dรฉcrire le sens, se composent d’un certain nombre de mots identifiรฉs par l’analyse morphologique, et regroupรฉs en structures par l’analyse syntaxique. Ces mots et ces structures constituent autant d’indices pour le calcul du sens : on pourrait dire, que le sens rรฉsulte de la double-donnรฉe du sens des mots et du sens des relations entre ces mots.

Analyse contextuelle
La phrase traitรฉe hors contexte, c’est-ร -dire isolรฉ de son texte, nโ€™a peut รชtre pas le mรชme sens que dans son contexte. L’analyse sรฉmantique de la phrase isolรฉe, nous amรจne ร  reprรฉsenter la partie de la signification des mots dans cette phrase, elle n’รฉpuise donc pas ce que l’on peut appeler la signification complรจte d’un texte, ร  savoir les relations existantes entre les phrases du texte telles que l’humain l’apprรฉhende lors d’un processus de comprรฉhension.
C’est ainsi quโ€™intervient lโ€™analyse contextuelle qui consiste ร  trouver la signification ยซย rรฉelleย ยป des phrases liรฉes aux conditions positionnelles et contextuelles dโ€™utilisation des mots.

Le sens

Le sens est partout dans le traitement automatique des langues : il faudrait parler des aspects :
โ†’ Lexicaux (quels liens existent entre les mots et leurs sens ?).
โ†’ Syntaxiques (quel sens est portรฉ par les structures dans lesquelles ces mots
interviennent?).
โ†’ Sรฉmantiques bien sรปr (comment sont reprรฉsentรฉes, obtenues et traitรฉes des significations ?)
โ†’ Contextuelles (quelles sont les influences des connaissances sur le monde et la situation pour dรฉterminer le sens ?)โ€ฆ

Le problรจme du sens

Qu’est ce que le mot ยซ sens ยป ? Tout le monde rรฉpondra ร  premiรจre vue que cโ€™est ยซ approfondir un peu ยป, cโ€™est-ร -dire aller plus loin que ยซย le sens d’un terme, que veut-il
รฉvoquer ?ย ยป. Plusieurs interprรฉtations du sens du mot ยซย sensย ยป peuvent exister. Toutes ces dรฉfinitions dรฉvoilent le flou qui couvre ce domaine, mais permettent aussi de souligner une diffรฉrence entre le sens fondamental et le sens interprรฉtรฉ, liรฉ รฉgalement ร  la prise en considรฉration ou non du contexte [JPM-00]. En effet, une grande partie des travaux en intelligence artificielle et surtout en traitement automatique des langues suppose (implicitement ou non) la possibilitรฉ de calculer un sens littรฉral (qui relรจve de ce qui est alors appelรฉ sรฉmantique), puis de l’interprรฉter selon les connaissances gรฉnรฉrales sur le monde de rรฉfรฉrence, le contexte et les caractรฉristiques des interlocuteurs (on parle alors de contextuel).

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

INTRODUCTION GENERALE
PROBLEMATIQUE
OBJECTIF
MOTIVATION POUR UNE APPROCHE Dโ€™ONTOLOGIE LEXICALE
PLAN DU MEMOIRE
Chapitre 1 : Traitement automatique du langage naturel (TALN)
2. LES DIFFERENTS NIVEAUX Dโ€™ANALYSE EN TALN
2.1. Lโ€™ANALYSE Dโ€™UN SYSTEME TALN
2.1.1. Analyse morphologique
2.1.2. Analyse syntaxique
2.1.3 Analyse sรฉmantique
2.1.4 Analyse contextuelle
2.2. LE SENS
2.3. LE PROBLEME DU SENS
3. COMPREHENSION ET FORMALISMES DE REPRESENTATIONS DIVERSES
3.1. LA COMPREHENSION D’UN TEXTE
3.2. LE SENS ET SA REPRESENTATION
3.3. LES LOGIQUES
3.4. LES GRAPHES CONCEPTUELS
3.5. STRUCTURES DE TRAITS (SDT)
4. REPRESENTATION DES CONNAISSANCES LINGUISTIQUES
4.1. LES LEXIQUES
4.2. LES GRAMMAIRES FORMELLES
4.3. LES MOTS CLEFS Dโ€™UN TEXTE
5. CONNAISSANCES DU MONDE (CM) ET CONNAISSANCES LINGUISTIQUES (CL)
5.1 METHODOLOGIE Dโ€™IDENTIFICATION DES CONNAISSANCES ENCODEES DANS LE LEXIQUE
5.1.1 Encodage des Connaissances du Monde (CM)
5.1.2 Comment les connaissances sont lexicalisรฉes ?
5.1.3. Dictionnaires et connaissances lexicalisรฉes
a/ Dรฉtermination du genre prochain (hyperonymie)
b/ Dรฉtermination des diffรฉrences spรฉcifiques
5.2 FOUILLE DES CONNAISSANCES DANS LES LIENS LEXICAUX
6. LES OUTILS DU TRAITEMENT AUTOMATIQUE DE LA LANGUE (TAL) ARABE
6.1. ANALYSEURS MORPHOLOGIQUE
6.1.1. Lโ€™analyseur morphologique ร  รฉtats finis de Beesley 2001 (Xerox)
6.1.2 Lโ€™analyseur morphologique de Buckwalter : Aramorph
6.1.3 Lโ€™analyseur morphologique Sebawi de Darwish
6.2. LES PART OF SPEECH TAGGERS:
6.3. LE TAGGER APT DE KHOJA
7. CONCLUSION
Chapitre 2 : Les ontologies
1. INTRODUCTION
2. LA NOTION ONTOLOGIE
2.1. Lโ€™ORIGINE DES ONTOLOGIES
2.2. QUโ€™EST CE QUโ€™UNE ONTOLOGIE ?
2.3. POURQUOI LES ONTOLOGIES ?
2.4. LA REPRESENTATION DES CONNAISSANCES ET LES ONTOLOGIES
2.5. LES CONSTITUANTS Dโ€™UNE ONTOLOGIE
2.5.1. Les connaissances et domaines de connaissance
2.5.2. Les concepts et les relations
a. Concepts
b. Relations
2.6. LES FORMALISMES DE REPRESENTATION [GAE02]
2.6.1. Les formalismes logiques
2.6.2. Les rรฉseaux sรฉmantiques
2.6.3. Les schรฉmas (Frame)
2.6.4. Les scripts
3. CONSTRUCTION Dโ€™UNE ONTOLOGIE
3.1. LE CYCLE DE VIE DES ONTOLOGIES
3.1.1. Evaluation des besoins
3.1.2. Conceptualisation [FUR02]
3.1.3. Ontologisation
3.1.4. Opรฉrationnalisation
3.2. Lโ€™EVALUATION ET Lโ€™EVOLUTION Dโ€™UNE ONTOLOGIE
3.3. LA FUSION DES ONTOLOGIES
3.4. METHODOLOGIE ET OUTILS DE CONSTRUCTION Dโ€™ONTOLOGIES
4. CLASSIFICATION DES ONTOLOGIES
5. CONCLUSION
Chapitre 3 : Ontologie WordNet (Modรจle de notre axe de recherche)
1. HISTORIQUE ET ORIGINE
2. PRESENTATION DE WORDNET
3. CONCEPTION & STRUCTURE DE WORDNET
3.1. SYNSET
3.2. ORGANISATION
3.3. LA MATRICE LEXICALE
4. LES RELATIONS DANS WORDNET
4.1. SYNONYMIE
4.2. ANTONYMIE
4.3. Lโ€™HYPERONYMIE / HYPONYMIE
4.4. MERONYMIE
5. LES VERBES DANS WORDNET (RESEAU SEMANTIQUE)
6. L’HYPONYMIE ENTRE LES VERBES
7. POLYSEMIE
8. ARABIC WORDNET (AWN)
8.1. Lโ€™ECRITURE ARABE [BLA06]
8.2. DESCRIPTION Dโ€™AWN
8.3. CONSTRUCTION Dโ€™ARABIC WORDNET (AWN)
8.4. Lโ€™INTERFACE UTILISATEUR
9. CONCLUSION
Chapitre 4 : Etat de lโ€™art – Apprentissage ontologique (Extraction des connaissances ร  partir des textes)
INTRODUCTION
PARTIE I : COMPARAISON ENTRE DIFFERENTS SYSTEMES & APPROCHES
1. LES SYSTEMES Dโ€™APPRENTISSAGES ONTOLOGIQUES
2. LES SIX DIMENSIONS DE COMPARAISON
2.1. LES ELEMENTS A APPRENDRE
2.1.1. Les termes
2.1.2. Les concepts
2.1.3. Les instances
2.1.4. Les relations entre concepts
2.1.5. Les axiomes
2.1.6. Les Mรฉta-connaissances
2.2. LES SOURCES Dโ€™APPRENTISSAGES
2.2.1. Les sources rรฉutilisables (Ontologie de base)
2.2.2. Les entrรฉes
2.3. LE PRETRAITEMENT
2.4. LES METHODES Dโ€™APPRENTISSAGES
2.4.1. Approches dโ€™apprentissage
a. Lโ€™approche statistique
b. Lโ€™approche logique
c. Les approches linguistiques
d. Les approches basรฉes sur les Patrons (Pattern matching approaches)
e. Les approches heuristiques
f. Stratรฉgie d’apprentissage Multiples
2.4.2. Les tรขches dโ€™apprentissage
2.4.3. Le degrรฉ dโ€™automatisation
2.5. LES RESULTATS
2.6. Lโ€™EVALUATION
PARTI II : APPRENTISSAGE ONTOLOGIQUE
TECHNIQUES ET APPROCHES
1. INTRODUCTION
2. CLASSIFICATION DES SOURCES Dโ€™APPRENTISSAGE
3. UN PROCESSUS Dโ€™APPRENTISSAGE CONSENSUEL
4. METHODES Dโ€™EXTRACTION DES TERMES (LEXICAUX)
4.1. EXTRACTION DES FUTURS CONCEPTS.
4.2. OUTILS Dโ€™EXTRACTION
4.2.1. Mรฉthodes statistiques
4.2.2. Mรฉthodes ร  base de dictionnaires (notre axe de recherche)
4.3. EXTRACTION DE RELATION
4.4. RELATIONS TAXONOMIQUES
CONCLUSION

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *