Extraction de lexiques bilingues à partir de corpus paralèlles 

Télécharger le fichier pdf d’un mémoire de fin d’études

Corpus multilingues

Les corpus multilingues sont compos´es de documents dans des langues diff´erentes. Les informations qui peuvent ˆetre mises `a jour par l’investigation et l’analyse de ces corpus en font une ressource importante pour la traduction automatique, la d´esambigu¨ısation s´emantique et la recherche d’informations interlingue. En extrac-tion lexicale, ces corpus permettent de suivre automatiquement l’´evolution d’une langue et sont utilis´es pour cr´eer ou enrichir des lexiques bilingues. Cette section est consacr´ee a` la description d’une typologie des diff´erents corpus multilingues et a` la pr´esentation du degr´ de comparabilit´e entre ces derniers. Trois types de corpus multilingues ont et´ d´efinis dans la litt´erature. Nous distinguons les corpus parall`eles, les corpus comparables et les corpus ind´ependants.
Corpus parall`eles
Les corpus parall`eles sont constitu´es par des paires de documents en relation de traduction. (Somers, 2001) d´efinit les corpus parall`ele en tant que textes dispo-nibles dans deux ou plusieurs langues constitu´es d’un texte original et de sa traduction. A titre d’exemple, les actes du parlement europ´een (EUROPARL), traduits dans 11 langues europ´eennes, et ceux du parlement canadien (HANSARD) traduits dans 3 langues font partie des corpus parall`eles disponibles. Un exemple de texte pa-rall`ele est donn´e dans la figure 1.1. La pierre de Rosette (figure 1.1), constitu´ee par un fragment de st`ele grav´ee de l’Egypte antique portant trois ´ecritures d’un mˆeme texte (´egyptien en hi´eroglyphes, ´egyptien en ´ecriture d´emotique et alphabet grec) est consid´er´ee comme un corpus parall`ele. Cette œuvre a permis `a Champollion de d´echiffrer l’´ecriture hi´eroglyphique en 1822. Selon (Fung, 1998), un corpus parall`ele doit r´eunir l’ensemble des caract´eristiques suivantes :
1. Un mot n’a qu’un seul sens dans le corpus.
2. Une traduction unique est associ´ee a` chaque mot.
3. Il n’y a pas de traductions manquantes entre un corpus source et un corpus cible.
4. Les positions et fr´equences des mots en relation de traduction sont comparables.
Or, les deux premi`eres caract´eristiques ne sont en g´en´ral pas satisfaites du fait que dans certains corpus parall`eles comme EUROPARL, un mot peut se traduire par plusieurs mots et peut avoir plusieurs sens.
Les corpus parall`eles constituent donc un el´ement moteur pour la construction de lexiques bilingues robustes, la traduction automatique et la recherche d’information interlingue. Ils sont g´en´eralement construits par des traducteurs humains, qui `a leur tour font appel a` un lexique bilingue existant pour guider la traduction des textes. N´eanmoins, ces corpus sont par nature des ressources rares notamment pour des domaines sp´ecialis´es et pour des paires de langues ne faisant pas intervenir l’anglais. (Abdul-Rauf et Schwenk, 2009) constatent par ailleurs que les corpus parall`eles les plus exploit´es sont g´en´eralement caract´eris´es par un vocabulaire peu utilis´e, comme par exemple les corpus HANSARD et EUROPARL.

Corpus comparables

Les corpus comparables rassemblent des documents multilingues n’´etant pas en relation de traduction mais partageant des traits communs tels que le domaine, le type de discours, la p´eriode, etc. (D´ejean et Gaussier, 2002) donnent la d´efinition suivante de corpus comparable :
≪ Deux corpus de deux langues l1 et l2 sont dits comparables s’il existe une sous-partie non n´egligeable du vocabulaire du corpus de langue l1, respectivement l2, dont la traduction se trouve dans le corpus de langue l2, respectivement l1.≫
A son tour (Ji, 2009) d´efinit les corpus comparables comme des collections de documents d´ecrivant des sujets similaires. Dans la figure 1.2, nous pr´esentons un sch´ema de la notion de comparabilit´e par rapport aux d´efinitions attribu´ees `a ces corpus. Intuitivement et selon la d´efinition propos´ee par (D´ejean et Gaussier, 2002),
les corpus parall`eles peuvent ˆetre consid´er´es comme un cas particulier des corpus comparables. Il s’agit de corpus parfaitement comparables (Prochasson, 2009).
La cat´egorie des corpus ind´ependants comprend la grande majorit´e des textes sur Internet. Ils se composent de documents traitant des sujets similaires ou vari´es et utilisant un vocabulaire avec un usage diff´erent au sein du mˆeme corpus ou entre les deux corpus source et cible. Les corpus comparables peuvent ˆetre vus comme toute collection de textes dans de diff´erentes langues n’´etant pas des traductions mutuelles (Bowker et Pearson, 2002).
La capacit´e des corpus comparables `a am´eliorer la performance de diff´erentes applications du TAL qui y ont recours serait fortement li´ee `a leur degr´ de comparabi-lit´e. Cette notion ne constitue pas l’objet de notre ´etude mais nous pr´esentons un bref aper¸cu de diff´erentes approches ´etudiant ce ph´enom`ene. Plusieurs travaux ont men-tionn´e le besoin d’une d´efinition de la comparabilit´e et formulent leur compr´ehension de celle-ci. (Li et Gaussier, 2010) ont introduit une mesure qui permet d’indiquer le degr´ de comparabilit´e entre les deux parties source et cible d’un corpus compa-rable. Ils ont constat´e que selon cette mesure, l’am´elioration de la qualit´e du corpus comparable influence la qualit´e de l’extraction lexicale. (Su et Babych, 2012) quant a` eux mesurent la comparabilit´e de textes a` leur potentiel d’extraction de segments parall`eles et d’am´elioration de la performance des syst`emes de traduction automa-tique. La conception de la comparabilit´e varierait donc d’une application a` une autre (Leturia et al., 2009). Elle serait ´egalement influenc´ee par le type de corpus qui peut ˆetre g´en´eral ou de sp´ecialit´ et par la source de collecte des documents.
Contrairement aux corpus parall`eles, les corpus comparables sont largement dis-ponibles et les textes qui les composent proviennent g´en´ralement de la mˆeme source mais sont ´ecrits ind´ependamment dans chaque langue. Ils sont construits `a partir de textes originaux plutˆot que des textes traduits (corpus parall`eles). Ceci permet de r´eduire le biais de traduction et d’´eviter par cons´equent l’effet de calque. L’exemple le plus significatif est celui des textes traitant d’une mˆeme actualit´e internationale et publi´es par diff´erentes agences de presse (Agence France-Presse (AFP), Reuters, etc). Comme le montre la figure 1.3, les articles de Wikip´edia reli´es par les liens in-terlingues constituent ´egalement une source de corpus fortement comparables. Nous remarquons que le contenu des premiers paragraphes des articles Wikip´edia d´ecrivant le mot cancer du sein en anglais, fran¸cais et roumain est tr`es comparable.
La particularit´e des corpus comparables est qu’ils ne respectent pas les contraintes impos´ees par les corpus parall`eles. Selon (Fung, 1995), dans un corpus comparable :
1. Les mots ont plusieurs sens dans le mˆeme corpus.
2. De multiples traductions peuvent ˆetre associ´ees a` un mot.
3. Les traductions pourraient ne pas exister dans le document cible.
4. Les positions et fr´equences des mots sont incomparables.
Comme soulign´e plus haut, nous consid´erons que les deux premi`eres ca-ract´eristiques s’appliquent a` la fois au corpus parall`eles et comparables. La diff´erence r´eside donc dans les deux derniers points. Ces caract´eristiques montrent qu’en comparaison avec les corpus parall`eles, la tˆache d’extraction de lexiques bilingues `a partir de ce type de corpus est moins supervis´ee du fait qu’elle requiert moins de donn´ees annot´ees. Une extraction moins supervis´ee permet donc (1) de compenser le manque de donn´ees parall`eles pour des domaines g´en´eriques et sp´ecialis´es et, (2) de couvrir un large ´eventail de paires de langues.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction 
1 ´Etat de l’art 
1.1 Introduction
1.2 Corpus multilingues
1.2.1 Corpus parall`eles
1.2.2 Corpus comparables
1.3 Lexiques bilingues `a partir de corpus parall`eles
1.3.1 Alignement phrastique
1.3.2 Alignement sous-phrastique
1.3.2.1 Alignement de mots et de segments
1.3.2.2 Vers l’alignement d’expressions polylexicales
1.4 Lexiques bilingues `a partir de corpus comparables
1.4.1 Premi`eres approches
1.4.2 Approche standard
1.4.2.1 Constitution des vecteurs de contexte
1.4.2.2 Transfert des vecteurs de contexte
1.4.2.3 Comparaison des vecteurs sources et cibles
1.4.2.4 R´esultats de l’approche standard
1.4.3 Am´eliorations de l’approche standard
1.4.4 Approches connexes
1.5 Conclusion
I Extraction de lexiques bilingues à partir de corpus paralèlles 
Introduction g´en´erale
2 Lexique bilingue d’expressions polylexicales
2.1 Introduction
2.2 Expressions polylexicales
2.2.1 D´efinition
2.2.2 Typologie d’EPL
2.2.2.1 Les expressions lexicalis´ees
2.2.2.2 Les expressions institutionalis´ees
2.3 Extraction de lexique bilingue
2.3.1 Identification monolingue d’EPL
2.3.1.1 EPL candidates
2.3.1.2 Heuristiques de filtrage
2.3.2 Alignement d’EPL : approche par comparaison de distributions
2.4 Evaluation
2.5 Conclusion
3 Application des expressions polylexicales `a un syst`eme de traduction statistique
3.1 Introduction
3.2 Traduction automatique statistique
3.2.1 Traduction statistique : mod`ele standard
3.2.2 Moses : TAS `a base de segments
3.3 EPL dans Moses
3.3.1 Strat´egies d’int´egration dynamiques
3.3.1.1 Nouveau mod`ele de traduction
3.3.1.2 Extension de la table de traduction
3.3.1.3 Trait additionnel pour les EPL
3.3.2 Strat´egie d’int´egration statique
3.4 Exp´eriences et r´esultats
3.4.1 Cadre exp´erimental
3.4.1.1 Corpus et outils
3.4.1.2 Qualit´e d’une traduction
3.4.2 R´esultats et discussion
3.5 Conclusion
II Extraction de lexiques bilingues : Vers l’exploitation de corpus comparables 
Introduction g´en´erale
4 Contexte et Mat´eriel
4.1 Introduction
4.2 Corpus Comparables
4.2.1 Wikip´edia comme corpus comparable
4.2.2 Corpus du projet TTC
4.2.3 Normalisation des corpus
4.3 Dictionnaires bilingues
4.4 Listes de r´ef´erences
4.5 Param`etres exp´erimentaux
4.5.1 Fenˆetre contextuelle
4.5.2 Mesure d’association
4.5.3 Mesure de similarit´e
4.6 Param`etres d’´evaluation
4.7 Conclusion
5 D´esambigu¨ısation lexicale des vecteurs de contexte
5.1 Introduction
5.2 Aper¸cu g´en´eral de l’approche
5.3 Ressources s´emantiques
5.3.1 WordNet
5.3.2 Mesures de similarit´e s´emantique
5.3.2.1 `A base de distance taxinomique
5.3.2.2 `A base de traits
5.3.3 ´Evaluation des mesures de similarit´e
5.4 Algorithme de d´esambigu¨ısation
5.5 ´Evaluations
5.5.1 Approches de r´ef´erence
5.5.2 Polys´emie dans les corpus comparables
5.5.3 Fusion de donn´ees par syst`eme de vote
5.5.4 R´esultats exp´erimentaux et analyse
5.6 Conclusion
6 Analyse s´emantique explicite pour l’extraction de lexiques bilingues
6.1 Introduction
6.2 Analyse s´emantique explicite (ESA)
6.3 Aper¸cu g´en´eral de l’approche
6.4 Repr´esentation contextuelle
6.4.1 Repr´esentation directe
6.4.2 Repr´esentation `a partir de contextes
6.4.3 Combinaison de repr´esentations
6.5 Graphe de traduction
6.6 Identification de traductions candidates
6.7 ´Evaluations
6.7.1 Repr´esentations contextuelle
6.7.1.1 Cadre exp´erimental
6.7.1.2 R´esultats et discussion
6.7.2 Sp´ecificit´e au domaine
6.7.2.1 Sp´ecificit´e des mots
6.7.2.2 Dictionnaire g´en´erique
6.7.2.3 Analyse des r´esultats
6.8 Conclusion
Conclusion 
Bibliographie

Télécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *