Télécharger le fichier pdf d’un mémoire de fin d’études
Le developpement´ de l’aide a` la traduction
Alors qu’il a signe´ la fin du financement public de la recherche en traduction automatique aux Etats-Unis, le rapport ALPAC a encourage la poursuite d’un objectif plus realiste, celui de la traduction assistee´ par ordinateur 9. Le rapport encensait les glossaires produits par l’Agence de traduction de l’armee´ allemande ainsi que la base terminologique de la Communaute´ europeenne´ du charbon et de l’acier – ressource precurseure´ d’EURODICAUTOM et de IATE – et concluait que ces ressources constituaient une reelle´ aide a` la traduction. Les recommandations finales encouragaient clairement le developpement´ de la traduction assistee´ par ordinateur, notamment l’exploitation des glossaires initialement cre´es´ pour la traduction automatique 10.
≪ MT “presumably means going by algorithm from machine-readable source text to useful target text, without recourse to human translation or editing” ≫ – cite´ par Hutchins (1996, p. 11)
≪ Most translators “found postediting tedious and even frustrating”, but many found “the output served as an aid… particularly with regard to technical terms” ≫ cite´ par Hutchins (1996, p. 13)
7. ≪ Finalement, j’ai passe´ autant de temps a` editer´ que si j’avais fait la traduction en entier depuis le debut´.
Je ne suis memeˆ pas sur(e)ˆ que la traduction edit´ee´ ait un rendu aussi naturel que si j’avais effectue´ la traduction directement. ≫ (notre traduction).
≪ it quote Victor Yngve, head of the MT project at MIT that MT “serves no useful purpose without postediting, and that with postediting the over-all process is slow and probably uneconomical” ≫ cite´ par Hutchins (1996, p. 12)
≪ Machine-aided translation may be an important avenue toward better, quicker and cheaper translation ≫ cite´ par Hutchins (1996, p. 14)
≪ research should be supported on : […] 2. means for speeding up the human translation process ; [ …] 6. evaluation of the relative speed and costs of various sorts of machine-aided translation ; 7. adaptation of existing mechanized editing and production processes in translation ; […] 9. production of adequate reference works for the translator, including the adaptation of glossaries that now exist primarily for automatic dictionary look-up in machine Se developpe´ alors tout un panel d’outils destines´ a` assister le traducteur dans son travail et non a` le remplacer. Les premiers programmes de gestion terminologique voient le jour dans les annees´ 60 (Hutchins, 2005) et evoluent´ vers des banques terminologiques multilingues comme TERMIUM ou UNTERM. Les concordanciers bilingues sont egalement´ une aide precieuse´ : ils permettent d’acceder´ aux contextes d’un mot ou d’un terme et mettent en regard la traduction de ses contextes dans la langue cible. Selon Somers (2005), l’essor de la traduction assistee´ par ordinateur se produit dans les annees´ 70 avec la creation´ des logiciels de memoires´ de traduction qui permettent de recycler les traductions passees´ : lorsqu’un traducteur doit traduire une nouvelle phrase, le logiciel parcourt la memoire´ a` la recherche de phrases similaires ayant dej´a` et´e´ traduites et, le cas ech´eant,´ propose la traduction passee´ comme modele` de traduction. Le gain de temps est d’autant plus grand que les textes a` traduire sont redondants, ce qui est frequemment´ le cas avec certains documents specialis´es´ comme les manuels techniques.
Ces ensembles de documents traduits constituent ce que l’on appelle des corpus paralleles` 11 (Veronis,´ 2000) et leur exploitation s’intensifie dans les annees´ 80, permettant un retour en force de la traduction automatique. Alors que les systemes` de traduction a` base de regles` avaient domine´ le domaine jusque la,` l’acces` a` de larges bases d’exemples de traductions permet de developper´ des systemes` fondes´ sur les donnees´. Les deux paradigmes issus de ce tournant sont la traduction par l’exemple (Nagao, 1984) et la traduction automatique statistique (Brown et al., 1990) qui reste le courant dominant actuel. La qualite´ de la traduction automatique s’ameliore´. Aujourd’hui, elle donne des resultats´ exploitables dans les domaines specialis´es´ ou` le vocabulaire et les structures sont assez rep´etitifs´. Le dernier bastion concerne les textes tout-venant : la traduction automatique offre, au mieux, une aide a` la comprehension´.
Durant les annees´ 90, la traduction assistee´ par ordinateur ben´eficie´ des apports croises´ de la traduction automatique et de la terminologie computationelle (Bourigault, 1994; Daille, 1994; Enguerard et Pantera, 1995; Jacquemin, 1996). Apparaissent alors des algorithmes d’alignement de termes a` partir de corpus paralleles` (Daille et al., 1994; Melamed, 1999; Gaussier et al., 2000). Les listes terminologiques bilingues produites sont particulierement` utiles dans le cas de la traduction specialis´ee´.
Gestion et extraction automatique de terminologie, concordanciers bilingues, pre´-traduction et memoires´ de traduction, aide a` la comprehension´ : aujourd’hui, le poste de travail du traducteur est un environnement complexe et fortement informatise´. L’industrie de l’aide a` la traduction s’est fortement developp´ee,´ donnant lieu a` la creation´ de nombreux logiciels de TAO (Traduction Assistee´ par Ordinateur) : TRADOS 12, WORDFAST 13, DEJ´A` VU 14, SIMILIS 15 pour en citer quelques uns. Le grand public n’est pas en reste : d’une part, Google a largement democratis´e´ la traduction automatique tout-venant graceˆ a` son outil GOOGLE TRANSLATE 16 et d’autre part, des concordanciers bilingues libres d’acces` ont vu le jour assez recemment´ sur Internet (BAB.LA 17, LINGUEE 18) et ont tres` vite gagne´ en popularite´ – LINGUEE, par exemple, totalisait, un an apres` sa fondation en 2008, 600 000 requetesˆ par jour pour sa version anglais-allemand (Perez, 2010).
Limites des corpus paralleles` et avantages des corpus comparables
Toutes utiles qu’elles soient, ces technologies ont une limite majeure : elles necessitent´ l’existence d’un historique de traduction. Que faire dans le cas de langues peu dotees´ ou lorsque l’on aborde des domaines de specialit´e´ emergents´ ? Une solution est alors d’avoir recours a` ce que l’on appelle des corpus comparables.
Plusieurs definitions´ ` se trouve la des corpus comparables existent. A un premier extreme,ˆ definition,´ tres` stricte, donnee´ par Mc Enery et Xiao (2007) dans le cadre de recherches en traductologie. Selon ces auteurs, un corpus comparable contient des textes dans deux langues ou plus collectes´ selon les memesˆ criteres` de genre, domaine et periode´ de production. De plus, les corpus doivent etreˆ equilibres´´ 19
Dejean´ et Gaussier (2002), donnee´ dans le cadre de recherches en traitement automatique des langues, qui soulignent uniquement le fait qu’il doive exister ≪ une sous-partie non negligeable´ ≫ de vocabulaire en commun entre les textes 20.
Pour notre part, nous adoptons une position intermediaire,´ considerant´ comme comparables des ensembles de textes dans deux langues ou plus qui traitent d’une memeˆ thematique´ et qui, si possible, ont et´e´ produits dans une memeˆ situation de communication si bien qu’il existe une possibilite´ d’y trouver des traductions utiles pour l’aide a` la traduction. Nous nous interessons´ uniquement aux corpus comparables specialis´es´, c’est-a`-dire que les textes ont et´e´ produits par un expert du domaine a` destination d’autres experts ou du grand public (Bowker et Pearson, 2002).
En plus d’etreˆ plus facilement disponibles, les corpus comparables presentent´ egalement´ un inter´etˆ qualitatif largement souligne´ par les traductologues. Les corpus paralleles` sont connus pour leur non-fidelit´e´ aux usages linguistiques de la langue cible. Pour Mc Enery et Xiao (2007), les traductions sont au mieux une variante particuliere` et non representative´ de la langue cible 21. Pour Zanettin (1998), les textes traduits ne peuvent pas representer´ la totalite´ des possibilites´ linguistiques de la langue cible et ils tendent a` refleter´ les idiosyncrasies de la langue source ainsi que celles du traducteur. Baker (1996), quant a` elle, nous explique que les textes produits par une traduction, comme n’importe quel autre texte, sont influences´ par leur contexte de production et les buts communicatifs qu’ils servent. Par consequent,´ ils possedent` des caracteristiques´ propres qui les distinguent des textes produits “spontanement”´.
Nous employons le terme de translecte 22 pour evoquer´ cette variante de langue produite en situation de traduction. L’existence du translecte a et´e´ largement etudi´ee´ et demontr´ee´. Ses caracteristiques´ sont degag´ees´ en comparant un corpus de traduction avec un corpus de textes spontanes´ portant sur une memeˆ thematique´.
Baker (1996) synthetise´ les resultats´ de plusieurs etudes´ principalement basees´ sur la comparaison d’originaux et de traductions en anglais (textes journalistiques, romans).
≪ a comparable corpus can be defined as a corpus containing components that are collected using the same sampling frame and similar balance and representativeness (McEnery, 2003 :450) , e.g. the same proportions of the texts of the same genres in the same domains in a range of different languages in the same sampling period. However the subcorpora of a comparable corpus are not translations of each other. Rather, their comparability lies in their same sampling frame and similar balance. ≫ (Mc Enery et Xiao, 2007, p. 20)
≪ Deux corpus de deux langues l1 et l2 sont dits comparables s’il existe une sous-partie non negligeable´ du vocabulaire du corpus de langue l1, respectivement l2, dont la traduction se trouve dans le corpus de langue l2, respectivement l1 ≫ (Dejean´ et Gaussier, 2002, p. 2)
≪ As such, translated language is at best an unrepresentative special variant of the target language ≫ (Mc Enery et Xiao, 2007, p. 24)
Notre traduction du terme anglais translationese, par analogie avec geolecte´ ‘vari´et´ de langue parl´ee dans une zone g´eographique donn´ee’ , sociolecte ‘vari´et´ de langue parl´ee dans un milieu social donn´e’ , etc.
Elle met au jour quatre particularites´ :
Explicitation L’explicitation est la tendance a` eviter´ l’implicite, voire a` ajouter des informations supplementaires´ pour recontextualiser le message. Les textes traduits sont toujours plus longs que le texte source, quel que soit le sens de traduction ; d’un point de vue lexical, on note plus de vocabulaire explicatif (cause, reason) et de conjonctions telles because, consequently.
Simplification Le langage utilise´ est simplifie´. Les phrases trop longues sont redecoup´ees´ en phrases plus courtes. La ponctuation est alter´ee´ : les formes faibles sont remplacees´ par des formes plus fortes (virgule → point-virgule → point). Les traductions sont moins variees´ lexicalement et comprennent une plus forte proportion de mots outils.
Normalisation / conservatisme Cet aspect concerne la conformite´ voire l’exageration´ des caracteristiques´ typiques de la langue cible, en particulier au niveau des structures grammaticales, de la ponctutation et des collocations.
Homogen´eisation´ (≪ levelling out ≫) Sur de nombreux d’aspects, les textes traduits montrent beaucoup moins de variation que les textes spontanes´. Par exemple, si on observe les variations du ratio forme:occurrence (mesure de variet´e´ lexicale) ou de la longueur des phrases sur plusieurs textes, la variance de ces caracteristiques´ est beaucoup plus faible pour les textes traduits.
Concernant les corpus comparables, plusieurs etudes´ soulignent leur inter´etˆ pour la traduction. Deux etudes´ (Friedbichler et Friedbichler, 1997; Gavioli et Zanettin, 1997), citees´ par Mc Enery et Xiao (2007), ont estime´ que les corpus comparables specialis´es´ se rev´elent` utiles en traduction technique lorsqu’il s’agit de verifier´ des hypotheses` de traduction. Friedbichler et Friedbichler (1997) notent des ameliorations´ qualitatives, que la traduction soit vers la langue premiere` ou vers la langue seconde du traducteur. Le fait qu’il y ait une amelioration´ memeˆ dans le cas de la traduction vers la langue premiere` est rev´elateur´ de la difficulte´ d’apprehender´ des textes specialis´es´. En effet, le fait de maˆıtriser la langue courante n’implique pas que l’on connaisse la terminologie ou les usages linguistiques propres a` un domaine, encore moins les notions qui y sont manipulees´.
Les travaux de Zanettin (1998) sur la formation des traducteurs mettent en lumiere` trois usages possibles des corpus comparables :
Recherche d’equivalences´ traductionnelles Zanettin decrit´ une experience´ sur l’identification d’equivalences´ traductionnelles dans des journaux sportifs, reput´es´ pour contenir une grande quantite´ de language figuratif. L’exemple donne´ est celui de la traduction de l’expression salire il gradino pi`u alto del podio ‘monter sur la plus haute marche du podium’ vers l’anglais : peut-elle etreˆ traduite litteralement´ ou faut-il trouver un equivalent´ ? L’etude´ en corpus des contextes d’apparition de l’expression italienne montre que cette expression a le sens de ‘gagner la m´edaille d’or’ . L’etude´ des coocurrences du mot podium dans les textes anglais montre que, bien que le sens denotatif´ soit le memeˆ que podio, podium n’apparaˆıt pas en conjonction avec the highest step pour signifier ‘gagner la m´edaille d’or’ . Une traduction litterale´ serait donc maladroite et la traduction retenue sera to win the gold medal .
Apprentissage de la terminologie Zanettin souligne la forte proportion d’equivalences´ traductionnelles entre termes aux graphies similaires dans les corpus medicaux´ (termes ayant des origines greco´-latines communes, ex : h´epatique ↔ hepatic). Il explique que l’observation des collocations de ces termes similaires peut servir a` acquerir´ des connaissances terminologiques sur le domaine. L’exemple donne´ est celui de la traduction de biopsia epatica dont une traduction intuitive en anglais serait hepatic biopsy. Pourtant, les contextes de biopsy ne font jamais etat´ de l’expression hepatic biospy alors que liver biopsy apparaˆıt 39 fois. Une etude´ plus avant des contextes de liver vs. fegato (formes populaires) et hepatic vs. epatico/a (formes savantes) montrent qu’anglais et italien ne recourrent pas aux formes populaires et savantes de la memeˆ fac¸on : en anglais, hepatic co-occurre seulement avec des mots gen´eriques´ comme lesion ou exedisease alors qu’en italien, la forme savante est employee´ sans restriction particuliere`.
Exploration des textes en post- ou pre´- traduction Il s’agit ici d’utiliser les corpus comparables pour examiner les usages propres a` un domaine ou un genre. L’experience´ decrite´ concerne une etude´ comparee´ des contextes d’apparition du mot Mitterand dans les journaux anglais et italiens. Cette etude´ rev´ele` des usages stylistiques propres a` chaque langue : l’italien a tendance a` appeler les politiciens par leur prenom´ et nom (Fran¸cois Mitterand ) alors que l’anglais a plutotˆ recours a` un titre (Mr. Mitterand, President Mitterand ). Les usages sont egalement´ differents´ en ce qui concerne l’introduction du discours rapporte´ : en anglais, peu de verbes differents´ sont utilises´ (say et add sont utilises´ dans 60 % des cas) alors qu’en italien, les verbes employes´ pour rapporter un discours sont beaucoup plus varies´.
Difficultes´ de la traduction technique
Pour expliquer les difficultes´ de la traduction technique, nous nous appuierons sur l’ouvrage de Christine Durieux (2010) qui s’inscrit dans le cadre de la theorie´ interpretative´ de la traduction (ou theorie´ du sens) de Danica Seleskovitch.
De prime abord, on pourrait croire que la traduction specialis´ee´ est uniquement concernee´ par l’acquisition d’equivalences´ traductionnelles entre termes (apprentissage de la terminologie). Or, comme l’explique Durieux (2010), la traduction technique ne peut etreˆ reduite´ a` un processus de production d’equivalences´ terminologiques, demarche´ qu’elle appelle de soudure par laser mais de d´ecoupe au laser . Ici aussi, Durieux preconise´ une recherche documentaire systematique´ permettant de relever les usages linguistiques propres au domaine.
A la lecture de Durieux, on comprend qu’un traducteur specialise passe une partie de son temps a` effectuer de la recherche documentaire dans le but de constituer manuellement des fiches terminologiques qui mettent en correspondance non seulement des termes mais aussi des contextes (contextes definitoires´ pour le sens de termes, contextes “langagiers” mettant en lumiere` les collocations et aspects stylistiques).
D’autres etudes´ viennent appuyer les constations de Durieux. Ainsi, Darbelnet (1979) considere` qu’une langue de specialit´e´ est specifique´ par sa ≪ nomenculature ≫ mais aussi par (ce qu’il nomme) son ≪ discours ≫ :
≪ Dans l’emploi de ce qu’il est convenu d’appeler les langues de specialit´e,´ il y a d’une part les choses techniques qu’il faut pouvoir designer´ exactement et d’autre part le texte qui vehicule´ et actualise ces notions et qui doit repondre´ a` certaines exigences de forme. Il s’ensuit que l’auteur du texte doit posseder´ une double competence´ : bien connaˆıtre la nomenclature du sujet et etreˆ capable de tirer pleinement parti, dans un certain registre, des ressources langagieres` propres a` mettre en valeur les el´ements´ de la nomenclature. […] Dans cette perspective, on peut considerer´ que chaque langue de specialit´e´ se presente´ sous ce double aspect, que nomenclature et discours ne peuvent aller l’un sans l’autre et qu’il est souvent plus facile, graceˆ a` la documentation appropriee,´ d’acceder´ a` la nomenclature qu’aux ressources du discours specialis´e´. ≫ (op. cit.)
Reprenant la distinction de Darbelnet, Scurtu (2008) nous livre une analyse fine des difficultes´ de la traduction des textes juridiques franc¸ais vers le roumain. Un point notable est qu’elle considere` que les el´ements´ de la nomenculature (i.e. les termes techniques) ne posent pas necessairement´ de difficulte´ de traduction. Scurtu decompose´ la nomenculature en trois categories´ :
Les mots d’appartenance juridique exclusive Il s’agit des termes techniques, employes´ par les inities´. Certains peuvent ne poser aucune difficulte´ de traduction parce qu’ils ont un correspondant direct en langue cible (voire ils sont un emprunt a` la langue source) et qu’ils possedent` une ressemblance formelle avec le terme source, ex : abrogatif → abrogativ . Les termes pouvant poser une difficulte´ de traduction correspondent a` des termes n’ayant pas de ressemblance formelle avec le terme source (ex. :prononc´e → pronunt¸are) et/ou designant´ une notion qui n’existe pas dans la culture associee´ a` la langue cible (ex. : communaut´e → regim matrimonial legal ).
Les mots a` double appartenance Il s’agit de termes que le droit emploie dans une acception qui lui est propre. Parmi ceux-ci, on retrouve :
– Les termes d’appartenance juridique principale : il s’agit de termes juridiques passes´ dans la langue courante avec un sens secondaire, ex. : arbitre, t´emoin, garantie.
– Les termes d’appartenance juridique secondaire : il s’agit de termes dont le sens principal est en langue courante et qui ont acquis un sens particulier dans le domaine juridique, ex. : acte, mobile, jouissance.
La difficulte´ de traduction des mots a` double appartenance vient du fait que ceux-ci sont partages´ avec la langue courante : leur traduction n’est possible qu’en contexte.
Le discours, quant a` lui, regroupe divers el´ements´. On y retrouve les el´ements´ stylistiques, les formulations specifiques´ et les choix syntaxiques dej´a` mis en exergue par Durieux mais egalement´ ce que Darbelnet et Scurtu nomment le ≪ vocabulaire de soutien ≫. Darbelnet (1979) definit´ le vocabulaire de soutien comme ≪ les mots qui, etant´ d’une technicite´ moindre ou nulle, servent a` actualiser les mots specialis´es´ et a` donner ainsi au texte son organicite´. ≫. Il nous donne l’exemple, pour le domaine juridique, des mots rupture (de la vie commune), entendre (un temoin),´ exorbiter , d´ep´erir , supporter (au sens fiscal).
De meme,ˆ Scurtu (2008) indique que, les mots a` double appartenance mis a` part, il reste un certain nombre de termes qui, sans avoir un sens juridique, apparaissent toutefois dans les textes avec une valeur specifique,´ differente´ de celle qu’ils ont dans la langue ”commune”. Par exemple, affaire n’a pas le sens, dans les textes juridiques, qui est rendu par sa traduction litterale´ en roumain (afacere). En contexte juridique il sera tradui par cauzˇ (porter une affaire devant la Cour → a duce o causˇ ˆınaintea Curt¸ii vs. faire des affaires → a face afaceri ).
Notons Scurtu et Darbelnet deplorent´ tous deux que les ressources a` disposition du traducteur ne prennent pas en compte le vocabulaire de soutien :
≪ on peut considerer´ que chaque langue de specialit´e´ se presente´ sous ce double aspect, que nomenclature et discours ne peuvent aller l’un sans l’autre et qu’il est souvent plus facile, graceˆ a` la documentation appropriee,´ d’acceder´ a` la nomenclature qu’aux ressources du discours specialis´e´. ≫ (Darbelnet, 1979)
≪ Les ouvrages en question n’incluent souvent que les termes du domaine proprement dit et excluent les termes de la langue courante qui, ayant acquis un sens particulier, echappent´ a` la comprehension´ du neophyte´. ≫ Scurtu (2008, p. 88)
D’apres` Darbelnet, l’absence du vocabulaire de soutien dans les glossaires techniques s’explique par le fait que ces ressources sont plus orientees´ vers l’aide a` la comprehension´ que vers l’aide a` la redaction´. De plus, comme les termes techniques frappent par leur technicite,´ ils s’imposent naturellement comme comme necessaires´ a` repertorier´ dans un glossaire technique. A contrario, le vocabulaire de soutien, qui semble plus transparent, sera plus facilement neglig´e´. Pourtant, il n’en est pas moins indispensable. Cette vue est egalement´ supportee´ par Scurtu (2008) :
≪ Paradoxalement, pour rediger´ ou traduire un texte, souvent ce n’est pas le mot technique qui constitue le probleme` le plus important (ces mots techniques ont fait et continuent de faire l’objet de lexicographies terminologiques). On constate, en feuilletant des repertoires´ de la langue juridique, que nombre de termes utilises´ dans la redaction´ de textes juridiques et administratifs n’ont pas et´e´ retenus. Cela est d’autant plus valable si on prend en consideration´ la situation des dictionnaires bilingues dans le domaine. Il est vrai qu’en gen´eral´ les repertoires´ visent plutotˆ a` la comprehension´ qu’a` la redaction´. Au contraire, les termes du vocabulaire de soutien, bien qu’apparaissant comme marginaux, parce que transparents, s’averent` d’un maniement plus delicat,´ car ils sont necessaires´ pour passer de simples listes de termes au texte : c’est au moment ou` il faut rediger,´ precise´ encore Darbelnet [1979], et, en l’occurrence, completons´-nous, traduire, que ce vocabulaire prend effectivement toute sa valeur. ≫ (op. cit., p. 892)
Comme nous nous plac¸ons dans une optique d’aide a` la traduction et non d’ingenierie´ des connaissances, notre travail ne sera pas focalise´ sur l’extraction d’equivalences´ traductionnelles entre termes. Nous nous attacherons plutotˆ a` identifier les traductions de tout el´ement´ lexical susceptible de poser des difficultes´ de traduction. Nous ecartons´ donc de notre sujet de recherche toute information relative a` la syntaxe, a` la stylistique ou a` la structuration du texte. Nous considerons´ comme ≪ susceptible de poser des difficultes´ de traduction ≫ toute unite´ lexicale qui n’est pas presente´ dans le dictionnaire gen´eraliste´. De part cette definition,´ nous excluons certains termes techniques couramment employes´ dans la langue courante et dont la traduction est necessairement´ connue des traducteurs (ex. chimioth´erapie est un terme medical´ mais sa traduction ne posera pas de probleme` a` un traducteur professionnel). Par contre, nous incluons des el´ements´ tels que patient-centred qui n’auraient pas leur place dans une terminologie mais qui peuvent poser des difficultes´ de traduction.
Ainsi, dans la suite du memoire,´ notre emploi du vocable ≪ terme ≫ n’est pas a` prendre dans son acception officielle 23 mais plutotˆ au sens d’ ≪ unite´ problematique´ pour le traducteur technique ≫.
Contexte industriel
Si l’inter´etˆ qualitatif des corpus comparables est aver´e,´ ces derniers restent difficilement exploitables par les traducteurs. Par rapport aux corpus paralleles` pour lesquels de nombreux outils existent, la recherche et la verification´ manuelle de contextes informatifs et d’equivalences´ traductionnelles dans les corpus comparables est laborieuse. Ceci gen´ere` une perte de productivite´ et de motivation pour le traducteur.
Il existe tres` peu d’outils informatiques capables d’assister le traducteur dans son utilisation des corpus comparables. Nous ne pouvons citer que deux prototypes universitaires (Bennison et Bowker, 2000; Sharoff et al., 2006) et – a` notre connaissance – il n’existait, au moment ou` nous avons debut´e´ notre these,` aucun outil de TAO commercial capable de traiter les corpus comparables. Le transfert technologique des techniques d’extraction de lexiques bilingues a` partir de corpus compararables a et´e´ notre premiere` tacheˆ lorsque nous avons commence´ a` travailler en tant qu’ingenieure´ de recherche pour la societ´e´ LINGUA ET MACHINA 24. Cette societ´e,´ fondee´ par Emmanuel Planas sur la base de ses resultats´ de recherche (Planas, 1998; Planas et Furuse, 2000), edite´ le logiciel de memoire´ de traduction SIMILIS (Planas, 2005) dont la particularite´ est de recourir a` une analyse linguistique. Les textes sont etiquet´es´ morpho-syntaxiquement et les phrases sont decoup´ees´ en chunks. L’appariement entre segments de textes dej´a` traduits et segments de textes a` traduire se fait egalement´ a` un niveau linguistique (appariement sur les lemmes et categories´ grammaticales) et non pas a` un niveau graphique comme le font les autres logiciels memoires´ de traduction.
LINGUA ET MACHINA edite´ egalement´ une application Web de gestion des contenus multilingues en entreprise appelee´ LIBELLEX. Cette plateforme integre` divers outils d’aide a` la traduction (concordanciers bilingues, outils d’extraction et gestion de terminologies, memoire´ de traduction, traduction automatique et outil de gestion de projets de traduction). La plateforme se distingue de SIMILIS par le fait d’etreˆ pensee´ non pas uniquement pour les traducteurs professionnels mais pour l’ensemble des collaborateurs de l’entreprise (figure 1.1).
La possibilite´ d’exploiter des corpus comparables represente´ un axe de Recherche et Developpement´ majeur a` LINGUA ET MACHINA dans la mesure ou,` les domaines de connaissance evoluant´ tres` vite, les entreprises clientes de LINGUA ET MACHINA doivent pouvoir rapidement creer´ des ressources de traduction, memeˆ dans des domaines pour lesquels il existe peu ou pas d’historique de traduction.
Une partie de notre travail de these` a donc consiste´ a` creer´ un prototype permettant l’acquisition de lexiques bilingues a` partir de corpus comparables. Nous avons egalement´ developp´e´ une interface de consultation des lexiques extraits associant aux termes sources et cibles des fiches terminologiques constituees´ automatiquement. Gen´eralement,´ l’acquisition d’un lexique bilingue a` partir de corpus comparables se fait en deux temps. Tout d’abord, les termes sources et cibles sont extraits de leurs corpus respectifs en utilisant les techniques d’extraction terminologique (Bourigault, 1994; Daille, 1994; Enguerard et Pantera, 1995). Puis, les termes extraits sont alignes´ a` l’aide de techniques bases´ sur la similarite´ des contextes d’occurrence des termes. Nous decrivons´ ces techniques dans la section suivante.
Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.
|
Table des matières
Introduction
I Contexte scientifique et applicatif
1 Exploitation des corpus comparables pour la traduction assist´ee par ordinateur
1.1 Perspective historique : des premiers traducteurs automatiques aux corpus comparables
1.1.1 Premi`eres recherches en traduction automatique
1.1.2 Le d´eveloppement de l’aide `a la traduction
1.1.3 Limites des corpus parall `eles et avantages des corpus comparables
1.1.4 Difficult ´es de la traduction technique
1.1.5 Contexte industriel
1.2 Techniques d’alignement de termes en corpus comparables
1.2.1 Principe de l’approche distributionnelle
1.2.2 E´ valuation des techniques d’alignement en corpus comparables
1.2.3 Am´ eliorations et variantes de l’approche distributionnelle
1.2.4 Influence des donn´es et du param´ etrage sur la qualit ´e des r ´ esultats
1.2.5 Limites de l’approche distributionnelle
1.3 Prototypage d’un outil de TAO destin ´e aux corpus comparables
1.3.1 Implantation d’une m´ethode d’acquisition de lexiques bilingues
1.3.2 Extraction de fiches terminologiques
1.3.3 Interface de consultation des lexiques extraits
1.4 Synth`ese
2 E´ valuation applicative des lexiques issus de corpus comparables
2.1 M´ethodologies d’ ´evaluation de la qualit ´e des traductions
2.1.1 L’ ´evaluation en traduction automatique
2.1.2 L’ ´evaluation en traductologie
2.1.3 Discussion
2.2 Conception et exp´ erimentation d’un protocole d’ ´evaluation applicative
2.2.1 Reflexions m´ethodologiques
2.2.2 Exp´ erimentation du protocole
2.2.3 R´ esultats obtenus
2.3 Discussion
3 G´en´eration automatique de traductions de termes
3.1 Approches compositionnelles
3.1.1 Principe de la traduction compositionnelle
3.1.2 Traduction compositionnelle d’unit ´es polylexicales
3.1.3 Traduction compositionnelle d’unit ´es monolexicales
3.1.4 Filtrage des traductions g´en´ er ´ees
3.2 Approches empiriques
3.2.1 Traduction par inf ´erence analogique
3.2.2 Apprentissage de r `egles de r ´e´ecriture de caract `eres
3.2.3 Traitement de la variation morphologique
3.3 E´ valuation des me´ thodes de ge´ne´ ration de traductions
3.4 Perspectives de recherche
II Contributions `a la traduction compositionnelle
4 Cadre m´ethodologique de la traduction morpho-compositionnelle
4.1 M´ethode de traduction morpho-compositionnelle
4.1.1 Positionnement
4.1.2 D´ efinitions
4.1.3 Hypoth`eses sous-jacentes
4.1.4 Int ´ er ˆ et de l’approche pour l’exploitation des corpus comparables et la traduction sp´ ecialis ´ee
4.2 Probl ´ematiques abord´ees et contributions
4.2.1 G´en´ eration de traductions fertiles
4.2.2 Vari ´ et ´e des structures morphologiques traduites
4.2.3 Ordonnancement des traductions candidates
4.3 M´ethodologie d’ ´evaluation
4.3.1 R´ ef ´erence a priori
4.3.2 R´ ef ´erence a posteriori
4.4 Synth`ese
5 Donn´ees exp´erimentales
5.1 Corpus comparables
5.2 Termes sources
5.3 Donn´ees de r ´ ef ´erence pour l’ ´evaluation de la g´en´ eration de traduction
5.3.1 R´ ef ´erence a priori
5.3.2 R´ ef ´erence a posteriori
5.4 Donn´ees pour l’apprentissage et l’ ´evaluation du mod` ele d’ordonnancement
5.5 Ressources linguistiques
Ressources linguistiques
5.5.1 Dictionnaire bilingue g´en´ eraliste
5.5.2 Dictionnaire de synonymes
5.5.3 Table de traduction de morph`emes li ´es
5.5.4 Lexiques pour la d´ecomposition des termes sources
5.5.5 Familles morphologiques
5.5.6 Dictionnaire de cognats
5.6 Synth`ese
6 Formalisation et ´evaluation de la g´en´eration de traductions candidates
6.1 Algorithme de g´en´ eration de traductions
6.1.1 D´ecomposition
6.1.2 Traduction
6.1.3 Recomposition
6.1.4 S´ election
6.2 E´ valuation du de´coupage morphologique
6.3 E´ valuation des traductions ge´ne´ re´es
6.3.1 R´ ef ´erences et mesures d’ ´evaluation
6.3.2 Apport de la g´en´ ericit ´e du mod` ele
6.3.3 Apport des ressources linguistiques
6.3.4 Apport de la strat ´egie de repli
6.3.5 Apport des traductions fertiles
6.3.6 Apport du corpus vulgaris ´e
6.3.7 Analyse qualitative
6.4 Discussion
6.4.1 Bilan
6.4.2 Perspectives
7 Formalisation et ´evaluation de l’ordonnancement de traductions candidates
7.1 Crit `eres d’ordonnancement
7.1.1 Similarit ´e des contextes
7.1.2 Fr ´equence du terme cible
7.1.3 Probabilit ´e de traduction des parties du discours
7.1.4 Mode de traduction des composants
7.2 Combinaison de crit `eres
7.2.1 Standardisation des valeurs
7.2.2 Combinaison lin ´ eaire
7.2.3 Apprentissage d’un mod` ele d’ordonnancement
7.3 E´ valuation
7.3.1 R´ eference et mesures d’ ´evaluation
7.3.2 Bases de comparaison
7.3.3 R´ esultats obtenus
7.4 Discussion
7.4.1 Bilan
7.4.2 Perspectives de recherche
Conclusion et perspectives
Annexes
A Mesures
A.1 Normalisation des vecteurs
A.1.1 Taux de vraisemblance
A.1.2 Discounted log-ods
A.1.3 Information mutuelle
A.1.4 TFIDF
A.2 Similarit ´e de deux vecteurs
A.2.1 Cosine
A.2.2 Jaccard pond´ er ´e
A.2.3 Distance euclidienne
A.2.4 Distance euclidienne normalis´ee
A.3 Comparabilit ´e de deux corpus
A.4 Standardisation des valeurs
A.4.1 Obtention du percentile d’une valeur
A.4.2 Obtention du score-z associ´e au percentile
A.5 Mesures d’ ´evaluation
A.5.1 Couverture
A.5.2 TopN / Precision au rang N
A.5.3 Rappel au rang N
A.5.4 F1-mesure au rang N
A.5.5 MRR : Mean Reciprocal Rank
A.5.6 MAP : Mean Average Precision
A.5.7 NDCG : Normalised Discounted Cumulative Gain
A.6 Accord inter-annotateur
A.6.1 Calcul du Kappa
A.6.2 Interpr ´ etation du Kappa
B Donn´ees
B.1 Corpus comparables
B.1.1 Sciences de l’eau
B.1.2 Cancer du sein
B.2 Textes `a traduire et traductions de r ´ ef ´erence
B.2.1 Sciences de l’eau
B.2.2 Cancer du sein
B.3 Ressources linguistiques
B.3.1 Dictionnaire bilingue g´en´ eraliste
B.3.2 Dictionnaire de synonymes
B.3.3 Tables de traduction des morph`emes
B.3.4 Familles morphologiques
B.3.5 Dictionnaires de cognats
B.3.6 Probabilit ´es de traduction de parties du discours
B.4 Termes sources
B.5 Donn´ees de r ´ ef ´erence pour l’ ´evaluation de la g´en´ eration de traduction
B.5.1 R´ ef ´erence a priori
B.5.2 R´ ef ´erence a posteriori
B.6 Donn´ees pour l’apprentissage et l’ ´evaluation du mod` ele d’ordonnancement
B.6.1 Extraits des donn´ees d’apprentissage
B.6.2 Extrait des donn´ees d’ ´evaluation
B.6.3 Extrait des sorties du syst `eme ordonn´ees
C Interface de consultation des lexiques extraits de corpus comparables
Références
Liste des tableaux
Liste des figures
Liste des algorithmes
Liste des extraits
Bibliographie
Télécharger le rapport complet