La traduction automatique pour les domaines de spécialité

Historique

Vers l’automatisation de la traduction

La traduction consiste à porter un texte écrit dans une langue naturelle, la langue source, vers une autre langue, la langue cible. Ce processus est parfois trivial, pouvant se résumer, d’une manière simpliste, en une traduction mots-à-mots  .

Il s’agit cependant d’une situation assez marginale qui sous-estime la complexité cognitive du processus de traduction. En effet, dans la plupart des cas, la traduction met en jeu des éléments syntaxiques, pragmatiques, sémantiques, etc. Par exemple, la prise en compte du contexte est nécessaire lorsque des mots à traduire sont polysémiques .

Il apparaît aussi que le sens de la phrase source doit être compris, afin de le restituer dans la phrase cible. Garder la signification implique donc une analyse du contenu source avant le transfert vers une autre langue. Ce phénomène est particulièrement important si des expressions idiomatiques sont à traduire .

Il apparaît donc, selon les aspects présentés par les exemples précédents, que le processus de traduction de textes est complexe. Les notions de sémantique, en plus de la syntaxe, du contexte et du style rédactionnel, sont à considérer pour obtenir des traductions correctes. Un traducteur traduit généralement vers sa langue maternelle, une parfaite connaissance de la langue source est donc indispensable afin de produire les textes cibles dans le respect des textes sources.

Par ailleurs, il est difficile de répondre à la demande croissante en traduction. Le nombre de langues différentes utilisées à travers le monde, et le développement des techniques de communication, sont des facteurs importants de l’augmentation du besoin en traduction. Rendre le contenu de la masse de données numérisées intelligible pour tous, dans un contexte international, nécessite la mise au point de méthodes de traduction automatique fiables, permettant de limiter le coût lié à l’intervention humaine.

Depuis l’apparition des ordinateurs, automatiser la traduction est un défi, dont l’origine se situe en 1949. Warren Weaver proposa, dans son célèbre Memorandum, de répondre au problème de la quantité de traductions à produire en utilisant des ordinateurs. Voici un extrait de sa réflexion :

« Thus may it be true that the way to translate from Chinese to Arabic, or from Russian to Portuguese, is not to attempt the direct route […]. Perhaps the way is to descend, from each language, down to the common base of human communication – the real but as yet undiscovered universal language – and then re-emerge by whatever particular route is convenient. »

La communauté scientifique s’intéresse donc depuis plus de 60 ans à l’automatisation de la traduction de textes. Que ce soit pour gérer le processus de passage de la langue source à la langue cible (traduction automatique, ou machine translation en anglais), ou encore pour fournir une aide aux traducteurs humains (traduction assistée par ordinateur, ou machine aided translation en anglais). Cette dernière tâche n’est pas décrite dans cette thèse, car nous avons concentré nos travaux sur la traduction automatique.

Les pionniers en traduction automatique

La période de premiers travaux en traduction automatique peut être située entre 1933 et 1956. Des précurseurs tels Andrew Booth ou Warren Weaver ont alors proposé les théories de ce qu’ils appellent mechanical translation. Une étude complète retrace l’historique des travaux effectués par ces chercheurs entre les années 1947 et 1954, publiée par Hutchins (1997). Ainsi, dans les années 1950, à l’institut de technologie du Massachusetts (MIT), ou encore chez IBM, de nombreuses équipe de scientifiques se penchèrent sur l’automatisation de la traduction.

Certains abordèrent un aspect plus philosophique dans l’automatisation de cette tâche : l’indétermination de la traduction (Quine, 1959), commenté plus tard par Marchaisse (1991). Les principaux problèmes liés à la traduction automatique furent, quant à eux, décrits dans les travaux de Bar-Hillel (1960); Taube (1961). L’effervescence dans ce domaine de recherche est marqué par des travaux de précurseurs comme Y. Bar-Hillel (Bar-Hillel, 1953a,b), ou encore M. Gross (Gross, 1964).

Cette période marqua les débuts des trois approches linguistiques fondamentales à la traduction automatique. La première, appelée traduction directe, se repose sur l’utilisation de règles spécifiques au passage d’une langue source vers une langue cible. L’analyse du contenu à traduire et l’étude syntaxique n’était alors pas la priorité. La seconde approche est basée sur une langue intermédiaire, ou interlangue, constituée d’un codage neutre et abstrait, indépendant des langues, appelé langue pivot. Le processus de traduction est alors décomposé en deux étapes : de la langue source vers l’interlangue, puis de l’interlangue vers la langue cible. La troisième approche repose elle aussi sur une étape de transfert. Elle permet la transition d’une langue source vers la langue cible au travers d’une représentation désambiguïsée des textes sources et cibles. Trois étapes sont nécessaires à la traduction par transfert : l’analyse du contenu source, le transfert vers la langue cible, et la génération de la traduction (ou synthèse).

Après cet engouement pour la traduction automatique, apparaissent les premières désillusions, notamment lors de la publication en 1966 du rapport ALPAC (Automatic Language Processing Advisory Committee) (Pierce et Carroll, 1966). Dans ce rapport, la traduction automatique est présentée comme irréalisable dans l’immédiat, et dans un futur proche : « there is no immediate or predictable prospect of useful machine translation » Cette déclaration provoqua une baisse drastique des financements dédiés aux recherches en traduction automatique, et impliqua la réduction importante des expérimentations dans ce domaine, et ce pour une dizaine d’années.

Ce n’est que vers les années 1970 que de nouveaux travaux furent entrepris, notamment par des industriels comme SYSTRAN (acronyme de System Translation) (Toma, 1970, 1972, 1977). Malgré les conclusions du rapport ALPAC, la rentabilité de la traduction automatique peut être effective suivant certains conditions, comme garder une intervention humaine dans le processus de traduction, ou se limiter à un domaine de spécialité pour limiter le vocabulaire à traduire.

À l’Université de Montréal, le projet TAUM (Traduction Automatique de l’Université de Montréal) est un très bon exemple de traduction automatique dans un domaine de spécialité. Ce projet donna lieu au système Météo (Chandioux, 1976), mis en place en 1976 afin de traduire des bulletins météorologiques entre l’anglais et le français, dont la syntaxe limitée et le vocabulaire restreint permettent d’atteindre de bons résultats. Toujours dans un contexte de traduction pour les domaines de spécialité, l’Institut textile de France proposa TITUS en 1970 (Ducrot, 1973), un système multilingue permettant de traduire des textes dans un langage contrôlé. En 1972, l’Université chinoise de Hong-Kong proposa le système CULT (Loh, 1972), développé pour traduire des textes mathématiques du chinois vers l’anglais. Si certains domaines sont concernés par d’importantes demandes en traductions, depuis les années 1950, jusqu’à la fin des années 1970, le contexte politique de l’époque influença lui aussi l’orientation des systèmes de traduction automatique. Notamment vers la prise en charge de deux langues en particulier : l’anglais et le russe. En 1954, l’Université de Georgetown et IBM proposèrent conjointement un système permettant de traduire une soixantaine de phrases du russe vers l’anglais, en se basant sur 6 règles de grammaire et sur un vocabulaire de 250 mots (Dostert, 1955).

SYSTRAN participe aussi au développement de la traduction automatique entre ces deux langues, dont les premiers systèmes furent présentés par Peter Toma. Portés ensuite à d’autres langues, comme la paire anglais-français en 1976, les systèmes mis en place par SYSTRAN intéressèrent alors l’Union européenne (Pigott, 1988) dans son besoin croissant de traductions vers de nombreuses langues. D’autres organismes, comme l’OTAN ou l’Agence internationale de l’énergie atomique, utilisèrent eux aussi les systèmes développés par Systran. Ces organismes, regroupant plusieurs États, nécessitent depuis lors des traductions dans diverses langues. L’utilisation de la traduction automatique apparaît comme un moyen de faciliter la communication entre les membres tout en réduisant les coûts en temps de travail humain.

De nombreux systèmes, tels que SYSTRAN, Logos (Tschira, 1985) ou METAL (Slocum et al., 1984), furent développés en premier lieu pour traduire des textes génériques, c’est à dire pour prendre en charge du vocabulaire n’appartenant pas à un domaine de spécialité particulier. Cependant, les dictionnaires inclus dans ces systèmes ont été adaptés pour certains domaines, afin de répondre à des demandes plus spécifiques et de couvrir le vocabulaire spécialisé. Restreindre ces systèmes à des domaines de spécialité permet d’atteindre des résultats satisfaisant. C’est dans les années 1970 et 1980 que les systèmes dédiés à la traduction dans un domaine de spécialité connurent un essor important. Nous pouvons remarquer notamment XEROX, ou encore SMART CORPORATION, dont les systèmes se basent sur un contrôle total du texte à traduire d’un point de vue du vocabulaire et de la syntaxe, afin de limiter au maximum les révisions des traductions émises automatiquement (ces révisions sont connues sour le nom de post-édition).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 La traduction automatique pour les domaines de spécialité
2.1 Historique
2.1.1 Vers l’automatisation de la traduction
2.1.2 Les pionniers en traduction automatique
2.1.3 Des approches basées sur les corpus
2.2 Contexte de la thèse
2.2.1 L’approche statistique à la traduction automatique
2.2.2 Limites liées au manque de données
2.2.3 Édition a posteriori de traductions
2.2.4 Couverture du vocabulaire spécialisé
2.3 Principes de la traduction automatique statistique
2.3.1 Fondements
2.3.2 Traduction automatique sous-phrastique
2.3.3 Décodeur
2.3.4 Une implémentation : Moses
2.3.5 Évaluation automatique
2.4 L’adaptation des modèles statistiques
2.4.1 Premiers Travaux
2.4.2 Modèle de langage
2.4.3 Modèle de traduction
2.5 La Post-édition de traductions
2.5.1 Définition
2.5.2 Coût de la post-édition
2.5.3 Approches statistiques
2.5.4 Adaptation aux domaines
2.6 L’acquisition de lexiques multilingues
2.6.1 Liens morphologiques
2.6.2 Modélisation thématique
2.6.3 Comparabilité des contextes
2.6.4 Vecteurs de contexte et extraction terminologique
2.7 Conclusion
3 La post-édition automatique de traductions
3.1 Expériences préliminaires
3.1.1 Le système du LIA pour WMT11
3.1.2 La post-édition statistique
3.2 La post-édition pour l’adaptation au domaine médical
3.2.1 Cadre expérimental
3.2.2 Les ressources
3.2.3 Construction de systèmes de traduction plus ou moins spécialisés
3.3 Évaluation de la post-édition
3.3.1 Post-édition à partir d’un système de traduction commercial
3.3.2 Post-édition à partir d’un modèle de traduction générique
3.3.3 Post-édition à partir d’un modèle de traduction médical
3.3.4 Post-édition à partir de modèles de traduction combinés
3.3.5 Choix des phrases à post-éditer
3.3.6 Élagage de la table de post-édition
3.4 Discussion
3.4.1 Synthèse des résultats
3.4.2 Travaux précédents
4 L’acquisition de lexiques bilingues médicaux
4.1 Les ressources bilingues
4.1.1 De la recherche d’information
4.1.2 … à l’extraction terminologique
4.2 Vers une approche multivue
4.2.1 Les vecteurs de contexte
4.2.2 Le modèle thématique
4.2.3 Les cognats
4.2.4 La combinaison de vues
4.3 Un modèle génératif à portées continues
4.3.1 Vecteurs de distances
4.3.2 Matrices de distances
4.3.3 Comparaison inter-langues
4.3.4 Protocole expérimental
4.3.5 Expériences et résultats
4.4 Discussion
4.4.1 Synthèse des résultats
4.4.2 Travaux précédents
5 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *