Acquisition du tchèque par les francophones

Besoin d’une méthodologie du TLE

   Il est généralement admis que la description traditionnelle de la grammaire tchèque destinée aux locuteurs natifs n’est pas adéquate pour les besoins des étudiants étrangers, voir par exemple Millet (1968), Poldauf et Šprunk (1968),Cermák (1985), Hronek (1985), Hronová ˇ (1993), Malinovský (1995), Hrdlicka (2002), Nekula (2007). Les problèmes principaux sont vus dans la présentation de la matière grammaticale et du lexique, dans la hiérarchisation des différents phénomènes dans l’enseignement et dans la présentation de la scission entre les deux registres principaux du tchèque – le tchèque écrit / littéraire et le tchèque parlé / commun. Un recueil d’articles concernant les différentes facettes du TLE est proposé dans Hrdlicka (2002). L’auteur traite de nombreux problèmes pratiques et théoriques du domaine tout en soulignant le retard tchèque par rapport aux didactiques des autres langues. Hormis le manque d’une méthodologie du TLE, Hrdlicka déplore également l’absence d’études théoriques qui seraient basées sur les notions développées en acquisition d’une langue étrangère, telles que interlangue, transfert, interférence, etc. Une quinzaine d’années avant le recueil de Hrdlicka (2002), une conférence sur la problématique a été organisée à l’Université Charles de Prague, voir Tax (1985). Concernant la description grammaticale, Hronek (1985) réclame la définition d’un ensemble d’éléments grammaticaux et lexicaux qui seraient présentés comme la base du système linguistique tchèque et qui seraient définis dans le cadre de l’approche fonctionnelle de l’école de Prague. Il mentionne l’utilité de la linguistique formelle mathématique qui apporte des outils pour une telle description – la définition explicite des algorithmes de l’analyse et de la synthèse utilisés pour le traitement automatique des langues pourraient trouver une application pratique dans l’enseignement. Dans le même esprit, Cermák (1985) souligne l’importance de la dichotomie pragoise du centre et de la périphérie du système linguistique pour une présentation didactique. Dans cette perspective, le centre serait un ensemble restreint de moyens fréquents et réguliers, et devrait représenter le point de départ pour une pédagogie efficace. La même perspective est adoptée pour l’estimation du vocabulaire actif et passif que devrait posséder un apprenant à un niveau donné. Cermák énumère les principales qualités que devrait avoir une description pédagogique du TLE : simplicité, cohérence, hiérarchisation, sélection des faits linguistiques en fonction des besoins de communication propres aux apprenants étrangers. Le rôle des différents plans linguistiques dans la description devrait être équilibré, la vision fonctionnelle du système devrait être observée à tous les niveaux. De ce point de vue, la présentation didactique de la morphologie flexionnelle nominale doit être envisagée en vue de sa fonction d’exprimer les relations syntaxiques et non pas comme une fin en soi, indépendamment du système.

Corpus d’apprenants

  À la fin des années 1980, une nouvelle impulsion a été donnée aux recherches dans l’acquisition d’une langue étrangère grâce aux progrès de la linguistique de corpus. Effectivement, les principaux défauts des méthodes les plus répandues précédemment sont aujourd’hui vus dans la faible représentativité de leur résultats. La volonté d’utiliser une large base matérielle pour rendre les analyses des productions des apprenants plus crédibles était le motif principal pour la collection des corpus électroniques (Learner Corpora) qui commencent à émerger depuis une quinzaine d’années, voir Granger (1998), Granger et al. (2002), Pravec (2002), Tono (2003). Un corpus d’apprenants est défini comme une collection électronique de données linguistiques authentiques produites par des apprenants dans une certaine situation qui est déterminée par des variables comme le type de texte, le niveau de la maîtrise de la langue, la langue maternelle de l’apprenant, etc. Du point de vue de la maîtrise de la langue cible, les corpus contenant des textes produits par des apprenants au même niveau sont appelés « statiques », ceux qui contiennent des productions recueillis pendant différentes phases de l’apprentissage sont appelés « longitudinaux ». Les corpus d’apprenants, anglophones pour la plupart, sont  développés dans le milieu commercial ou académique et la plupart d’entre eux sont compilés en Europe, en Chine et au Japon. Dans le milieu commercial, ce sont les maisons d’éditions Longman et Cambridge qui ont collecté des corpus comptant plusieurs millions de mots et qui ont servi à l’élaboration des dictionnaires et des méthodes d’apprentissage ciblés sur les problèmes des apprenants : Longman Dictionary of Contemporary English (2003) et Cambridge Advanced Learner’s Dictionary (2003). Dans le milieu académique, les corpus sont plus nombreux mais aussi plus variables en taille qui varie entre quelques dizaines de milliers de mots (50 000 dans le Montclair Electronic Language Database) et plusieurs millions (25 000 000 mots pour le corpus compilé à Honk Kong university of Science & Technology). Un des corpus les plus importants dans le milieu académique est ICLE (International Corpus of Learner English) compilé au Centre for English Corpus Linguistics à l’Université de Louvain sous la direction de Sylviane Granger qui contient des essais en anglais (2 millions de mots) provenant des apprenants d’une dizaines de langues maternelles différentes. La plupart des corpus contiennent les essais provenant des apprenants intermédiaires ou avancés. Granger (2004) distingue trois types de recherches effectuées dans le cadre de la discipline, appelée CLC (Computer Learner Corpora research) : (1) les travaux sur le cadre méthodologique et analytique, concernant principalement les aspects techniques de la conception des corpus ; (2) des études contrastives des interlangues des différents apprenants et de leur rapport à la norme native de la langue en cours d’acquisition ; (3) les analyses des erreurs assistées par ordinateurs et leurs interprétations, voir par exemple Dagneaux et al. (1998).

Traitement automatique des langues dans ELAO

   En fonction de la perspective adoptée – celle d’un utilisateur d’un tel outil, ou celle de son concepteur – de nombreuses disciplines sont mobilisées dans ELAO : la linguistique appliquée, la didactique des langues, la psychologie et les sciences cognitives, l’informatique, l’interaction humain-machine, l’intelligence artificielle, traitement automatique des langues, etc. Avec le développement de l’informatique et l’accessibilité croissante de ses produits au cours des trente dernières années, la plupart des technologies ont été testées ou utilisées pour des objectifs d’enseignement des langues dans le cadre académique ou industriel. Cette problématique est devenue le centre d’intérêt de nombreux chercheurs, participant à des activités d’associations spécialisées comme EUROCALL, CALICO, IALLT et d’autres. L’intégration des techniques de traitement automatique des langues (TAL) dans ELAO est la problématique du domaine appelé parfois l’enseignement de langues intelligemment assisté par ordinateur (ELIAO, Intelligent CALL – ICALL). D’après Karttunen (1986), Zock (1996), Nerbonne (2003) et d’autres, l’enseignement assisté par ordinateur est un domaine idéal pour la vérification des fonctionnalités des techniques de TAL, car la tâche d’assister un apprenant dans son apprentissage implique virtuellement tous les objectifs visés par cette discipline. Nerbonne (2003), p. 680, énumère les technologies qui sont ou qui ont été appliquées dans les différentes applications de ELIAO :
• analyse morphologique (lemmatisation, génération de formes pour les exercices grammaticaux et pour faciliter l’accès au dictionnaire) ;
• analyse syntaxique (correction des erreurs dans les productions des apprenants, visualisation de la structure de la phrase) ;
• emploi de corpus électroniques (source du matériau linguistique authentique) ;
• alignement de corpus bilingues (assistance à la traduction) ;
• traduction automatique ;
• analyse et synthèse de la parole (entraînement de la prononciation et la compréhension) ; La nécessité de traiter des entrées langagières non standard, contenant des erreurs dues aux spécificités de l’interlangue des apprenants, représente une exigence supplémentaire portée sur les outils de TAL dans l’ELAO. De ce point de vue, la recherche en acquisition d’une langue étrangère peut apporter de précieuses informations sur le fonctionnement du système linguistique intermédiaire de l’apprenant, que les techniques de TAL devraient modéliser, voir Nerbonne (2003), Schulze (2008). De la même façon, et sous l’angle opposé, des tentatives de formalisation des propriétés des erreurs entreprises pour un diagnostic automatique peuvent être utiles pour l’appréhension de certains aspects de l’acquisition. Les premiers outils ont été développés au début des années 1980 dans le cadre de recherches sur l’intelligence artificielle. L’objectif de ces outils était de guider l’apprenant dans son parcours, de lui proposer des activités pédagogiques et de lui fournir un retour adéquat sur ses compétences et ses erreurs. Après une période d’enthousiasme, générale pour le champ de l’intelligence artificielle à cette époque, ce sont des approches plus sobres, basées notamment sur la recherche fondamentale en TAL, qui ont gagné du terrain à partir des années 1990. Dans cette perspective, la problématique la plus urgente est la correction des productions des apprenants et la génération d’un retour approprié en fonction du diagnostic de l’erreur identifiée dans une production, voir Heift et Schulze (2003, 2007)

Correction et diagnostic des erreurs

   Des méthodes de correction peuvent être appliquées soit sur des productions libres, soit sur des productions provenant de tâches fermées comme dans les exercices grammaticaux. Pour le traitement des productions libres, différentes techniques sont expérimentées pour adapter les correcteurs orthographiques et grammaticaux, destinés à l’usage universel, afin qu’ils puissent prendre en compte des spécificités des textes produits par des apprenants étrangers. Une des techniques utilisées se base sur le relâchement des contraintes imposées par les règles de la grammaire implémentée dans un parseur (analyseur syntaxique), voir par exemple Faltin (2003), L’haire et Vandeventer-Faltin (2003). Ce relâchement permet de continuer l’analyse d’une phrase malgré la rencontre de structures illicites dont les  caractéristiques servent pour un diagnostic de l’erreur. Un correcteur de grammaire française, basé sur ce principe, a été implémenté au sein du projet européen FreeText. Les erreurs d’accord (erreur de nombre ou de genre) peuvent être corrigées efficacement avec cette technique. Une autre méthode d’analyse syntaxique intègre des « mal-rules » : règles modélisant directement les constructions déviantes produites par les apprenants. Ces règles sont implémentées dans la grammaire du parseur, et si les structures correspondantes sont reconnues dans les énoncés des apprenants, l’erreur est interprétée sur la base de la spécification liée à ces règles, voir par exemple Schneider et McCoy (1998) et Fortmann et Forst (2004). Par rapport à l’imperfection actuelle des outils disponibles pour la correction des productions libres, Holland et Kaplan (1995), Kraif et al. (2004), Tschichold (2006) estiment nécessaire l’adoption d’une approche « pédagogiquement responsable », favorisant l’emploi de techniques de base qui sont suffisamment bien maîtrisées pour réduire le bruit ou le silence à la sortie du traitement. Ces imperfections, qui peuvent être acceptables pour certaines applications dans leur usage « non pédagogique », se révèlent particulièrement perturbantes pour un apprenant au sein d’un didacticiel. Un exemple d’application ELAO basée sur une technique simple de correction est présenté dans Desmet (2006). Cette application est une plateforme ELAO publiée sur le Web proposant des exercices grammaticaux divisés en trois groupes en fonction de la nature des tâches qu’ils contiennent : des tâches fermées, des tâches semi-ouvertes et des tâches ouvertes. Les tâches fermées peuvent avoir une seule réponse possible (par exemple dans le cadre d’exercices à trous, de questionnaires à choix multiple, etc.). Les tâches ouvertes sont non restreintes dans le nombre de réponses possibles ou probables (par exemple la rédaction sur un certain sujet). Dans les tâches semi ouvertes, le nombre de réponses possibles est limité, l’activité type dans une tâche semi-ouverte est la modification de structures grammaticales à partir de phrases prédéterminées ou la traduction basique. La méthode de approximate pattern matching, utilisée dans la correction des productions issues des tâches semi-ouvertes, n’est pas à proprement parler une méthode basée sur un traitement linguistique, mais une technique comparant la chaîne produite par l’apprenant avec un ensemble de chaînes proposées comme des réponses correctes possibles. Après cette comparaison, des marques sont insérées dans la production de l’apprenant pour lui signaler l’absence d’un mot dans la chaîne, la présence inappropriée d’un mot dans la chaîne ou une erreur sur un mot. Par exemple, pour une tâche de traduction de l’anglais vers le français, les deux composants de la tâche sont spécifiés de cette manière :
• la phrase à traduire : In the evening, my sister Mary often watches the French television.
• la solution possible avec ses alternatives entre crochets : [Le soir, ma soeur Marie regarde [souvent / fréquemment] la [télé / télévision] française.] / [Ma soeur Marie regarde [souvent / fréquemment] la [télé / télévision] française, le soir.] Un exemple d’une production erronée et de sa correction, contenant les symboles XXX pour un mot contenant une erreur, (XXX) pour un mot en trop et (…) pour un mot manquant :
• la production de l’apprenant : Le soir, ma soer regarde souvent à la télé français.
• la correction : Le soir, ma XXX (…) regarde souvent (XXX) la télé XXX.
Avec ce retour, l’apprenant est invité à corriger sa production et la solution correcte lui est montrée après le second essai. L’avantage de cette technique, permettant d’attirer l’attention de l’apprenant sur ses erreurs, réside dans sa fiabilité, cependant toutes les réponses possibles doivent être explicitement spécifiées, ce qui peut devenir problématique, voir impossible pour des tâches moins restreintes, par exemple la reformulation des énoncés, une traduction des phrases plus complexes, etc. Le retour sur la production erronée est néanmoins assez basique et ne met pas en relief les propriétés linguistiques des productions erronées. Dans la perspective de l’emploi des techniques de TAL pour la correction des erreurs dans un outil ELAO, nous estimons qu’un diagnostic des erreurs issues des exercices grammaticaux à trous pourrait être effectué par des procédés relativement simples basés sur la génération morphologique. Ce diagnostic pourrait être motivé linguistiquement en interprétant l’écart formel entre la forme requise dans une tâche de l’exercice et la production erronée de l’apprenant.

Présentation générale de CETLEF

   En considérant les avantages et les inconvénients de la compilation de corpus avec des productions libres des apprenants, nous avons décidé de développer une application Web qui permet de collecter les données au sein des exercices grammaticaux contenant des tâches de déclinaison. Les formes requises dans de telles tâches peuvent être facilement accompagnées par une annotation morphologique, ce qui peut être utilisée pour la recherche des données et pour l’intégration des traitements automatiques. Le cadre restreint des exercices de déclinaison permet l’intégration d’un module de diagnostic des erreurs qui peut être basé sur des techniques rudimentaires du traitement automatique des langues. L’idée générale de ce diagnostic est qu’une forme erronée produite par l’apprenant peut être calculée automatiquement et les propriétés formelles de cette production peuvent servir comme l’explication de l’erreur. Nous estimons que le développement d’un tel diagnostic peut apporter des observations précieuses sur la nature des erreurs dans la déclinaison. Les exercices de déclinaison représentent un cadre limité du point du vue des compétences mises en jeu par l’apprenant car la production des formes fléchies dans leur cadre est d’une certaine façon une activité artificielle. Nous estimons néanmoins, qu’une analyse détaillée des erreurs dans ces formes qui soit basée uniquement sur leur propriétés morphologiques, est un bon point de départ pour l’analyse des productions libres et des erreurs au niveaux linguistiques plus élevés. Finalement, une application Web peut servir non seulement comme un dispositif d’acquisition des données mais aussi comme un outil d’apprentissage orienté vers l’apprenant : les exercices servent pour son entraînement et le diagnostic de ses erreurs peut l’aider dans son apprentissage.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 Cadre méthodologique
2.1 Tchèque langue étrangère
2.1.1 Besoin d’une méthodologie du TLE
2.1.2 Recherche sur le TLE – des cas concrets
2.1.3 Présentation didactique de la déclinaison du tchèque
2.2 Acquisition d’une langue étrangère
2.2.1 Revue de la discipline
2.2.2 Sources de données
2.3 Enseignement des langues assisté par ordinateur
2.3.1 Traitement automatique des langues dans ELAO
2.3.2 Correction et diagnostic des erreurs
2.4 Plateforme CETLEF
2.4.1 Présentation générale de CETLEF
2.4.2 Présentation des notions et des termes employés
3 Annotation morphologique
3.1 Préliminaires
3.1.1 Introduction à la déclinaison du tchèque
3.1.2 Utilité de l’annotation linguistique
3.1.3 Couverture de l’annotation
3.1.4 Morphologie automatique
3.1.5 Modèle de la déclinaison dans CETLEF
3.2 Catégories lexicales et types morphologiques
3.3 Catégories morphologiques
3.3.1 Catégorie de cas
3.3.2 Catégorie de nombre
3.3.3 Catégorie de genre
3.4 Paradigmes de déclinaison
3.4.1 Définition des paradigmes
3.4.2 Fichier pdgm.xml
3.4.3 Déclinaison nominale
3.4.4 Déclinaison adjectivale
3.4.5 Déclinaison mixte
3.4.6 Déclinaison pronominale
3.4.7 Déclinaison numérale
3.4.8 Fréquence des types paradigmatiques
3.5 Alternances
3.5.1 Sens de l’alternance
3.5.2 Vérification de la réalisation des alternances
3.5.3 Alternances consonantiques
3.5.4 Alternances vocaliques
3.5.5 Fichier alt.xml
3.6 Procédure AlterneRadical
3.6.1 Description
3.6.2 Tests algorithmiques des alternances
3.7 Procédure Annote
3.7.1 Description
3.7.2 Annotation des lemmes connus
3.7.3 Annotation des lemmes inconnus
4 Diagnostic des erreurs 
4.1 Hypothèses sur les erreurs de déclinaison 
4.2 Définition des types d’erreurs 
4.2.1 Définition de l’univers U
4.2.2 Forme requise et production erronée dans U
4.2.3 Interprétation morphologique
4.2.4 Attributs de graphie
4.2.5 Exemple d’interprétations
4.2.6 Erreur d’après l’attribut atteint
4.2.7 Erreur par rapport au paradigme de la forme requise
4.2.8 Diagnostic morphologique d’une production erronée
4.2.9 Plausibilité d’une interprétation morphologique
4.3 Procédure Diagnostic 
4.3.1 Description
4.3.2 Structure de la procédure
4.4 Message d’erreur 
4.4.1 Attribut erreur
4.4.2 Attributs morphologiques
4.4.3 Attribut spec
4.4.4 Attributs concernant les alternances
4.4.5 Attribut dia
4.4.6 Attribut var
4.4.7 Exemples
4.5 Traitement non morphologique 
4.5.1 Tests sur les caractères
4.5.2 Tests sur les chaînes
4.6 Traitement morphologique 
4.6.1 Lecture locale
4.6.2 Lecture verticale
4.6.3 Lecture horizontale interne
4.6.4 Lecture horizontale externe
4.6.5 Procédure AlterneHypothèse
4.6.6 Exemple
4.7 Filtrage des interprétations 
4.7.1 Exemple du groupement des interprétations
4.7.2 Filtrage des interprétations locales
4.7.3 Filtrage des interprétations verticales
4.7.4 Filtrage des interprétations horizontales internes
4.7.5 Filtrage des interprétations horizontales externes
4.7.6 Exemple
4.8 Formatage du diagnostic 
4.8.1 Composante 1 : Traduction des attributs erreur et spec
4.8.2 Composante 2 : Traduction des attributs concernant les alternances
4.8.3 Composante 3 : Traduction des attributs dia et var
4.8.4 Exemples
5 Évaluation 
5.1 Enquête publique
5.1.1 Présentation de l’enquête
5.1.2 Caractéristique des apprenants et leurs scores
5.1.3 Présentation des erreurs recueillies
5.2 Enquête préliminaire 
5.2.1 Présentation de l’enquête
5.2.2 Caractéristique des apprenants et leurs scores
5.2.3 Présentation des erreurs recueillies
5.2.4 Comparaison avec l’enquête publique
5.2.5 Illustration d’une analyse d’erreurs par tâche
6 Implémentation 
6.1 Application Web dynamique
6.1.1 Techniques de programmation employées
6.1.2 Architecture de CETLEF
6.2 Base de données
6.2.1 Rappels formels et définitions
6.2.2 Tables dans la base de données cetlef
6.2.3 Table apprenants
6.2.4 Table exercices
6.2.5 Table taches
6.2.6 Table requis
6.2.7 Table lexique
6.2.8 Table prod_exercices
6.2.9 Table prod_taches
6.2.10 Illustration des requêtes
6.3 Interface utilisateur CETLEF 
6.3.1 Plateforme auteur
6.3.2 Plateforme apprenant
7 Conclusion 
A CETLEF Plateforme auteur
B CETLEF Plateforme apprenant
C Paradigmes
C.1 Flexion nominale
C.2 Flexion adjectivale
C.3 Flexion mixte
C.4 Flexion pronominale
C.5 Flexion numérale
D Alternances
D.1 Alternances consonantiques
D.2 Alternances vocaliques

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *