Création, diffusion et archivage de bases de données des langues rares

De septembre 1999 à juillet 2001, un séjour à Hanoi nous a fourni l’occasion de découvrir la richesse linguistique du Vietnam. Au début de l’année 2000, nous avons pris contact avec des linguistes qui travaillent dans le domaine des langues d’Asie du Sud-Est : Michel Ferlus et Barbara Niederer en France, Trần Trí Dõi et Nguyễn Văn Lợi au Vietnam. La charge de travail qui était la nôtre ne permettait pas d’enquêtes de terrain suivies. En revanche, tous reconnaissant l’indigence des fonds documentaires existant sur les « petites langues » du Vietnam, nous avons souhaité œuvrer à la mise en place d’un fonds documentaire à composante sonore, qui irait de pair avec un programme de collecte des langues rares du pays.

Mais est-ce bien de la phonétique ? 

Un mémoire au sujet des corpus, présenté pour solliciter l’attribution d’un Diplôme d’Etudes Approfondies en phonétique ? Le rapport avec la recherche en phonétique paraît bien ténu. N’y a-t-il pas eu erreur d’aiguillage ? Ne s’agit-il pas plutôt d’un travail de bibliothécairedocumentaliste, ou de traitement automatique des langues ?

Le présent mémoire ne prétend pas innover au plan technique : écrit par un débutant à mesure de ses apprentissages (par exemple en ce qui concerne les langages XML et XSL), il reste rudimentaire au plan des techniques informatiques présentées. Le fait d’inscrire ce travail comme mémoire de DEA de phonétique est une façon d’exprimer une conviction concernant la nature du travail de conservation : il est important que des linguistes prennent en charge le travail de description des langues rares, pour produire des documents de grande qualité, qui aient des chances d’être conservés lorsque la majorité des langues existant actuellement seront éteintes.

En d’autres termes, le point de départ du présent travail est l’idée selon laquelle il appartient aux linguistes d’aujourd’hui de consacrer une partie de leurs efforts à la conservation du patrimoine linguistique mondial, la théorie linguistique ayant tout à y gagner, à court terme comme à long terme. La tradition de description de langues et de constitution méticuleuse de corpus par des linguistes existe depuis longtemps ; elle est en fait intimement liée au travail philologique de conservation du patrimoine culturel. A l’ère électronique, il est utile de faire le point des réalisations et des besoins, pour que puisse se poursuivre les recherches de linguistique des langues. L’accent mis sur la pluralité des langues ne doit pas être imputé à une quête d’«exotisme » : la prise en compte de cette pluralité permet seule d’éviter que les théories ne soient « glottocentriques ». Le développement des recherches et les progrès dans la compréhension des phénomènes nécessitent la mise en place d’archives sonores par des linguistes. L’époque actuelle représente un moment charnière, entre la découverte des moyens d’enregistrement modernes (audio et vidéo) et l’uniformisation linguistique (disparition des langues et civilisations à tradition orale, diffusion des langues nationales, influence universelle de la langue anglaise). Le phonéticien, soucieux, comme tous les linguistes, de définir son objet d’étude, ne doit-il pas s’efforcer de matérialiser son objet d’étude sous forme d’enregistrements aisés à partager ? Or cela n’est pas encore réellement entré dans les habitudes : les Actes de la conférence Speech Prosody 2002 (Aix-enProvence, 8 11 avril 2002), publiés sur CD-ROM, ne contiennent presque pas d’illustrations sonores, qui paraîtraient pourtant particulièrement nécessaires dans le domaine de la prosodie. Le CD contient moins de 4 Mo d’illustrations sonores : seuls sept articles sont illustrés, par des fichiers de quelques secondes. Il ne s’agit pas ici de problème de capacités de stockage, puisque le CD contient en tout 38 Mo de données : il aurait donc été possible d’y adjoindre plus de 600 Mo de documents sonores. L’absence d’habitude documentaire chez un certain nombre de chercheurs en linguistique fait qu’ils ne sont guère sensibles aux questions des formats de données: dans les illustrations des Actes de Speech Prosody 2002 dont il vient d’être question, on trouve des documents numérisés à 11.025 Hz. Ces échantillons paraissent bien trop courts pour qu’ils permettent de répondre aux questions nouvelles que l’on veut poser, pour tester des hypothèses nouvelles. Ne serait-ce pas une attitude plus scientifique de transmettre des données plus étendues ? L’expérience du chercheur confirme l’intuition de simple bon sens selon lequel un va et-vient entre données et modélisation est nécessaire . Le développement de publications électroniques qui permettent de fournir des illustrations sonores d’articles marque certes un tournant dans le domaine des publications en phonétique, mais il ne paraît pas réaliste d’espérer que cette pratique apporte une solution au problème de la documentation sonore, puisque les illustrations de ce type sont nécessairement parcellaires au regard du système linguistique dont elles sont extraites.

Pourquoi chercher à conserver les « petites langues » ? 

Au seuil de ce travail, il paraît nécessaire de se demander pourquoi les réalisations dans le domaine de la documentation des langues rares restent relativement modestes, surtout au vu de la taille actuelle de la communauté internationale des linguistes. Une raison déterminante paraît être qu’aux yeux de beaucoup de chercheurs, l’enjeu de la recherche n’est pas à l’heure actuelle de collecter des données, mais de procéder à leur analyse. L’entreprise de conservation des langues menacées peut apparaître vaine : qu’espère-t-on au juste en emmagasinant fébrilement des données sur de nombreuses langues en voie de disparition ?

N’est-il pas plus éclairant de tisser des liens entre les connaissances existantes, pour réunir les descriptions fragmentaires et proposer des modèles universels ?

Urgence du travail de documentation

Le constat d’ensemble est clair :
Of the 6,000 languages listed in Ethnologue (Grimes 1992) for which there are population figures,
➤ 52% are spoken by less than 10,000 people;
➤ 28% by less than 1,000; and
➤ 83% are restricted to single countries, and so are particularly exposed to the policies of a single government.
➤ 10% are spoken by less than 100 speakers At the other end of the scale, 10 major languages, each spoken by over 109 million people, are the mother tongues of almost half (49%) of the world’s population. There is agreement among linguists who have considered the situation that over half of the world’s languages are moribund, i.e. not effectively being passed on to the next generation. We and our children, then, are living at the point in human history where, within perhaps two generations, most languages in the world will die out. (Source : “Manifesto of the Foundation for Endangered Languages”; Iatiku #2, p.2.) .

L’ampleur des bouleversements linguistiques qu’introduisent aujourd’hui les échanges « mondialisés » apparaît clairement si l’on observe à quel point les systèmes phonologiques des langues du monde présentent des particularités de nature aréale : ainsi, les langues du Caucase sont riches en groupes de consonnes ; les langues d’Asie du Sud-Est présentent couramment des phénomènes de glottalisation au niveau lexical (tons glottalisés, phonèmes glottiques, registres phonatoires) ; les systèmes de tons ponctuels de nombreuses langues d’Afrique subsaharienne ont des similitudes entre eux. Lorsqu’une langue présente une situation typologique extrême, elle n’est généralement guère différente de langues voisines : ainsi, le système consonantique très complexe de l’oubykh a pu apparaître et perdurer au sein des langues caucasiennes du Nord-Ouest, au voisinage de langues comme le tcherkesse, l’abzakh…, elles aussi très riches en consonnes. En d’autres termes, outre les évidentes différences entre langues proches, entre dialectes, entre idiolectes, et même entre registres d’expression, il existe des différences qui n’ont pu apparaître que par un phénomène de relative isolation géographique, qui définissait un certain nombre d’ensembles linguistiques dont chacun pouvait présenter des caractéristiques typologiques affirmées, que les contacts continus entre langues ne modifiaient pas profondément, du fait que les langues (pour simplifier) étaient principalement en contact avec leurs voisines. La suprématie des langues nationales et l’influence universelle de l’anglais créent des «court-circuits » qui font disparaître de nombreux systèmes linguistiques et suppriment les conditions qui avaient permis leur apparition .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1. Mais est-ce bien de la phonétique ?
2. Pourquoi chercher à conserver les « petites langues » ?
3. Urgence du travail de documentation
Première partie : Un état des lieux décevant
1. Des phonothèques peu fréquentées par les phonéticiens
Les collections sonores de la Bibliothèque nationale de France
Le Musée national des Arts et traditions populaires
Autres institutions
Le programme Archivage du LACITO
Les collections de l’Institut de Phonétique à Paris
2. La grande fragilité des fonds individuels
3. Pléthore de formats, peu de données
4. Nécessité d’une collaboration et d’un dialogue lors de la création de corpus : réflexions au sujet d’un corpus réalisé à l’ILPGA
Bilan : Le rôle des équipes de recherche : Pour une charte de qualité des bases de données
L’indexation et la transcription
La qualité de l’enregistrement audio
Rémunération de l’informateur
Une application flexible
Deuxième partie : guide pratique d’archivage et présentation du programme Archivage du LACITO et de la base de données phonétique de Kiel
1. Premières étapes de la création des documents
a. L’enregistrement
b. La réécoute et la transcription
c. Numérisation et découpage
2. L’analyse documentaire des fonds
Le format de la base de données
Les droits d’auteur
3. Le programme Archivage du LACITO
Les feuilles de style
Comment créer un document XML ?
Ce qu’il faut connaître du langage XSL
Bilan
4. Une base de données pour phonéticiens : la base de données phonétique de Kiel
a. Notation des segments
b. L’annotation prosodique.
Troisième partie : Quelles données pour quelles recherches ?
1. Exemple de données de chercheur : la donation René Gsell
Amharic
birman
kenga
Ketchuan, kabre
khmer
khün
kikongo
moore
munzambo
turc sifflé
uldeme
2. Autres tâches de numérisation menées en 2001-2002
a. Le corpus vietnamien
b. Le corpus naxi, support d’un travail de thèse
Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *