Lexicographie et dictionnaires électroniques

LE BEAU MODÈLE ANTIQUE

En Italie, la naissance de la lexicographie est inscrite à l’intérieur d’événements vastes et complexes tels que le furent l’origine et le développement des parlers vulgaires, qui pendant les XIIIe et XIVe siècles, deviennent le moyen de communication de la classe commerciale et assument lentement une importance croissante du point de vue politique aussi bien que littéraire : ce que démontrent les oeuvres de Dante Alighieri. Le Cantico delle creature (aux environs de 1225) de Saint François d’Assise, légitime par contre les potentialités évangélisatrices de la langue vulgaire, en créant les premiers éléments d’opposition avec le latin ecclésiastique. Lentement, l’usage des parlers vulgaires introduit dans la péninsule italienne, les premiers éléments de diglossie11, qui, par conséquent, véhiculent vers l’écriture les premiers vocabulaires et glossaires bilingues, comme par exemple le vocabulaire latinsicilien de 1348 intitulé Liber Delcari, et un glossaire latin-bergamasque autour de 1420. Pendant l’Humanisme et la Renaissance, le parler vulgaire de la Toscane acquière la condition définitive de nouvelle langue d’usage, au détriment du latin et malgré la forte opposition de l’Eglise qui, en 1577, interdit la lecture de la Bible en langue vulgaire. C’est en 1612 qu’est imprimé le premier dictionnaire moderne monolingue de l’italien, le Vocabolario della Crusca. Aujourd’hui, celui-ci représente encore une étape fondamentale de la lexicographie italienne étant donné que (comme le souligne Giovanni Nencioni dans la présentation à la réédition de 1987) « en ce qui concerne la méthode, le Vocabolario della Crusca marque en 1612, pour le sens historique et le critère systématique, un progrès remarquable par rapport aux dictionnaires compilés au XVIème siècle: la technique lexicographique fut définie avec beaucoup de soin, comme le démontre l’introduction rigoureuse, et on fit précéder la technique d’une théorie de la langue longuement débattue et expérimentée, qui conféra à l’œuvre cohésion et caractère »12. A ces observations, fait écho Beccaria, en soulignant que « Le Vocabolario degli Accademici della Crusca constitua ensuite le modèle pour toute la lexicographie monolingue européenne »13. Aussi bien avec cette première édition de 1612, qu’avec celles qui suivirent, le Vocabolario della Crusca a en fait représenté, pendant des siècles, un point de référence pour les spécialistes et les écrivains de beaucoup de nationalités, et parmi eux les italiens Foscolo, Leopardi et Manzoni. Pendant les cinq derniers siècles, le dictionnaire monolingue sur papier s’est rarement éloigné du modèle défini en 1612, même en revêtant des formes et des contenus différents. En général, aujourd’hui un dictionnaire papier peut être défini comme une «œuvre de consultation dans laquelle on décrit le lexique d’une langue parmi une série d’articles composés d’un lemme et d’une glose qui contient une série d’informations sur le lemme (…) L’ensemble des lemmes d’un dictionnaire forme sa liste d’articles ou sa macrostructure, l‘article lexicographique en soi constitue sa microstructure (…) Une typologie des dictionnaires se base soit sur les objectifs pour lesquels l’œuvre est compilée et consultée, soit sur la base de différences dans l’organisation des articles ou de la microstructure (…) En général, les lemmes sont ordonnés alphabétiquement (…) Un dictionnaire monolingue présente une seule liste d’articles où les lemmes sont associés à des gloses écrites dans la même langue que le lemme (…) un dictionnaire monolingue générique de 120000 lemmes contiendra un nombre remarquable de termes de spécialité extraits des domaines majeurs du savoir, et aussi des archaïsmes présents chez les auteurs les plus étudiés (…). La définition que nous venons de lire est très importante pour la suite de notre exposé, parce qu’elle contient les deux principaux points de contact, pour la forme et le contenu, entre le dictionnaire papier et le dictionnaire électronique, dont nous allons traiter, c’est-à-dire:
· la description du lexique d’une langue donnée;
· l’ordre alphabétique des mots.
L’objectif décrit au premier point, certainement le plus important des deux, est atteint par les deux types de dictionnaire avec des modalités extrêmement différentes, comme nous le verrons par la suite. Nous avançons, pour le moment, que dans notre dictionnaire électronique il n’y aura pas de gloses descriptives, qui seront remplacées par des codes alphanumériques pour la catégorisation grammaticale et flexionnelle. Mais par la suite, nous verrons que, de ce point de vue, la taille des différences existantes entre les deux types de dictionnaires est remarquable: au sujet des modalités descriptives d’un lexique, les méthodes peuvent être plutôt disparates et souvent strictement connexes aux finalités – de l’édition, culturelles, pratiques ou encore commerciales – que se type d’ouvrage poursuit. Le deuxième point représente presque une exigence: pour le dictionnaire papier, elle est imposée par la nécessité de donner aux lecteurs une méthode de consultation rationnelle, rapide et universellement connue, et pour le dictionnaire électronique par la logique des ordinateurs qui ne permet de traiter automatiquement que les bases de données qui sont ordonnées alphabétiquement. A partir de la citation précédente, il est nécessaire de souligner un autre aspect important relatif à la typologie des dictionnaires, qui est définissable sur la base des buts pour lesquels l’œuvre est compilée et consultée. On peut distinguer entre les principaux types suivants de dictionnaires papier:
· monolingues, i.e. les dictionnaires qui décrivent le lexique d’une seule langue;
· monolingues encyclopédiques, dans lesquels les gloses de chaque entrée, à part les informations morphologiques et/ou grammaticales, donnent aussi des descriptions encyclopédiques plus ou moins détaillées, selon la nature de la taille de l’ouvrage;
· bilingues ou plurilingues directionnels, i.e. les dictionnaires qui décrivent le lexique d’une langue source en fournissant pour les lemmes de celle-ci les gloses et les traductions en une ou plusieurs langues cible. Parmi ces dictionnaires, on trouve les ouvrages de spécialités technico-scientifiques, dans lesquels on présente le lexique d’un domaine de la connaissance humaine particulier – par exemple, la physique nucléaire ou la géodésie – avec les traductions correspondantes en une ou plusieurs langues. Souvent, les dictionnaires de spécialités technico-scientifiques ont l’anglais comme langue source;
· bilingues bidirectionnels, i.e. des dictionnaires dans lesquels du point de vue de la traduction, deux langues données peuvent servir alternativement de source dans une section et de cible dans l’autre, et alors on ne donne l’explication de leurs lexiques que quand elles ont une fonction source; Des versions sur CD-Rom des dictionnaires cités dans la typologie précédente, ont commencé à être commercialisés plutôt récemment par plusieurs sociétés éditrices italiennes et étrangères. Il s’agit de versions électroniques des ouvrages sur papier, enrichies par des outils multimédias de consultation, telles que par exemple la prononciation des lemmes ou quelques structures hyper-textuelles de navigation. De cette façon, il a été crée un nouveau type de dictionnaire, également dit électronique parce que consultable seulement sur ordinateur, mais que nous préférons appeler informatisé, pour le distinguer de la base de données lexicales que nous analyserons mieux par la suite. La distinction est, à notre avis, presque obligatoire, parce qu’un dictionnaire informatisé, à cause de sa structure, ne peut pas, par exemple, être utilisé comme base de données lexicales dans des routines d’analyse textuelle automatique; et aussi, comme nous le verrons, pour la création de notre dictionnaire électronique, la transposition sur support magnétique ou optique d’un ouvrage sur papier est à la fois superflue et réduite. Pour ces raisons, il sera donc préférable de garder bien séparés les dictionnaires informatisés des dictionnaires électroniques, et nous verrons que cette mise au point terminologique essentielle sera justifiée par de nombreux aspects, de caractère bien théorique qu’applicatif.

La crise inattendue de Monsieur George Boole

A propos d’Internet, il est possible de donner beaucoup de définitions, mais comme contenant des documents, le réseau des réseaux représente essentiellement des archives très utiles et riches, dans lesquels il est en effet possible de repérer tout type d’information; et même si cette spécificité est strictement dépendante de facteurs difficilement prédictibles, comme par exemple la possibilité d’atteindre un site, l’efficacité ou encore la surcharge des connections téléphoniques et/ou de réseau, la quantité et la qualité des informations normalement contenues dans le Web sont tellement élevées que celui-ci est maintenant devenu un instrument presque irremplaçable. Avoir des nouvelles de haute qualité est sans doute un avantage, non seulement pour les navigateurs du Web. Mais cette condition peut changer drastiquement si la quantité de nouvelles devient tellement démesurée qu’elle empêche la consultation, au lieu de la favoriser, et en ce cas l’avantage devient rapidement un désavantage. En réalité, c’est le risque qu’on court presque toujours avec les actuelles modalités de recherche disponibles sur le réseau Internet. Nous savons qu’aujourd’hui, pour localiser ou récupérer du Web une information spécifique, il faut s’en remettre aux moteurs de recherche, c’est-à-dire à des logiciels en ligne qui, à partir de notre recherche, effectuée en utilisant un ou plusieurs mots clefs, lisent les pages présentes sur les différents sites du réseau Internet et nous transmettent les URL des pages qui contiennent le mot ou les mots que nous avons cherchés. Donc, si nous voulions demander toutes les informations contenues dans le Web en relation avec le mot, et donc avec le concept de fondamentalisme, en théorie il faudrait insérer ce mot dans la boîte de texte spéciale d’un moteur de recherche, attendre l’élaboration et finalement consulter les résultats qui nous seraient montrés sur l’écran de notre ordinateur. Ainsi décrit, ce mécanisme de recherche pourrait sembler infaillible, mais la réalité est bien différente. Souvent, et surtout avec les moteurs de recherche, la création d’un logiciel doit être rapportée à des questions ou des données qui ne rentrent pas dans le domaine spécifique de l’informatique ou de la programmation ; et, pour en faire un usage correct, il est nécessaire d’avoir une profonde connaissance des disciplines auxquelles ces questions ou données affèrent, du moins si l’on veut éviter des erreurs, des disfonctionnements et de fausses expectatives. Dans le cas des moteurs du Web, ceux-ci étant des logiciels qui analysent automatiquement des données textuelles, la discipline non-informatique de référence est sûrement la linguistique-informatique, et il faudrait tenir compte des aspects théoriques, pratiques, et aussi des thèmes et activités de celle-ci, lorsqu’on réalise un moteur de recherche. Néanmoins, à cause de ce qu’on pourrait appeler une insuffisante sensibilité linguistique, en général les moteurs de recherche actuels se révèlent peu fiables précisément par rapport à l’activité qu’ils affirment vouloir accomplir, c’est-à-dire : récupérer l’information du réseau Internet. Mais très exactement, comment fonctionne un moteur de recherche lorsque nous lui soumettons l’une de nos interrogations textuelles? Certes, il ne lit pas complètement et spécifiquement toutes les pages Web du réseau Internet, parce que pour faire cela un moteur emploierait une quantité de temps plutôt élevée et il ne serait pas capable de nous fournir rapidement des résultats. En réalité, les recherches de tous les moteurs sont effectuées à partir d’index des pages Web, donc à partir de fichiers dans lesquels on liste, sans répétitions et en ordre alphabétique, les mots contenus par les différentes pages. La réalisation d’index similaires, qui est appelée indexation textuelle automatique et qui est une application ultérieure non-intelligente de la linguistique-informatique, abrège énormément le temps de lecture d’un texte, et permet aux moteurs de recherche de fournir rapidement les résultats. Une recherche effectuée avec un mot simple, comme par exemple celle indiquée précédemment pour le terme fondamentalisme, sera donc en mesure de nous dire avec précision dans quels documents Web le mot est utilisé. Au contraire, la situation change si on fait une recherche avec plusieurs mots car, en ce cas, les moteurs de recherche montrent leurs limites. On sait que le mot fondamentalisme exprime des concepts différents que la séquence de mots fondamentalisme islamique, et nous pouvons en dire autant pour carte et carte de crédit. Ces différences, qui sont non seulement formelles mais aussi et surtout sémantiques, sont cependant mises à zéro dans les index réalisés à partir des pages du Web, parce qu’à chaque fois qu’ils apparaissent l’un à côté de l’autre, les trois mots carte de crédit, qui écrits en une séquence ont un signifié unique, sont indexés séparément, c’est-à-dire sont placés sur trois lignes différentes de l’index final, et non sur une même ligne, comme l’exigerait la logique du signifié. La même chose se vérifie pour fondamentalisme islamique, cheval de Troie, zone d’ombre, i.e. pour toutes ces séquences qui sont dites mots composés dans le Lexique-grammaire parce que formées par deux ou plusieurs mots mais avec des fonctions grammaticales et sémantiques uniques et, comme nous le verrons, un rôle fondamental pour l’information retrieval. La perte d’informations qui se vérifie à cause de cette typologie d’indexation particulière a des répercussions considérables sur les résultats des recherches effectuées avec les moteurs du Web. En fait, en utilisant l’un quelconque de ceux-ci pour une interrogation simple relativement à carte de crédit, la recherche sera effectuée non seulement pour repérer les occurrences contiguës et continuelles des trois mots, i.e. pour les trois mots écrits l’un après l’autre, mais aussi pour leurs occurrences non-contiguës et discontinuées, i.e. pour les trois mots non écrits l’un après l’autre. Une recherche d’échantillon sur le mot composé italien carta di credito (carte de crédit) effectuée au hasard avec un moteur de recherche, a en fait repéré presque 97.700 URL à consulter, et parmi celles que nous avons pu examiner, pas toutes contenaient la séquence exacte carta di credito, mais seulement les trois mots éparpillés dans le texte. Ce nombre élevé de résultats représente un véritable obstacle pour la récupération d’informations désirées, parce que la consultation de presque 97.700 URL serait très longue et surtout elle serait brusquement arrêtée par tout navigateur qui se retrouverait lisant même une seule page qui, avec l’information requise, n’aurait que peu à voir. En ce sens, avoir trop d’informations à consulter peut signifier n’en avoir aucune. Comme on l’a déjà indiqué, et démontré, l’excessive quantité d’informations repérées sur le réseau Internet avec les moteurs de recherche peut parfois ne pas être un avantage. D’autres problèmes peuvent s’ajouter à ceux provoqués par une indexation incorrecte. En premier lieu, les moteurs de recherche n’indexent pas tout le texte des pages Web, mais seulement une partie, par exemple 30%, et cette partie à indexer peut encore ne pas être séquentielle. En outre, il semble que, pour les textes du Web, il n’y ait pas de procédures standardisées d’indexation, mais que chaque moteur de recherche applique des modalités et des pourcentages différents, et cela fait qu’en présence d’une même recherche, deux moteurs donnent deux résultats différents. En revenant à l’exemple de carta di credito, les presque 97.700 URL trouvées par l’interrogation d’un moteur sont devenues 16.101.295 avec un autre, un nombre encore plus inconfortable.

Freud versus Popper, i.e. la Psychanalyse versus le Faillibilisme

Nous choisissons, parmi d’autres, des exemples particuliers qui nous fascinent, tout en sachant qu’il faut tenir compte du fait qu’au départ il y a l’œuvre de médiation de la traduction. Nous estimons que les langues de spécialité dont nous parlons, celle de la psychanalyse surtout, ont une place dans la culture moderne, donc aussi dans la langue en général. Nous avons considéré leur impact sur l’italien, mais la même analyse peut être appliquée à d’autres langues. Comme deuxième source de repérage lexical, nous avons utilisé les œuvres plus importantes de l’épistémologue Karl R. Popper, personnalité remarquable du XXème siècle qui a laissé un vaste héritage intellectuel dans le domaine de la philosophie et dans d’autres secteurs de la culture. En partant de l’indubitable valeur de sa pensée, nous avons analysé l’impact lexical de ses écrits traduits en italien, et pour avoir des critères objectifs de validation de cette analyse, nous en avons fait une similaire pour Sigmund Freud, autre personnalité extrêmement importante non seulement pour le dernier siècle, mais aussi pour ceux à venir. Comme nous le verrons, malgré l’énorme importance de ces deux personnages de la culture mondiale, les dictionnaires papier ont réservé leur des traitements très différents. En 1866, Sigmund Freud ouvre à Vienne son cabinet privé pour la thérapeutique des maladies nerveuses. En se basant sur les observations de Joseph Breuer et en recherchant les raisons et les sens des manifestations hystériques, Freud entreprit l’usage de l’hypnose comme méthode curative ou de diagnostic, faisant les premières avancées vers la découverte de l’inconscient et donc vers la définition de la psychanalyse. Cette dernière, comme il est notoire, est devenue par la suite une thérapie à l’efficacité indiscutable, et aussi une clé de lecture de la vie moderne, dont il semble aujourd’hui que presque personne ne puisse faire abstraction. Comme confirmer sa vocation à être la patrie de l’intelligenzia européenne de cette période, en 1902 Vienne vit aussi naître Karl Raimund Popper, auquel on doit un important changement méthodologique dans l’approche épistémologique de la recherche scientifique. Popper, qui était un philosophe des sciences, constata que l’histoire de toutes les théories scientifiques est articulée en trois phases essentielles, naissance, période d’affirmation maximale, déclin. En particulier, Popper affirme que le déclin de chaque théorie est dû à l’affirmation d’une autre théorie, plus innovatrice, qui revoit et corrige la précédente et qui donc, dans un premier moment la falsifie et ensuite la perfectionne. Dans ce cas, le philosophe autrichien reprend son idée de Hume, qui a démontré qu’il n’est pas possible d’affirmer la validité d’une théorie en généralisant la valeur d’un nombre fini d’événements qui la confirment ou qui se conforment à elle. En outre, selon Popper, il suffit d’avoir un seul événement contraire à ce qui a été prédiqué par la théorie pour l’invalider et avec elle invalider toutes les lois et les descriptions qu’elle inclut. Le grand changement méthodologique provoqué par la pensée de Popper est donc le suivant: on ne doit pas seulement postuler une théorie sur la base des événements qu’elle observe et explique, mais on doit aussi utiliser tous les événements observables comme des contrôles possibles à effectuer sur la théorie même, pour vérifier son efficace ou sa fausseté. Si un seul résultat des observations falsifie la théorie, alors elle doit être abandonnée, si au contraire toutes les observations la confirment, elle peut être considérée valable jusqu’au moment où elle ne sera pas inévitablement falsifiée par les contrôles futurs. Il s’ensuit que plus un système descriptif théorique est falsifiable, plus il peut être contrôlé par l’homme: plus la science se trompe, plus elle est à la portée de l’homme. Donc, si aucune théorie scientifique n’est valide dans l’absolu, alors toutes les théories peuvent être comparées à de simples hypothèses ou conjectures sur le monde réel qu’elles étudient, parce qu’elles décrivent partiellement l’état des faits et peuvent être démenties par de nouveaux événements dans n’importe quel moment. Pour support de ses thèses, à titre d’exemple, Popper cite les grandes étapes du progrès scientifique qui ont concerné l’astronomie, la physique et les sciences naturelles. Par exemple, les descriptions et les calculs de Galilée ont été valables jusqu’au moment où Newton les a revus et corrigés sur la base des nouveaux événements qu’il avait pu observer. A leur tour, les lois de Newton ont été soumises à un même procédé de révision et de correction par Einstein. Néanmoins, on ne peut pas affirmer que les calculs de Galilée et Newton étaient erronés, mais seulement qu’ils étaient partiellement vrais, parce qu’ils rendaient compte seulement d’une partie des événements observés. Au contraire, les théories d’Enstein sont encore les meilleurs possibles parce qu’elles se rapprochent le plus de la description de la réalité, et aussi parce qu’elles n’ont pas encore été falsifiées par d’autres théories plus précises. L’idée de progrès qui sort de la théorie poppérienne est donc celle d’un lent et constant rapprochement d’une connaissance objective de la réalité, qui reste le but final de la science. L’ensemble théorique et méthodologique conçu par Popper est dit faillibilisme, et encore aujourd’hui il suscite des débats plutôt vifs au sein des communautés philosophiques et scientifiques. Sa portée, comme on le notera, ne concerne pas seulement les théories scientifiques stricto sensu, mais, en qualité de doctrine philosophique elle a sans doute aussi une grande valeur en termes d’approche cognitive de la connaissance de la réalité, dans le sens plus vaste que cette expression peut avoir. Popper se fait l’écho en philosophie du scepticisme cognitif et de la désagrégation du monde observable qui ont distingués les messages d’autres secteurs culturels du XXème siècle: il suffit de penser à James Joyce, Virgina Woolf, Samuel Beckett, Henry Bergson, à Luigi Pirandello et au même Sigmund Freud, penché vers l’étude et la subdivision de la personnalité humaine qui semblait précédemment indivisible, comme indivisible semblait l’atome. En termes d’histoire de la culture du monde, Freud et Popper ont eu une influence extraordinaire pendant la même période, c’est-à-dire le XXème siècle, tandis que du point de vue typiquement scientifique, psychanalyse et faillibilisme représentent deux des plus importants ensembles épistémologiques de toutes les époques. D’un autre côté, pour ce qui concerne plus précisément les arguments que nous traitons ici, nous dirons q’avant 1866, c’est-à-dire avant que Freud ouvre son cabinet privé pour le traitement des maladies nerveuses, le mot ipnosi (hypnose) avait probablement des connotations différentes de celles d’aujourd’hui, et nous pourrons aussi douter du fait que ce mot était déjà utilisé dans la langue courante. Au contraire, des mots simples tels que agorafobia (agoraphobie), nevrastenico (neurasthénique), isterico (hystérique) ou des mots composés tels que paura morbosa dei pulcini (peur morbide des poussins), allucinazione acustica (hallucination acoustique) ou mania di grandezza (folie de grandeur) n’existaient sûrement pas. En fait, tous ces mots font partie du corpus technique que la psychanalyse utilise en qualité de discipline scientifique, et dans une large mesure ils ont tous été crées et adoptés dans ce domaine, pour devenir ensuite partie intégrante du patrimoine lexical de chaque langue. Il est important de souligner que quelques-uns de ces termes, comme par exemple isterico ou megalomane (mégalomane), sont aujourd’hui aussi très utilisés dans des contextes non techniques et plutôt informels, ce qui confirme que la psychanalyse et sa terminologie ont des bases d’utilisation amples et bien fondées.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

0. INTRODUCTION
0.1 AFFRONTER ET VAINCRE LE MINOTAURE
0.2 LES ESPACES INFINIS ET MAGNETIQUES DE L’ELECTRONIQUE
0.3 C’EST LE LEXIQUE OU LA MORT!
CHAPITRE I. DELIMITATION ET PROBLEMATIQUE DE L’ETUDE: JANUS A DOUBLE VISAGE
1.1 LE BEAU MODÈLE ANTIQUE
1.2 LA BASE DE DONNEES LEXICALE
1.3 LE MOTEUR LINGUISTIQUE
1.3.1 La crise inattendue de Monsieur George Boole
1.3.2 La correction privée des spelling checkers
1.4 LA “SEPARATION DOLOUREUSE”
CHAPITRE II. ANATOMIE D’UN DICTIONNAIRE ELECTRONIQUE
2.1 LE LEXIQUE ETIQUETE
2.2 LE DICTIONNAIRE FLECHI
2.3 LE DICTIONNAIRE DE MOTS COMPOSES
2.4 MOTS, SIGNIFIES ET USAGES DANS LES DICTIONNAIRES ELECTRONIQUES
2.4.1 Comment choisir les lemmes
2.4.2 La sémantique dans le dictionnaire électronique
CHAPITRE III. DICTIONNAIRE ELECTRONIQUE VERSUS DICTIONNAIRE PAPIER: LE ROI EST NU!
3.1 ABSENCES INJUSTIFIEES
3.1.1 L’affaire Perniola
3.1.2 Freud versus Popper, i.e. la Psychanalyse versus le Faillibilisme
3.1.2 Quelle fin ont eu les verbes pronominaux?
3.1.1.1 Le système Intex® en italien
3.1.1.2 Les agglutinations de l’italien
3.1.1.3 Automates à états finis et reconnaissance automatique des textes
3.1.1.4 Quelques considérations sur les verbes pronominaux
3.2. LA GUERRE ENTRE LES LEXIQUES
3.2.1 Pronoms ou numéraux?
3.2.2 Countables et Uncontables
3.2.3 Le lexique en fonction du lexique
POUR NE PAS CONCLURE
BIBLIOGRAPHIE