La combinatoire des noms de boisson : approche quantitative

La linguistique de corpus

La linguistique de corpus est devenue, au cours des dernières années, un domaineclé en termes d’analyse et d’exploitation d’informations, généralement sous forme textuelle grâce à des outils informatiques. Les vastes corpus électroniques permettent de récupérer des exemples attestés d’un phénomène donné, de mener des observations en prenant en compte des faits non accessibles manuellement (Eshkol -Taravella & LefeuvreHalftermeyer, 2017). Les nouvelles approches dans la linguistique au cours du dernier demisiècle se sont développées grâce aux contacts avec l’informatique et les mathématiques.
Une linguistique formelle s’est développée sur la base d’une linguistique descriptive.
La linguistique formelle prend en considération non seulement les aspects lexicaux, mais aussi syntaxiques ou sémantiques. La linguistique formelle propose des modèles s’appuyant sur une double validation-explicative dans un contexte linguistique et opératoire d’un point de vue informatique (Pierrel, 2005). Du point de vue explicatif, la linguistique formelle couvre aussi bien les aspects lexicaux que syntaxiques ou sémantiques, en permettant d’aller au-delà de l’accumulation de faits de langue et de confronter les théories à l’usage effectif de la langue. Les progrès des outils informatiques, par exemple dans le champ de stockage ou de puissance de calcul, permettent d’évaluer des modèles opératoires dans un corpus (Habert et al., 1997).
Nous pouvons observer un développement accéléré des approches statistiques et probabilistes sur corpus au cours des années 1990. Les raisons principales de cet engouement sont la disponibilité de ressources textuelles électroniques de grandes tailles (corpus, bases de données textuelles, dictionnaires et lexiques) et les progrès de l’informatique, tant en matière de stockage que de puissance de calcul (Habert et al., 1997). Un nouveau champ de recherches, la linguistique de corpus, permet au linguiste de travailler sur un grand volume de faits de langue et de confronter les hypothèses à l’usage effective de la langue. Les besoins applicatifs de la linguistique de corpus ont conduit à de nombreux travaux en TAL (Traitement Automatique de la Langue).
Dans les sous-parties de ce chapitre, nous allons traiter les notions de linguistique de corpus, de corpus et de Traitement Automatique des Langues.

La notion de linguistique de corpus

Le terme Corpus Linguistics, utilisé dans la linguistique contextualiste anglosaxonne, désigne le projet de recherche de Sinclair (1996) ou de Leech (1992), notamment .
Leech emploie aussi le terme de Computational Corpus Linguistics (CCL) après avoir remarqué les liens particulièrement inséparables entre Corpus Linguistics et usage des ordinateurs. Selon Leech, la Computer Corpus Linguistics est « a new research enterprise, and in fact a new philosophical approach to the subject » (Leech, 1992 : 106).
L’usage du terme linguistique de corpus apparaît en France, dans les travaux en lien avec la tradition britannique notamment ceux de Habert et al. (1997), de Bilger (2000) et de Williams (2005). Néanmoins, même s’il est assez difficile de trouver chez eux une définition précise du terme de linguistique de corpus, Williams en propose la définition suivante :
La linguistique de corpus est une discipline qui s’est développée à partir des années dixneuf cent quatre-vingts mais qui a vraiment pris son essor avec l’arrivée sur le marché d’ordinateurs personnels. Largement issue de l’école contextualiste, la discipline s’intéresse à la langue encontexte sous la forme de grands ensembles de textes, les corpus. C’est une discipline qui est très liée à l’utilisation de l’informatique, mais qui reste une discipline des sciences humaines et non de l’informatique. Les maîtres mots sont linguistique et corpus. (Williams et al., 2005 : 13).

Étude des collocatifs par sous-genre romanesque

Nous trouvons le plus grand nombre de collocatifs concernant les noms de boissons dans GEN (64 collocatifs). Au contraire, le plus petit nombre de collocatifs statistiquement significatifs pour les noms de boissons se trouve dans SF (2 collocatifs). Dans c ette section, nous allons détailler les données sur la répartition des collocatifs dans chacun des sous corpus.
Dans la première section de ce chapitre nous allons présenter les données concernant la fréquence des collocatifs par sous genre. La première sous-section montre les collocatifs dans FY, SF et HIST- les sous-genres qui comportent un seul pivot avec des collocatifs. La section suivante présente le cas de SENT dans lequel nous trouvons plusieurs pivots avec les collocatifs. Finalement, dans la dernière sous-section nous nous focalisons sur les sous genres comportant tous les pivots avec des collocatifs – POL et GEN. La deuxième section nous montre la répartition des collocatifs par catégorie grammaticale dans les sous-genres.
Dans la dernière section nous traitons des collocatifs spécifiques dans un seul sous-genre.

La fréquence des collocatifs par sous-genre

Le cas de FY, SF et HIST : le sous-genre comporte un seul pivot avec des collocatifs

Dans le sous-corpus FY, on peut distinguer seulement les collocatifs statistiquement significatives du pivot vin (4 collocatifs : verre, bouteille, coupe, boire). Pour les autres noms de boissons nous ne pouvons pas mener une analyse. Nos critères n’ont pas permis d’extraire des collocatifs spécifiques pour les pivots champagne, bière, vodka, café et thé. Comme dans FY, nous trouvons seulement les collocatifs spécifiques pour le pivot vin dans HIST (4 collocatifs : boire, verre, bouteille, blanc). Nous ne pouvons pas mener notre recherche à défaut de collocatifs statistiquement significatives des pivots champagne, bière, vodka, café et thé.
Nous ne trouvons que les collocatifs du pivot vin (2 collocatifs : bouteille, verre) dans SF. Pour d’autres pivots nous ne pouvons pas mener une analyse parce que nos critères n’ont pas permis d’extraire des collocatifs spécifiques. Notre analyse montre que dans le sous-corpus présentés ci-dessus, un seul pivot de notre liste de boissons a des collocatifs statistiquement significatifs.
En observant les données présentées dans la deuxième section, nous pouvons arriver à la conclusion que les collocatifs des noms de boissons sont distribués à un degré différent dans le sous-corpus. Dans le cas des sous-corpus FY, HIST et SF, il n’y a qu’un seul pivot avec des collocatifs statistiquement significatifs. Dans le sous-corpus SENT, on peut trouver des collocatifs statistiquement significatifs pour plusieurs pivots. La situation la plus diversifiée est observée dans les sous-corpus GEN et POL, dans lesquels tous les pivots ont des collocatifs spécifiques statistiquement significatifs.

La répartition des collocatifs par catégorie grammaticale dans les sous-genres

Nous avons aussi mené l’analyse sur les collocatifs selon leur catégorie grammaticale (nominale, verbale ou adjectivale) dans chaque sous-corpus comme le montre la figure 5.

La combinatoire des noms de boissons : approche qualitative (boire du vin et prendre une bière)

Dans ce chapitre, notre objectif est d’analyser deux constructions spécifiques, leur fonctionnnement linguistique et l’entourage dans lequel elles apparaissent le plus souvent.
Sur la base des statistiques présentées dans le chapitre précédent, nous avons sélectionné les deux expressions boire du vin et prendre une bière. Nous avons choisi ces collocations parce qu’il nous paraît intéressant d’étudier une collocation très fréquente (boire du vin) mais aussi une collocation très specifique (prendre une bière) qui peuvent nous aider distinguer l es sous-genres romanesques.

L’analyse de la collocation « boire du vin »

Cette partie s’inscrit dans la continuité des recherches menées par Gonon et Sorba (2019) sur les phraséologismes autour du vin et du champagne.
Tout d’abord, nous analysons la collocation boire du vin qui est très spécifique à tous nos sous-corpus, à l’exception de SF. La figure 6 montre la valeur LLR de la combinaison du pivot vin avec le collocatif boire dans chaque de sous-corpus. Le LLR de cette collocation est le plus élevé dans GEN tandis que dans SENT on trouve la valeur la moins élevée :

Les personnes verbales de la construction « boire du vin »

Un aspect qui mérite d’être étudié en ce qui concerne la consommation de vin dans le corpus GEN est l’utilisation des personnes grammaticales avec la structure boire du vin.
La répartition des personnes verbales dans ce cas, en d’autres termes, l’identité des buveurs de vin, est présentée dans la figure
Dans HIST, comme dans le cas de SENT, l’analyse a montré que ce sous-corpus privilégient le caractère collectif de l’acte de boire du vin en mettant en œuvre P4 (14%), P5 (3%), P6 (32%) et on (10%) qui représentent ensemble 59% de l’ensemble des exemples. De plus, il faut souligner que HIST possède également des réalisations P1 (11%), P2 (3%) et P3 (27%), grâce auxquelles on peut également observer le caractère individuel de la consommation de vin.
Dans cette partie, nous avons traité des variations linguistiques de la collocation boire du vin dans GEN en comparant avec les autres sous-corpus. Nos recherches nous ont permis d’observer des différences significatives résultant dans la distribution des variations linguistiques de la collocation boire du vin dans les six sous-corpus observés.
Dans un premier temps, nous avons effectué une analyse de la distribution des variations de la construction boire du vin avec différents déterminants. Nos recherches ont montré, surtout, que SENT se distingue par une st ructure assez homogène de la distribution des principales variantes pendant que dans l’autre sous-corpus la variation boire du vin constitue la grande majorité de réalisation de cette collocation. Il convient également de noter que HIST se distingue par le fait que la deuxième variante la plus courante est la construction boire le vin contrairement aux autres sous-corpus dans lesquel c’est la construction boire de vin.
L’analyse des temps et des modes grammaticaux nous a également permis de remarquer plusieurs traits pour distinguer les genres. Le premier est la préférence du passé composé présent uniquement en POL. Les sous-corpus restants se distinguent par une préférence pour les temps personnels présents et imparfait. La seule exception est FY où la distribution du temps présent est négligeable. Bien que les temps personnels constituent une grande partie de la distribution de la construction boire du vin, les modes impersonnels sont principalement utilisés. Nous notons ici la surreprésentation du mode impersonnel dans HIST par rapport aux autres sous-corpus et un très petit nombre d’implémentations de ces structures dans SENT.
L’observation de la réalisation de personnes verbales dans les sous-corpus a montré une préférence pour le singulier dans GEN, POL et FY, tandis que HIST et SENT se caractérisent par une préférence pour le pluriel. L’analyse a également montré que pour tous les sous corpus, les hommes consomment du vin beaucoup plus souvent que les femmes.
Les résultats de nos observations sur les variations linguistiques de la construction boire du vin montrent des différences significatives entre les sous-corpus sur le plan syntaxique.
Dans la section suivante, nous allons analyser l’expression prendre une bière.

L’analyse de la collocation prendre une bière

Nous avons décidé de mener une analyse de la collocation prendre une bière qui est apparue comme spécifique au sous-corpus POL. Même si le collocatif prendre est aussi statistiquement significatif pour les pivots café et thé, il apparaît comme plus spécifique pour le pivot bière. Notre analyse se fonde sur 45 occurrences de la collocation dans POL. La figure 10, qui est une visualisation de l’arbre lexico-syntaxique, correspond à l’expression prendre une bière.

La variation sur le déterminant

En analysant la détermination dans la collocation prendre une bière, nous constatons que dans presque tous les cas, le nom bière et le verbe prendre privilégient légèrement l’article indéfini une- 36 occurrences (ex.49). Seulement 2 fois, nous remarquons l’utilisation de l’article défini la (ex.50). Nous notons aussi 1 occurence de la variation du déterminant avec le possesif sa. Les autres exemples (3 occurrences) de la variation du déterminant sont les suivants : des bières, deux bières et trois bières. Voici les exemples issus du corpus :49) Il sortit de la pièce, referma la porte, alla prendre une bière et la but lentement, assis au salon. (P. Senécal, Les sept jours du talion, 2002) 50) Je pris la bière qui restait, après quoi il fut vide, vides aussi les placards, rien à manger, si, quelques tranches de vieux pain, rien à manger rien à boire, pouvais-je recevoir une invitée dans cet appartement vide et lui offrir pour toute boisson l’eau tiède et infectée du Rhône que crachotaient mes robinets jaunes, pour toute nourriture l’air épaissi et parcheminé par la chaleur. (R.Belletto, L’enfer, 1986) Notre analyse montre que le pivot bière dans la collocation prendre une bière choisit préférentiellement l’article indéfini une. Cette très forte préférence présente peu d’exceptions sous forme de variations de collocation.

Les temps verbaux du verbe « prendre »

En analysant les variations temporelles du verbe prendre dans la construction prendre une bière nous pouvons remarquer quelques préférences concernant la sélection des temps grammaticaux :

Les modes verbaux de la collocation « prendre une bière »

Dans le graphique présenté ci-dessus (figure 11), « Autres » (39%) regroupe les formes de l’infinitif (16 occurences) et du conditionnel présent (2 occurrences). Les verbes introducteurs utilisés avec la construction prendre une bière prennent souvent la forme de verbes semi-auxiliaires. Nous remarquons, entre autres, les semi-auxiliaires temporels : aller (5 occurrences) qui exprime le futur proche et venir de (1 occurrence) qui fait référence au passé récent. Le verbe être en train de (1 occurrence) apparaît comme un semi-auxiliaire aspectuel duratif (ex.53). Les autres occurrences sont introduites par les verbes suivants: se rendre de, vouloir, se lever, penser de, aller pour (ex. 54). 53) La Japonaise devait être en train de prendre sa bière du soir dans le derrière (R. Belletto, L’enfer, 1986) 54) Il m’explique qu’il est revenu de New York et qu’il voudrait bien prendre une bière avec un « vrai Québécois qui est capable de boire sans vouloir absolument se battre » (P. Senécal, Le Passager, 1995) Nos résultats montrent une forte préférence pour l’utilisation de la collocation prendre une bière dans la construction infinitive. Il est généralement utilisé avec des verbes semi auxiliaires ou des verbes exprimant un désir ou une intention de prendre une bière.

Les personnes verbales de la construction « prendre une bière »

Les données issues du sous-corpus POL montrent que l’identité des buveurs est un aspect à mentionner. La répartition des personnes verbales- les buveurs de la bière est présentée dans la figure 12.

La comparaison des collocations « boire du vin » et « prendre une bière »

Notre analyse de la structure boire du vin dans tous les sous-corpus et prendre une bière dans POL a révélé des différences significatives dans le comportement entre ces deux collocations. Bien que les deux constructions soient des collocations verbales contenant des noms de boissons, leurs variations linguistiques présentent de nombreuses différences.
La première différence significative entre ces constructions est la distribution des variantes des déterminants dans des collocations données. La const ruction boire du vin est caractérisée par un grand nombre de variantes des déterminants. Nous pouvons observer de nombreuses occurrences des variantes avec un déterminant défini, indéfini, partitif et peu d’occurrences avec par exemple un déterminant possessif ou démonstratif. La situation est complètement différente avec la collocation prendre une bière. Cette structure est plutôt stable et montre peu de variantes, autant que 87% de toutes les occurrences sont des variantes avec un déterminant indéfini une.
Il faut également noter un aspect intéressant qui est l’utilisation de ces deux collocations dans les temps verbaux et dans les modes. Quant au mode personnel, la construction boire du vin, selon le sous-corpus, est généralement utilisée au présent ou à l’imparfait, moins au passé simple et passe composé. Néanmoins, cette collocation est utilisée dans le mode impersonnel, en particulier dans l’infinitif. Dans le cas de la collocation prendre une bière, la répartition du temps et des variantes modales est assez différente. On observe ici un avantage significatif de l’utilisation du passé simple (jusqu’à 50 %). Il faut également noter que malgré la part importante du mode impersonnel, cette construction n’est utilisée qu’à l’infinitif, aucun occurrence de cette collocation en gérondiff n’apparaît du tout.
En analysant la distribution des personnes verbales de ces deux collocations, on peut remarquer que la construction prendre une biere préfère dans une large mesure le singulier (91%). Quand il s’agit de la collocation boire du vin, selon le sous-corpus, elle apparaît plus souvent au singulier ou au pluriel, mais aucun sous-corpus n’a une telle différence entre ces personnes que la construction prendre une bière en POL.
Nous arrivons à la conclusion que le fonctionnement linguistique des collocations particulières autour des noms de boissons peut différer considérablement, ce qui peut contribuer au processus de distinction entre les genres romanesques.
Le chapitre 8 de notre travail était consacré à l’analyse linguistique de la collocation boire du vin dans GEN en comparant avec les autres sous-corpus et prendre une bière dans POL. Nous concluons que notre analyse a révélé des différences significatives dans le fonctionnement de la collocat ion dans les sous-corpus.
Dans le cas de la collocation boire du vin, nous avons constaté de nombreux écarts par rapport à la variante de base en termes de déterminants. L’analyse a permis de distinguer deux cas de sous-corpus dans lesquels la collocation se comporte différemment des autres sous-corpus. La distribution des trois variantes de base de la collocation (avec les déterminianat partitifs de et du, le déterminant défini le) dans SENT est assez équilibrée, tandis que dans le sous-corpus restant on voit un avantage significatif des variations avec le déterminant partitif du. HIST se distingue par le fait que sa deuxième variante la plus courante d’un déterminant dans la construction boire du vin est un déterminant défini le, et non un déterminant du partitif de, comme dans d’autres cas.
En ce qui concerne les temps verbaux, POL est le seul sous-corpus caractérisé par une surreprésentation du passé composé. Comparé à d’autres sous-corpus, FY montre très peu de préférence pour le présent. Il convient également de noter la part importante du mode impersonnel dans HIST et, en comparaison, la très petite part de ce mode dans SENT.
Les observations de personnes verbales ont montré que GEN, FY et POL sont caractérisés par une préférence pour singulier, tandis que dans le cas de HIST et SENT nous rencontrons une surreprésentation du pluriel.
Dans la seconde partie de notre analyse, nous nous sommes concentrées sur la collocation prendre une bière dans POL. D’après nos observations, nous pouvons constater qu’il s’agit d’une construction plus stable que la collocation boire du vin. Elle montre peu de variations en ce qui concerne le déterminant, la majorité des occurrences apparaît dans la variante avec le déterminant indéfini une.
L’étude de l’utilisation des temps verbaux a montré que la collocation prendre une bière dans POL montre une préférence pour le passé simple. Ce fait linguistique est contraire au comportement de la collocation boire du vin dans les sous-corpus pour lequel les constructions impersonnelles représentaient le plus grand pourcentage en comparant avec les temps verbaux individuels.

Conclusion

Nous avons analysé, à travers ce travail de recherche deux expressions contenant les noms de boissons : boire du vin dans tous les sous-corpus et prendre une bière dans POL. Le but de notre étude était d’étudier si les phraséologismes liés aux noms de boissons peuvent être un moyen de distinguer les genres romanesques.
Tout d’abord, grâce à l’outil le Lexicoscope nous avons eu la possibilité de créer les tableaux avec des données détaillées sur les pivots (les noms de boissons) avec leurs collocatifs dans six sous-corpus du roman contemporain. Sur la base des tableaux que nous avons créés, nous avons effectué une analyse quantitative de données, qui nous a permis de constater les premières différences entre les sous-corpus. Ensuite, nous avons choisi deux collocations à tester dans l’approche qualitative. Nous avons observé leur fonctionnement linguistique et les variantes possibles dans le s sous-corpus. Nous avons principalement analysé quatre aspects: les variantes des déterminants, les temps et les modes verbaux ainsi que les personnes verbales.
Notre recherche nous a permis de mettre en évidence des différences significatives dans le comportement et la distribution des variantes des collocations autour de noms de boissons étudiées. Les quatre points de comparaison distingués au cours de notre recherche nous ont permis de constater que les collocations avec les noms de boissons fonctionnent de manière plus ou moins stable en apparaissant dans les différentes variations avec le degré relatif d’occurrence selon chaque de sous-corpus.
L’étude que nous avons effectuée nous a permis de constater que même si la collocation boire du vin apparaît dans presque tous les sous-corpus et il semblerait qu’il soit impossible de l’utiliser pour distinguer les genres littéraires, on peut observer une petite quantité de différences significatives dans le fonctionnement de cette collocation dans les sous-corpus individuels. Comme un exemple on peut mentionner la structure caractéristique de la distribution des déterminants dans SENT ou la préférence pour le passé composé dans POL.
La collocation prendre une bière est moins courante et est statistiquement significative seulement pour POL. Néanmoins, l’analyse de cette collocation et la comparaison avec celle du boire du vin nous a permis de constater que les phraséologismes autour de la boisson peuvent fonctionner différemment et avoir une distribution de variantes différente dans les quatre catégories étudiées par nous.
Le travail sur ce sujet nous a permis d’explorer les questions comme les rapports entre le genre romanesque et la syntaxe ainsi que la phraséologie. Nous trouvons pourtant que cette recherche et introduction de la phraséologie pourraient constituer un complément d’une approche stylistique et un approfondissement de la recherche sur la caractérisation et distinction des genres littéraires.
Ainsi, les résultats de nos analyses nous permettent de confirmer que ces expressions lexico-syntaxiques peuvent être considérées comme le moyen pour distinguer les genres romanesques.
Nous arrivons à la conclusion que notre étude pourrait être prolongée aussi bien au niveau stylistique et l’analyse d’usage sociale qui permettraient une compréhension plus large du contexte et du fonctionnement de collocations autour de la consommation d’alcool dans divers genres romanesques. Nous sommes conscients que notre analyse qualitative ne s’est basée que sur deux collocations, ce qui constitue un champ de la recherche très limité.
Nous pensons qu’il serait intéressant de procéder à l’analyse sur d’autres collocations pour avoir une image plus complète du fonctionnement de ce type de collocation dans les genres romanesques.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
Remerciements
Introduction
Partie 1 – Cadre théorique
CHAPITRE 1. LA LINGUISTIQUE DE CORPUS
1. LA NOTION DE LINGUISTIQUE DE CORPUS
2. LA NOTION DE CORPUS
3. LE TRAITEMENT AUTOMATIQUE DES LANGUES (TAL)
CHAPITRE 2. LA PHRASEOLOGIE
1. LE DOMAINE DE LA PHRASEOLOGIE
2. LA COLLOCATION
3. LA COLLOCATION GRAMMATICALE ET LA COLLIGATION
CHAPITRE 3. LA QUESTION DU GENRE TEXTUEL
1. LA NOTION DE GENRE ET LE GENRE ROMANESQUE
2. LES SOUS-GENRES TEXTUELS
Partie 2 – Méthodologie
CHAPITRE 4. LE LEXICOSCOPE
1. PRESENTATION DE L’OUTIL ET DU CORPUS
2. CONCORDANCE ET COOCCURRENCE
3. L’ARBRE LEXICO-SYNTAXIQUE RECURRENT (ALR)
CHAPITRE 5. METHODOLOGIE DU TRAITEMENT DE DONNEES
1. L’ETUDE DE LA COMBINATOIRE LEXICO-SYNTAXIQUE
2. LE CHOIX DE PIVOTS
Partie 3 – Analyse
CHAPITRE 7. LA COMBINATOIRE DES NOMS DE BOISSON : APPROCHE QUANTITATIVE
1. LES COLLOCATIFS DES NOMS DE BOISSON
2. ÉTUDE DES COLLOCATIFS PAR SOUS-GENRE ROMANESQUE
CHAPITRE 8. LA COMBINATOIRE DES NOMS DE BOISSONS : APPROCHE QUALITATIVE (BOIRE DU VIN ET PRENDRE UNE BIERE)
1. L’ANALYSE DE LA COLLOCATION BOIRE DU VIN
2. L’ANALYSE DE LA COLLOCATION PRENDRE UNE BIERE
Conclusion
Bibliographie
Sigles et abréviations utilisés
Table des annexes
Table des matières