KPTimes : des mots-clés éditeurs pour la génération de mots-clés

Télécharger le fichier pdf d’un mémoire de fin d’études

Génération de séquences (décodeur)

Le processus de décodage permet de générer une séquence de mots à partir d’un vec-teur de pensée. Ce vecteur de pensée résulte généralement de l’encodage d’un document (cf. section 3.1.2). Comme pour l’encodage, diﬀérents types de réseaux peuvent être uti-lisés : les réseaux récurrents, les réseaux à convolutions ou les transformers. Nous nous intéressons ici aux réseaux récurrents, présentés dans la section 3.1.2.
Un décodeur récurrent est composé d’une ou plusieurs cellules récurrentes empilées. La génération d’une séquence consiste à utiliser les états cachés ht pour prédire un mot, c’est-à-dire à produire une distribution de probabilités sur l’ensemble du vocabulaire puis à choisir le mot le plus probable.
Le processus de décodage est décrit par l’équation 3.8 avec yt 1 le mot prédit pré-cédemment, ht 1 l’état caché précédent, Wx et Wh des matrices de poids et leurs biais correspondant bx et bh. Le premier mot y0 est initialisé par un mot spécial ; l’état caché h0 est un vecteur de pensée. Puis p(ytjy1;:::;t 1; h0) représente la distribution de probabilités sur le vocabulaire pour le mot t en fonction des mots précédents et du vecteur de pensée h0 ; Wv et bv sont une matrice de poids et son biais. p(ytjy1;:::;t 1; h0) = Softmax( (Wv ht + bv)) ht = Rnnd(yt 1; ht 1) (3.8) Rnnd(xt; ht 1) = tanh(Wx xt + bx + Wh ht 1 + bh)
La génération d’une séquence de mots s’eﬀectue mot-à-mot grâce à un algorithme de décodage. Chaque étape de décodage consiste à produire une distribution de probabilité sur le vocabulaire de sortie p(ytjy1;:::;t 1; h0) et à choisir un mot y^t qui maximise cette probabilité. Cette étape est répétée jusqu’à ce qu’un mot spécial finissant la séquence soit généré ou que la séquence soit assez longue.
L’algorithme le plus simple consiste à choisir le mot le plus probable à chaque étape mais cela ne permet de générer qu’une seule séquence. Dans le cadre de la génération de mots-clés il est souhaitable de générer plusieurs mots-clés et donc plusieurs séquences. Pour cela, c’est l’algorithme de recherche en faisceau (Ow and Morton, 1988), que nous schématisons dans la figure 3.2, qui est utilisé. Cet algorithme consiste à décoder un nombre fixe de séquences (deux dans le schéma). Les étapes de décodage sont eﬀectuées pour chacun des faisceaux et les mots à générer sont choisis dans l’ensemble des mots des faisceaux. Dans la figure 3.2, deux mots sont choisis au départ. Une étape de décodage est ensuite eﬀectuée pour les deux faisceaux. À la troisième étape, le préfixe ba n’est pas conservé car les deux séquences les plus probables sont issues du préfixe ab. À la fin de l’algorithme, deux séquences ont été générées : aba et abb.

Méthodes de bout-en-bout

Dans cette section nous présentons un état de l’art des méthodes de bout-en-bout. Ces méthodes, contrairement aux méthodes en chaîne de traitement (cf. section 2.3), prennent en entrée un document et laissent le soin au modèle d’en extraire les caractéristiques pour retourner un ensemble de mots-clés sans étapes intermédiaires ni définition manuelle de ces caractéristiques. Parmi les méthodes proposées dans la littérature, nous distinguons les méthodes génératives, qui peuvent produire des mots-clés présents et des mots-clés absents, des méthodes extractives, limitées aux mots-clés présents.
Jusqu’à présent, toutes les méthodes de bout-en-bout qui ont été proposées sont su-pervisées et reposent sur des réseaux de neurones (cf. section 3.1.1) qui nécessitent de grandes quantités de données annotées pour être entraînées. Le développement de ces méthodes démarre avec l’introduction du jeu de données KP20k et de la méthode généra-tive CopyRNN par Meng et al. (2017). Le jeu de données KP20k, qui comporte ’550 000 documents, comble un manque. En eﬀet, seuls de petits jeux de données (de l’ordre du millier de documents) étaient jusqu’alors disponibles. Ce travail a ainsi lancé une nouvelle direction de recherche sur les méthodes génératives de production de mot-clés.
Dans cet état de l’art, nous présentons tout d’abord les méthodes automatiques de génération de mots-clés de bout-en-bout, qui sont au cœur de ce travail de thèse. Nous présentons ces méthodes de génération en deux parties : premièrement, les méthodes qui générent les mots-clés un à un (one2one), et deuxièmement, celles qui génèrent des séquences de mots-clés (one2many). Ces deux types de génération sont schématisés dans la figure 3.5. Nous présentons ensuite les méthodes extractives de bout-en-bout, c’est-à-dire celles qui se limitent aux seuls mots-clés présents.

Génération de mots-clés

Les méthodes génératives, introduites par Meng et al. (2017), ont pour objectif de pallier deux faiblesses qui concernent la majorité des méthodes extractives présentées précédemment : l’impossibilité de produire des mots-clés absents ainsi que la faible prise en compte de la sémantique. Le paradigme encodeur-décodeur sur lequel les méthodes génératives sont fondées permet d’encoder la sémantique du document. Ainsi, les mots-clés produits sont le fruit d’une « compréhension » du document, contrairement aux méthodes en chaîne de traitement qui s’intéressent à l’« importance » des mots dans le document indépendamment de leur sens. Ces méthodes génératives rendent possible la production de mots-clés absents grâce à la manière dont le décodeur génère la séquence de sortie. Ce processus s’eﬀectue en choisissant, à chaque étape de décodage, un mot à partir d’un vocabulaire de sortie qui est plus grand et diﬀérent du vocabulaire du document. Ces méthodes génératives apprennent à générer des mots-clés un par un (génération one2one, voir figure 3.5), c’est-à-dire que chaque document X et son ensemble de mot-clés Y de taille N forment un couple (X; fY0; :::; YN g), décomposé en autant d’exemples d’entraînement que de mots-clés, (X; Y0); :::; (X; YN ).
La méthode pionnière de génération automatique de mots-clés appliquée aux docu-ments scientifiques est CopyRNN (Meng et al., 2017). L’architecture neuronale de cette méthode s’inspire du processus d’annotation humain qui consiste à lire le document pour le comprendre dans son entièreté puis à le résumer grâce à des mots-clés. Pour reproduire ce processus, CopyRNN utilise le paradigme encodeur-décodeur, que nous avons présenté dans la section 3.1.4, pour encoder un document et le décoder ensuite en un mot-clé. Pour améliorer les performances des modèles encodeur-décodeur, il est commun d’utiliser un mécanisme d’attention (voir section 3.1.4). Ce mécanisme permet au modèle de porter attention à certaines parties du document lors de la génération d’un mot. Un mécanisme de copie est aussi ajouté au modèle pour lui permettre de générer des mots peu fréquents (voir section 3.1.4). Ce mécanisme de copie modifie le décodage en permettant de générer un mot à partir du vocabulaire de sortie ou bien à partir du document. Cette méthode obtient des performances bien plus élevées que les précédentes méthodes extractives. Les performances de CopyRNN sont de l’ordre de 30 points de F -mesure pour les mots-clés présents tandis que les performances des méthodes extractives sont généralement en dessous de 20 points de F -mesure. Les mots-clés absents, qui ne pou-vaient jusque-là pas être produits, correspondent peu à la référence : parmi les 50 meilleurs mots-clés absents un seul apparaît dans la référence.
Certaines méthodes proposées essaient d’améliorer l’encodage du document. Chen et al. (2019b), par exemple, constate que les mots-clés ne sont pas uniformément dis-tribués dans les documents. En particulier 60 % des mots-clés de référence ont au moins un mot en commun avec le titre du document. Pour prendre cela en compte, ils proposent TGNet (Title Guided Network), qui étend CopyRNN en introduisant un nouvel encodeur spécifique au titre, en plus de l’encodeur du document. Cet encodage du titre permet de donner un poids supplémentaire à l’information qu’il contient. Ces deux représentations (du titre et du document) sont ensuite combinées puis fournies au décodeur. Cette mé-thode améliore nettement les performances de génération des mots-clés présents et absents par rapport à CopyRNN (+5 % sur KP20k).
La redondance dans les ensembles de mots-clés produits est un problème récurrent dans les méthodes de production de mots-clés. En eﬀet, Hasan and Ng (2014) montrent que 8 à 12 % des erreurs des méthodes sont liées à la redondance des mots-clés. Ainsi, les méthodes en chaîne de traitement mettent en place des stratégies, notamment lors de la sélection du sous-ensemble de mots-clés, pour limiter cette redondance (voir section 2.3.3). Dans cette ligne de recherche, Zhao and Zhang (2019) remarquent les méthodes de bout-en-bout ne sont pas exemptes de ce problème, ils s’intéressent ainsi au chevauchement entre les mots-clés générés et ceux de référence. Par exemple, 23;98 % des mots-clés unigrammes générés par CopyRNN font partie d’un mot-clé de référence, et 47;15 % des mots-clés 4-grammes générés par CopyRNN contiennent un mot-clé de référence. Dans l’optique de limiter ces chevauchement, ils présentent le modèle ParaNetT +CoAtt qui entraîne le modèle, à générer à la fois les mots-clés et leurs étiquettes morphosyntaxiques, ainsi la syntaxe des mots-clés générés sera similaire à celle des mots-clés de référence. Pour cela ils ajoutent au modèle CopyRNN un encodeur, pour les étiquettes morphosyntaxiques des mots du document, ainsi qu’un décodeur, pour celles du mot-clé. 2 Les informations des deux décodeurs sont ensuite combinées et utilisées pour générer les mots-clés et leurs étiquettes morphosyntaxiques.
Dans l’optique de reproduire l’annotation humaine, Chen et al. (2019a) propose la méthode KG-KE-KR-M qui produit un ensemble de mots-clés en combinant diﬀérentes méthodes : génération de mots-clés, extraction de mots-clés, récupération de mots-clés (voir figure 3.6). Dans un premier temps, cette méthode récupère les mots-clés de réfé-rence des K documents d’entraînement les plus proches du document traité (grâce à la distance de Jaccard). Ces mots-clés récupérés sont concaténés puis encodés. Ils serviront à conditionner la génération de mots-clés. Dans un second temps, des mots-clés sont ex-traits du document en classifiant chaque mot comme mot-clé ou non mot-clé. Ensuite, des mots-clés sont générés à partir du document ainsi que des mots-clés récupérés et des mots-clés extraits. Enfin, les mots-clés récupérés, extraits et générés sont pondérés grâce à un classifieur. Cette méthode à la particularité de combiner les méthodes en chaîne de traitement (sélection de candidats puis pondération) et les méthodes de bout-en-bout (ap-prentissage conjoint de la génération et de l’extraction). Malgré la grande diversité dans les techniques de production de mots-clés candidats, les performances ne sont pas significativement supérieures à CopyRNN. Cette méthode produit néanmoins plus de mots-clés absents de référence que CopyRNN.
La méthode CorrRNN (Chen et al., 2018) considère que les mots-clés doivent couvrir l’ensemble des sujets du document et être divers, c’est-à-dire que chaque mot-clé doit concerner un sujet diﬀérent. Cette méthode étend CopyRNN en y ajoutant un mécanisme de couverture et un mécanisme de revue. Le mécanisme de couverture encourage le modèle à porter attention aux diﬀérentes parties du document. Il conserve et accumule les scores d’attention des mots du document à chaque étape de décodage, et il est inclus dans le calcul du mécanisme d’attention. Ensuite, le mécanisme de revue est essentiellement un mécanisme d’attention sur les mots générés. Son objectif est d’identifier les sujets déjà couverts par les mots-clés générés et ainsi de générer des mots-clés qui concernent des sujets non traités. Cette méthode est la première à prendre en compte les mots-clés déjà générés dans le processus de génération, pour cela la phase d’entraînement est modifiée. Au lieu de rétro-propager le gradient après chaque mot-clé de référence, la phase de rétro-propagation n’est eﬀectuée qu’une fois tous les mots-clés de référence du document traités.

Génération de séquences de mots-clés

Nous présentons dans cette section des méthodes qui apprennent à générer des sé-quences de mots-clés (génération one2many, voir figure 3.5). C’est-à-dire que chaque exemple d’entraînement est composé d’un document et de la concaténation des mots-clés de référence en une unique séquence dans laquelle ils sont séparés par un symbole de séparation. Par exemple, l’ensemble de mots-clés f Classe , Fichier log , Agrégat g sera transformé en « Classe SEP Fichier log SEP Agrégat FIN ». Le développement des méthodes génératives one2many part du constat que les ensembles de mots-clés produits sont sou-vent redondants (Hasan and Ng, 2014) et que la génération one2one ne permet pas de pallier ce problème. En eﬀet, les méthodes one2many font l’hypothèse qu’avec la généra-tion en séquence, le modèle ayant accès aux mots-clés déjà générés, il ne générera pas de mots-clés redondants. Cette méthode de génération permet au modèle de générer le même nombre de mots-clés que la référence, en eﬀet, il apprend en même temps qu’à générer les mots-clés, à placer les séparateurs de mots-clés et le symbole de fin. Ainsi, ces méthodes peuvent générer des mots-clés selon deux stratégies (Yuan et al., 2020) : l’inférence ex-haustive qui utilise l’algorithme de recherche en faisceau pour sur-générer des mots-clés et ainsi en obtenir un nombre fixe pour chaque document, c’est la stratégie employée par les méthodes génératives one2one ; et l’inférence auto-régulée (self-terminating) dans laquelle le décodage s’arrête lors de la génération du symbole de fin, cette stratégie permet au modèle de produire un nombre pertinent de mots-clés pour le document. La seconde stratégie de décodage permet donc de s’aﬀranchir du choix arbitraire du nombre de mots-clés n à produire (voir section 2.3.3).
Pour entraîner ces modèles, les mots-clés sont concaténés, mais ce processus n’est pas trivial. En eﬀet, l’ordre dans lequel les mots-clés sont concaténés influence les performances des modèles. L’étude de Meng et al. (2021) compare diﬀérentes manières d’ordonner les mots-clés, telles que : No-Sort qui laisse l’ordre par défaut ; Alpha qui trie par ordre al-phabétique ; Pres-Abs qui place les mots-clés présents avant les mots-clés absents. L’étude montre que c’est l’ordre Pres-Abs qui donne les meilleures performances.
La première méthode à générer des séquences de mots-clés est catSeqD (Yuan et al., 2020, 2018). L’objectif de cette méthode, similaire à CorrRNN, est d’augmenter la diversité des mots-clés générés. Pour cela, le modèle CopyRNN, utilisé comme base, est augmenté d’un mécanisme de couverture sémantique et de régularisation orthogonale pour former le modèle catSeqD. Le mécanisme de couverture sémantique repose sur l’hypothèse que l’en-semble de mots-clés de référence et le document encodent la même information. Ainsi, un nouvel encodeur est entraîné à encoder les mots-clés et à produire la même représentation que pour le document. Il encode la séquence au fur et à mesure de sa génération et l’état cachés qui en résulte conditionne la prédiction du mot suivant, cela contraint les mots-clés générés à être proche sémantiquement du document. Ensuite, les auteurs constatent que les mots générés après les séparateurs de mots-clés sont souvent similaires. Le mécanisme de régularisation orthogonale pallie ce problème en diversifiant explicitement les repré-sentations des séparateurs, en pénalisant, dans la fonction de coût, ces représentations si elles ne sont pas orthogonales.
Dans le but de mieux modéliser les ensembles de mots-clés, Chen et al. (2020) s’inté-ressent à la structure hiérarchique des ensembles de mots-clés. En eﬀet, les méthodes de génération de séquences de mots-clés identifient les mots-clés grâce à des marqueurs géné-rés par le modèle. Cette séquentialité ne permet pas de représenter la hiérarchie entre les mots-clés et les mots qui les composent. Ces travaux se rapprochent de Yuan et al. (2018) qui essaient de rompre la séquentialité en modifiant la représentation des séparateurs de mots-clés avec le mécanisme de régularisation orthogonale. Ainsi, ils présentent la méthode ExHirD (Chen et al., 2020) dans laquelle le décodeur de l’architecture de CopyRNN est remplacé par un décodeur hiérarchique (voir figure 3.7) qui génère les mots-clés en deux temps : d’abord l’identification des concepts, ensuite la génération de leur représentation textuelle. Ce décodeur hiérarchique comprend un premier décodeur qui produit une re-présentation dense d’un concept, puis un second décodeur qui va générer une séquence de mots à partir de cette représentation dense pour instancier le concept en un mot-clé. La génération des mots utilise deux mécanismes d’attention sur les documents d’entrée : l’un est conditionné par la représentation dense du concept ; l’autre, standard, est conditionné par le mot précédent. Ainsi, ce décodeur hiérarchique permet de modéliser explicitement les concepts importants du document et les mots qui les décrivent. L’évaluation de cette méthode montre néanmoins un faible gain de performance, de l’ordre d’un point de F@5, pour les mots-clés présents et absents. Ces travaux s’attellent aussi au problème de re-dondance des mots-clés et proposent un mécanisme de décodage exclusif pour tenter de le résoudre. Ce mécanisme, simple dans son idée, interdit au modèle de générer deux mots-clés commençant par le même mot. En eﬀet, les mots-clés comportent le plus souvent entre 1 et 4 mots (voir section 2.2.1), ainsi le premier mot aﬀecte grandement les suivants. Ce mécanisme n’est pas limité à la méthode ExHirD ; il peut être adapté aux diﬀérents types de décodage ou être utilisé en post-traitement. Son évaluation montre qu’il fait si-gnificativement baisser le nombre de mots-clés dupliqués sans faire baisser les scores de F@5.
Les méthodes génératives one2many apprennent à déterminer le nombre de mots-clés à produire mais en génèrent trop peu : catSeqD génère en moyenne 4,3 mots-clés par document alors que la référence en est composée de 5,3 en moyenne. Les travaux de Chan et al. (2019) s’intéressent à encourager les modèles à générer plus de mots-clés, en les en-traînant à optimiser le rappel et la F -mesure. Or ces métriques ne peuvent être utilisées comme fonction de coût dans l’algorithme de descente de gradient, car elles ne sont pas dérivables. Pour résoudre ce problème, les auteurs proposent d’utiliser l’apprentissage par renforcement pour aﬃner 3 des modèles déjà entraînés. Dans l’apprentissage par renforce-ment (Williams, 1992), un agent produit une série d’actions en suivant une politique (ici la génération de mots grâce à un modèle génératif), puis est récompensé pour chacune des actions. L’algorithme d’apprentissage par renforcement optimise ainsi les poids du modèle (met à jour la politique) en fonction de la récompense. Dans la méthode proposée, la récompense s’adapte selon le nombre de mots-clés générés : s’il est trop faible, la ré-compense sera le rappel pour encourager le modèle à générer plus de mots-clés ; à l’inverse s’il est trop grand, la récompense sera la F -mesure, pour encourager le modèle à générer seulement de bons mots-clés. De plus, les mots-clés présents et absents sont récompensés séparément pour favoriser la génération des mots-clés absents.
Les travaux, concernant les méthodes neuronales, présentés jusqu’à présent considèrent que la quantité de données disponibles est suﬃsante. Nous verrons dans le chapitre 4 que les sources de données contenant des documents annotés en mots-clés sont peu nombreuses malgré la large disponibilité de documents scientifiques en ligne. Ainsi, les travaux de Ye and Wang (2018) se placent dans un cadre où la quantité de documents annotés est limitée. Pour cela, les auteurs proposent deux méthodes qui tirent parti de la masse de documents non annotés pour la génération de mots-clés. La première méthode consiste à utiliser des documents non annotés en mots-clés dans le cadre d’apprentissage multitâche. Un réseau de neurones encodeur-décodeur est entraîné, pour les documents annotés, à générer des séquences de mots-clés et, pour les documents non annotés, à générer le titre du document. Dans le modèle, deux décodeurs diﬀérents sont utilisés pour chacune des tâches mais l’encodeur est partagé. La seconde méthode consiste à créer un corpus synthétique en annotant automatiquement des documents en mots-clés. Les mots-clés sont extraits grâce aux méthodes Tf Idf et TextRank. Ainsi, un modèle de génération de mots-clés est pré-entraîné grâce à la combinaison des corpus synthétique et annoté, puis aﬃné grâce au seul corpus annoté. L’évaluation des deux modèles résultant de ces méthodes d’entraînement montre qu’ils obtiennent des résultats similaires. Les scores de F@5 pour les mots-clés présents des modèles semi-supervisés sont comparables à ceux du modèle catSeq (CopyRNN entraîné à générer des séquences de mots-clés), bien qu’ils n’utilisent qu’un dixième des documents annotés utilisés par catSeq.

Extraction de mots-clés

Les méthodes génératives de bout-en-bout sont très performantes pour produire des mots-clés présents, mais génèrent très peu de mots-clés absents. Ainsi, la communauté scientifique s’intéresse à des méthodes de bout-en-bout exclusivement extractives. Bien qu’elles ne soient pas au cœur de nos travaux, nous présentons les principales méthodes extractives par soucis d’exhaustivité. Dans cette section nous présentons tout d’abord les méthodes fondées sur l’annotation en séquence, ensuite, une méthode de classification, et enfin, une méthode fondée sur les graphes.
Le développement de ces méthodes est lié à celui des modèles de langues pré-entraînés tels que BERT (Devlin et al., 2019), SciBERT (Beltagy et al., 2019) ou encore GPT-2 (Radford et al., 2019) qui reposent sur l’architecture transformer (Vaswani et al., 2017). Ils sont utilisés pour fournir des plongements de mots contextuels ou bien pour être aﬃnés pour une tâche particulière. Ces modèles, entraînés sur de très grandes quantités de données, ont permis d’améliorer significativement les performances de nombreuses tâches de traitement automatique de la langue (Wang et al., 2018).
Annotation en séquence La grande majorité des méthodes extractives de bout-en-bout reformulent la tâche de production de mots-clés en une tâche d’annotation en sé-quence. Dans l’annotation en séquence, chaque mot du document est associé à une éti-quette selon un schéma binaire : mot-clé ou non mot-clé, ou bien selon le schéma BIO dans lequel les mots du document correspondent au début (B), à l’intérieur (I) ou à l’extérieur (O) d’un mot-clé.
La méthode pionnière, proposée par Augenstein and Søgaard (2017), utilise un encodeur récurrent bi-directionnel pour représenter chacun des mots et prédire leurs étiquettes. Elle est amélioré par Alzaidy et al. (2019) qui ajoute un champ aléatoire conditionnel (CRF) pour améliorer la prédiction séquentielle des étiquettes, ainsi que par Sahrawat et al. (2019) qui utilise les plongements contextuels de BERT en entrée de l’encodeur. La méthode SaSaKe (Santosh et al., 2020), quant à elle, utilise les relations de dépendances syntaxique et sémantique du document pour améliorer la représentation des mots. Le document est encodé puis les relations de dépendances sont représentées sous formes de graphes et incorporées aux représentations des mots grâce à des réseaux à convolution de graphes. Ces représentation servent ensuite à étiqueter chaque mot comme mot-clé ou non mot-clé.
Classification La méthode BERT-JointKPE (Sun et al., 2020) s’inspire des méthodes en chaîne de traitement pour entraîner un modèle de bout-en-bout à classifier chaque n-gramme du document comme mot-clé ou non mot-clé. Cette méthode ressemble donc à une sélection de mots-clés candidats n-grammes (voir section 2.3.1). Les plongements des mots du document sont d’abord calculés à l’aide de BERT. Ensuite, grâce à des convolutions de diﬀérentes tailles, les représentations des mots sont agrégées pour représenter les n-gramme (de 1 à 5). Enfin, chaque n-gramme est classifié comme mot-clé ou non mot-clé grâce à sa représentation dense.
Graphe La méthode DivGraphPointer (Sun et al., 2019) diﬀère des autres méthodes extractives car elle est fondée sur le paradigme encodeur-décodeur. Nous la décrivons en détail pour comparer son architecture à celles des méthodes génératives décrites dans les sections 3.2.1 et 3.2.2. Cette méthode combine la représentation sous forme de graphe, largement utilisée par les méthodes en chaîne de traitement (voir section 2.3.2), et la génération de mots-clés en séquence (one2many). 4 L’intérêt de cette représentation est double : elle permet premièrement de mutualiser l’information des multiples occurrences d’un même mot ; et deuxièmement, elle permet de prendre en compte les interactions entre les mots de manière globale. Ainsi, le document est d’abord représenté sous forme de graphe dans lequel les nœuds représentent les mots et les arêtes la distance entre les positions des mots. Ensuite, des couches de convolution de graphe calculent la représen-tation de chaque nœud en fonction de ses voisins. Ces représentations sont agrégées pour initialiser le décodeur, un pointer network (Vinyals et al., 2016). Enfin, ce décodeur pro-duit une séquence de mot exclusivement copiée du document. DivGraphPointer à pour objectif, comme catSeqD, de produire des mots-clés peu redondants. Ainsi, en plus du mécanisme d’attention et de couverture, le mécanisme de modification du contexte (simi-laire dans son objectif à la régularisation orthogonale de catSeqD) recalcule l’état caché après avoir généré un séparateur de mot-clé. Cet état caché est calculé en fonction de la représentation du document et de l’ensemble des mots-clés précédemment générés.
Un intérêt peu discuté de cette méthode est sa capacité à produire des mots-clés qui ne sont pas des sous-séquences du document mais dont tous les mots y apparaissent. Ainsi, la dichotomie entre mots-clés présents et mots-clés absents ne semble ne pas convenir à ce type de mots-clés. Nous discuterons la définition de mots-clés présents et de mots-clés absents dans le chapitre 7.

Jeux de données composés d’articles scientifiques

Les jeux de données composés d’articles scientifiques contiennent l’intégralité des docu-ments, c’est-à-dire le titre, le résumé, le corps du texte et la bibliographie. Les statistiques des jeux de données décrits dans cette section sont détaillées dans le tableau 4.2.
Les articles scientifiques sont généralement disponibles au format PDF, ils doivent être convertis au format texte pour être traités par les méthodes de production automatique de mots-clés. L’extraction du texte d’un fichier PDF peut se faire grâce à des techniques de reconnaissance optique de caractères (OCR), ou s’il contient du texte sélectionnable, en reconstruisant le document grâce à la position de ces morceaux de texte. Les articles pleins sont des documents beaucoup plus longs que les seules notices scientifiques : 8 495 mots en moyenne contre 166 pour les notices. Ils sont plus diﬃciles à traiter de par leur longueur et leur structure (articles double-colonnes, tableaux, sections, etc.). Nous présentons les jeux de données par ordre chronologique.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 Concepts et méthodes de base
2.1 Indexation de documents scientifiques
2.1.1 Indexation manuelle
2.1.2 Indexation automatique par mots-clés
2.2 Définition et caractéristiques des mots-clés
2.2.1 Nature linguistique des mots-clés
2.2.2 Mots-clés présents et mots-clés absents
2.3 Méthodes en chaîne de traitement
2.3.1 Identification des mots-clés candidats
2.3.2 Pondération des mots-clés candidats
2.3.3 Sélection du sous-ensemble de mots-clés
2.4 Conclusion
3 Production de mots-clés de bout-en-bout
3.1 Principes fondamentaux des réseaux de neurones
3.1.1 Réseaux de neurones
3.1.2 Encodage de séquences (encodeur)
3.1.3 Génération de séquences (décodeur)
3.1.4 Paradigme encodeur-décodeur
3.2 Méthodes de bout-en-bout
3.2.1 Génération de mots-clés
3.2.2 Génération de séquences de mots-clés
3.2.3 Extraction de mots-clés
3.3 Conclusion
4 Cadre expérimental
4.1 Jeux de données
4.1.1 Jeux de données composés de notices scientifiques
4.1.2 Jeux de données composés d’articles scientifiques
4.1.3 Jeux de données composés d’articles journalistiques
4.1.4 Autres jeux de données
4.1.5 Discussion
4.2 Évaluation
4.2.1 Appariement
4.2.2 Métriques
4.2.3 Expansion de référence
4.3 Conclusion
5 KPTimes : des mots-clés éditeurs pour la génération de mots-clés
5.1 Constitution du jeu de données
5.1.1 Sélection des sources de données
5.1.2 Collecte des données
5.1.3 Filtrage des documents collectés
5.1.4 Description statistique
5.2 Performances du jeu de données
5.2.1 Comparaison aux jeux de données journalistiques
5.2.2 Généralisation des méthodes neuronales
5.3 Conclusion
6 Évaluation à large couverture
6.1 Cadre expérimental
6.1.1 Jeux de données
6.1.2 Méthodes
6.1.3 Paramètres expérimentaux
6.1.4 Métriques d’évaluation
6.1.5 Reproductibilité des résultats
6.2 Résultats de l’évaluation
6.2.1 Résultats généraux
6.2.2 Impact des mots-clés non-experts
6.2.3 Courbe d’apprentissage
6.2.4 Choix du cadre expérimental pour l’évaluation
6.3 Conclusion
7 Impact des mots-clés en recherche d’information
7.1 Cadre expérimental
7.1.1 Collections de test
7.1.2 Systèmes de recherche d’information
7.1.3 Paramètres expérimentaux
7.1.4 Mesures d’évaluation
7.2 Mots-clés de référence et mots-clés prédits
7.2.1 Impact des mots-clés sur l’indexation
7.2.2 Dérive sémantique
7.2.3 Nombre de mots-clés automatique à ajouter
7.2.4 Impact du domaine sur les mots-clés prédits
7.3 Mots-clés présents et absents
7.3.1 Redéfinir les mots-clés absents
7.3.2 Distribution des mots-clés de référence
7.3.3 Impact des mots-clés de référence
7.3.4 Impact des mots-clés générés présents et absents
7.4 Conclusion
8 Conclusion
8.1 Contributions
8.2 Perspectives
Liste des publications
Publication en conférence internationale avec actes
Publications en conférences nationales avec actes
Bibliographie