Indexation de documents scientifiques

Indexation de documents scientifiques

L’indexation est un processus qui vise à identifier les éléments notables d’un document dans le but de le caractériser (Khemiri and Sidhom, 2020). L’indexation par mots-clés, ou association de mots-clés à des documents, est à l’origine un processus manuel, effectué par des indexeurs professionnels ou des bibliothécaires formés à cette problématique. Dans les bibliothèques, les documents sont généralement associés à des mots-clés qui proviennent de vocabulaires contrôlés. Par exemple, les bibliothèques universitaires indexent leurs documents grâce au langage documentaire RAMEAU (Centre National RAMEAU, 2017) qui permet de décrire les sujets des documents grâce à des descripteurs. Dans ce langage documentaire, un document intitulé « Les événements de mai 68 racontés par un étudiant » sera indexé avec les descripteurs suivants : France – 1968 (Journées de mai) – Récits personnels ; ou encore le document « Les conditions de travail des enseignants en Bretagne » sera indexé de la manière suivante : Enseignants – France – Bretagne (France) – Conditions de travail.

Indexation manuelle

L’indexation manuelle par mots-clés, appelée aussi annotation manuelle de documents en mots-clés, peut s’effectuer de manière contrôlée ou non contrôlée. De manière contrôlée, les mots-clés sont à choisir dans un référentiel (ontologie, thésaurus, base de données terminologiques, etc.). De manière non contrôlée, le choix des mots-clés est à la discrétion de l’annotateur. Pour illustrer cette indexation par mots-clés, nous présentons dans la figure 2.1 un exemple de notice scientifique annotée en mots-clés par des indexeurs professionnels .

L’annotation contrôlée permet d’assurer une cohérence dans le choix des termes mais limite le nombre de concepts. Elle nécessite aussi une connaissance experte du référentiel utilisé, par exemple le MeSH dans le domaine médical, c’est pourquoi des indexeurs professionnels sont formés à leur utilisation. Le MeSH contient 25 186 termes organisés hiérarchiquement avec quatre niveaux de profondeur en moyenne. Pour faciliter cette annotation contrôlée, des outils d’annotation semi automatique, tels que le Medical Text Indexer (Mork et al., 2013) pour PubMed, suggèrent aux indexeurs les mots-clés du référentiel qui apparaissent dans les documents. Les indexeurs procèdent ensuite à un examen manuel des mots-clés suggérés pour valider ou ajouter des mots-clés du référentiel qui n’ont pas été détectés par ces outils. En contrepartie de la qualité de ces référentiels, leur mise à jour et leur construction sont de lourds processus qui doivent toujours prendre en compte l’intégralité du référentiel pour garantir sa cohérence.

L’indexation non contrôlée, contrairement à l’indexation contrôlée, n’est soumise à aucune contrainte. Elle permet une annotation réalisable sans connaissances préalables mais impacte négativement la cohérence de l’annotation d’un document à l’autre. Cette incohérence est montrée dans la figure 2.2 qui regroupe les variantes du concept de neural network dans des documents scientifiques annotés par leurs auteurs. L’indexation non contrôlée permet aussi, contrairement à l’indexation contrôlée, d’indexer des concepts émergeant et n’est pas limitée aux termes déjà identifiés par un référentiel. Cette indexation non contrôlée est principalement utilisée dans les bibliothèques numériques scientifiques, car les documents qui comportent des mots-clés sont pour la plupart annotés par leurs auteurs lors de l’écriture ou de la soumission des articles.

L’annotation en mots-clés, qu’elle soit contrôlée ou non, est généralement effectuée par des auteurs, des lecteurs ou des indexeurs professionnels. Les auteurs fournissent des mots-clés pour les documents qu’ils ont écrits, ils ont donc une connaissance experte du domaine et du contenu du document. Les mots-clés qu’ils choisissent décrivent les concepts importants de leur point de vue et peuvent omettre certains concepts abordés. De plus, le choix des mots-clés peut être biaisé par les thématiques populaires du moment dans le but d’augmenter la visibilité de l’article. L’annotation par les auteurs est très peu cohérente car il n’y a pas de guide d’annotation, et chaque document est annoté par une personne différente. La figure 2.2 présente des variantes du concept de neural network (« réseau de neurone » en français) annotés par des auteurs. Les lecteurs, quant à eux, ne sont pas des experts de l’annotation mais peuvent être experts du domaine du document. Au contraire des auteurs, leur but n’est pas la visibilité du document mais plutôt l’identification des concepts des documents qui leur sont personnellement utiles dans leur recherche documentaire. Les annotations lecteurs – dans le cadre de documents scientifiques – proviennent généralement de plateformes de partage de bibliographies dans lesquels les utilisateurs peuvent associer des mots-clés à des documents. Dans un cadre de création de jeux de données pour la production automatique de mots-clés, les données des utilisateurs sont compilées et filtrées pour obtenir un ensemble de mots-clés associé à chaque document retenu. Cette annotation lecteur permet, par exemple, d’offrir une annotation alternative à une annotation déjà présente ou tout simplement d’obtenir une annotation en mots-clés moins coûteuse qu’une annotation professionnelle. Les indexeurs professionnels, pour leur part, sont formés à l’indexation et à l’utilisation de langages documentaires. Ils peuvent avoir une expertise dans le domaine des documents à annoter et ont pour objectif d’affecter des mots-clés qui facilitent la recherche documentaire pour les utilisateurs. Pour illustrer la différence d’annotation entre les auteurs et les indexeurs professionnels, nous comparons le nombre de mots-clés assigné aux documents par ces deux types d’annotateurs. Ainsi, la figure 2.3 présente la fréquence de documents par nombre de mots-clés pour trois jeux de données de notices scientifiques : Inspec et KP20k en anglais ; TermITH-Eval en français. La différence entre l’annotation indexeur et l’annotation auteur est flagrante. En effet, les auteurs assignent le plus souvent cinq mots-clés par document, ce qui correspond au nombre maximal de mots-clés autorisés par les éditeurs de documents scientifiques, alors que les indexeurs, qui ne sont pas contraints par un seuil maximal, annotent en majorité de 6 à 10 mots-clés par document, sans différence entre le français et l’anglais.

Indexation automatique par mots-clés

L’indexation automatique consiste à caractériser des documents de manière automatique, c’est-à-dire à choisir et à pondérer les descripteurs d’un document de manière automatique. L’indexation plein texte est un type d’indexation automatique qui considère chaque mot du document comme un descripteur potentiel, puis lui attribue un poids selon un schéma de pondération tel que Tf×Idf. Les techniques d’indexation automatique ont été développées pour simplifier et accélérer le travail d’indexation jusque-là manuel. Ce travail nécessite la disponibilité d’experts ainsi que des budgets conséquents : l’annotation manuelle d’un article de PubMed coûte une dizaine de dollars ; en 2020, 1,5 million d’articles ont été ajoutés à PubMed ce qui représente un budget de 10,5 millions de dollars pour cette seule année. Ce processus est aussi coûteux en temps : il faut compter entre 2 et 3 mois entre la soumission d’un document et son indexation. Ce délai d’attente découle de la masse de documents à indexer. Nous nous intéressons ici à l’indexation automatique par mots-clés que nous considérons comme un type d’indexation libre. Et plus particulièrement, nous nous intéressons à la production automatique de mots-clés. Les mots-clés sont des unités textuelles qui représentent les sujets importants d’un document. Nous les présenterons en détail dans la section 2.2. Les mots-clés ont de multiples intérêts pour l’indexation automatique de documents : ils peuvent aider à la création de thésaurus (Kosovac et al., 2002) ou autre référentiel ; ils peuvent aussi aider à la création de résumés automatiques (Litvak and Last, 2008; Qazvinian et al., 2010). Par ailleurs, ils peuvent enrichir l’indexation plein texte ou encore être utilisés pour de la recherche à facette (Gutwin et al., 1999). La tâche qui consiste à associer automatiquement des mots-clés à des documents est généralement nommée « extraction de mots-clés » (keyphrase extraction) (Hasan and Ng, 2014; Meng et al., 2017). La grande majorité des méthodes de production automatique de mots-clés proposée avant 2017 sont extractives, c’est-à-dire qu’elles produisent des mots-clés présents dans le document. En 2017, Meng et al. (2017) introduit une méthode supervisée générative qui génère des mots-clés mot-à-mot à partir d’un vocabulaire. Cette méthode permet donc non seulement de produire des mots-clés présents mais aussi des mots-clés absents du document. Le terme « extraction de mots-clés » est ambigu : il peut désigner la seule production de mots-clés présents, ou bien la production de mots clés indifféremment présents ou absents. Dans ce travail de thèse, nous réservons le terme d’extraction de mots-clés à la seule extraction de mots-clés apparaissant dans le document. Pour l’affectation de mots-clés à un document, qu’ils soient présents ou absents du document, nous emploierons « assignation de mots-clés » si les mots clés proviennent d’un vocabulaire contrôlé et « génération de mots-clés » si les mots-clés sont générés par des modèles supervisés ou semi-supervisés. Le terme « production de mots-clés » désignera indifféremment l’extraction, l’assignation ou la génération de mots-clés .

Définition et caractéristiques des mots-clés

Dans cette section nous examinons deux propriétés des mots-clés : les catégories grammaticales de leurs composants et leur longueur. Nous illustrons ces propriétés à l’aide de deux jeux de données : KP20k pour l’anglais et TermITH-Eval pour le français. Dans la littérature, « mots-clés » et « termes-clés » sont utilisés de manière interchangeable pour désigner les concepts importants d’un document. Ces deux appellations peuvent parfois être utilisées afin de différencier les mots-clés comprenant plusieurs mots (termes-clés) des unigrammes (mots-clés) mais cette utilisation n’est pas systématique. Dans ce travail de thèse, nous choisissons d’employer « mot-clé » pour désigner ces concepts importants sans rapport avec le nombre de mots qui les composent, ni le fait que les « mots-clés » soient des termes (d’un point de vue terminologique). L’indexation des documents se fait toujours en leur associant des ensembles de mots clés. Ces ensembles doivent respecter les propriétés de non-redondance et de couverture, c’est-à-dire que les mots-clés qui les composent doivent être sémantiquement disjoints, et couvrir le plus de concepts importants du document (Firoozeh et al., 2020). Au niveau d’une collection de documents, les mots-clés peuvent être plus ou moins cohérents, c’està-dire qu’un concept est représenté par un nombre plus ou moins grand de variantes. L’exemple du concept de neural network dans la figure 2.2 met en lumière ce phénomène.

Pour confirmer ce résultat sur les différents jeux de données disponibles, nous avons calculé la fréquence des patrons morphosyntaxiques des mots-clés sur le jeu de données anglais KP20k et le jeu de données français TermITH-Eval. La figure 2.4 présente les 5 patrons morphosyntaxiques les plus fréquents. Ces 5 patrons couvrent respectivement 62 % et 70 % des mots-clés de KP20k et de TermITH-Eval. Dans les deux langues, quatre des cinq patrons sont exclusivement composés de noms et d’adjectifs, ce sont donc des syntagmes nominaux. En anglais, 4,5 % des mots-clés sont des verbes ; en français les noms propres (assimilables à des noms) représentent 4,5 % des mots-clés. La faible proportion du patron NOUN ADP NOUN en français est surprenante compte tenu de sa prépondérance dans les domaines de spécialités (Daille, 2017).

Pour aider les auteurs à choisir les mots-clés de leurs articles, Gbur and Trumbo (1995) donnent des recommandations pour l’anglais. Par exemple, ils recommandent de ne pas répéter les mots-clés des titres, de ne pas choisir de mots-clés trop communs (« regression » dans le domaine des statistiques) et de choisir des syntagmes nominaux simples et spécifiques qui évitent les composés syntagmatiques avec groupe prépositionnel (« reliability » plutôt que « theory of reliability ») etc.

Mots-clés présents et mots-clés absents

La notion d’absence d’un mot-clé a été introduite et formalisée par Meng et al. (2017) dans les termes suivants : « […] nous dénotons les mots-clés qui ne correspondent à aucune sous-séquence continue du texte source comme des mots-clés absents, et ceux qui correspondent à une partie du texte comme des mots-clés présents ». Cette définition est implémentée en cherchant si la séquence de mots du mot-clé apparaît dans le même ordre que dans la séquence de mots du texte source. Ce découpage permet de différencier les mots-clés pouvant être extraits du document (mots-clés présents) de ceux devant être générés (mots-clés absents). Cette différenciation est généralement utilisée pour filtrer la référence et pour évaluer une méthode sur sa seule capacité à extraire ou à générer des mots-clés. Les méthodes extractives ont historiquement été évaluées à l’aide de la référence entière. Aujourd’hui il est commun d’évaluer séparément les mots-clés présents et les mots-clés absents (Meng et al., 2017; Sun et al., 2019).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
2 Concepts et méthodes de base
2.1 Indexation de documents scientifiques
2.1.1 Indexation manuelle
2.1.2 Indexation automatique par mots-clés
2.2 Définition et caractéristiques des mots-clés
2.2.1 Nature linguistique des mots-clés
2.2.2 Mots-clés présents et mots-clés absents
2.3 Méthodes en chaîne de traitement
2.3.1 Identification des mots-clés candidats
2.3.2 Pondération des mots-clés candidats
2.3.3 Sélection du sous-ensemble de mots-clés
2.4 Conclusion
3 Production de mots-clés de bout-en-bout
3.1 Principes fondamentaux des réseaux de neurones
3.1.1 Réseaux de neurones
3.1.2 Encodage de séquences (encodeur)
3.1.3 Génération de séquences (décodeur)
3.1.4 Paradigme encodeur-décodeur
3.2 Méthodes de bout-en-bout
3.2.1 Génération de mots-clés
3.2.2 Génération de séquences de mots-clés
3.2.3 Extraction de mots-clés
3.3 Conclusion
4 Cadre expérimental
4.1 Jeux de données
4.1.1 Jeux de données composés de notices scientifiques
4.1.2 Jeux de données composés d’articles scientifiques
4.1.3 Jeux de données composés d’articles journalistiques
4.1.4 Autres jeux de données
4.1.5 Discussion
4.2 Évaluation
4.2.1 Appariement
4.2.2 Métriques
4.2.3 Expansion de référence
4.3 Conclusion
5 KPTimes : des mots-clés éditeurs pour la génération de mots-clés
5.1 Constitution du jeu de données
5.1.1 Sélection des sources de données
5.1.2 Collecte des données
5.1.3 Filtrage des documents collectés
5.1.4 Description statistique
5.2 Performances du jeu de données
5.2.1 Comparaison aux jeux de données journalistiques
5.2.2 Généralisation des méthodes neuronales
5.3 Conclusion
6 Évaluation à large couverture
6.1 Cadre expérimental
6.1.1 Jeux de données
6.1.2 Méthodes
6.1.3 Paramètres expérimentaux
6.1.4 Métriques d’évaluation
6.1.5 Reproductibilité des résultats
6.2 Résultats de l’évaluation
6.2.1 Résultats généraux
6.2.2 Impact des mots-clés non-experts
6.2.3 Courbe d’apprentissage
6.2.4 Choix du cadre expérimental pour l’évaluation
6.3 Conclusion
7 Conclusion