Indexation de documents scientifiques
Lโindexation est un processus qui vise ร identifier les รฉlรฉments notables dโun document dans le but de le caractรฉriser (Khemiri and Sidhom, 2020). Lโindexation par mots-clรฉs, ou association de mots-clรฉs ร des documents, est ร lโorigine un processus manuel, effectuรฉ par des indexeurs professionnels ou des bibliothรฉcaires formรฉs ร cette problรฉmatique. Dans les bibliothรจques, les documents sont gรฉnรฉralement associรฉs ร des mots-clรฉs qui proviennent de vocabulaires contrรดlรฉs. Par exemple, les bibliothรจques universitaires indexent leurs documents grรขce au langage documentaire RAMEAU (Centre National RAMEAU, 2017) qui permet de dรฉcrire les sujets des documents grรขce ร des descripteurs. Dans ce langage documentaire, un document intitulรฉ ยซ Les รฉvรฉnements de mai 68 racontรฉs par un รฉtudiant ยป sera indexรฉ avec les descripteurs suivants : France โ 1968 (Journรฉes de mai) โ Rรฉcits personnels ; ou encore le document ยซ Les conditions de travail des enseignants en Bretagne ยป sera indexรฉ de la maniรจre suivante : Enseignants โ France โ Bretagne (France) โ Conditions de travail.
Indexation manuelle
Lโindexation manuelle par mots-clรฉs, appelรฉe aussi annotation manuelle de documents en mots-clรฉs, peut sโeffectuer de maniรจre contrรดlรฉe ou non contrรดlรฉe. De maniรจre contrรดlรฉe, les mots-clรฉs sont ร choisir dans un rรฉfรฉrentiel (ontologie, thรฉsaurus, base de donnรฉes terminologiques, etc.). De maniรจre non contrรดlรฉe, le choix des mots-clรฉs est ร la discrรฉtion de lโannotateur. Pour illustrer cette indexation par mots-clรฉs, nous prรฉsentons dans la figure 2.1 un exemple de notice scientifique annotรฉe en mots-clรฉs par des indexeurs professionnels .
Lโannotation contrรดlรฉe permet dโassurer une cohรฉrence dans le choix des termes mais limite le nombre de concepts. Elle nรฉcessite aussi une connaissance experte du rรฉfรฉrentiel utilisรฉ, par exemple le MeSH dans le domaine mรฉdical, cโest pourquoi des indexeurs professionnels sont formรฉs ร leur utilisation. Le MeSH contient 25 186 termesย organisรฉs hiรฉrarchiquement avec quatre niveaux de profondeur en moyenne. Pour faciliter cette annotation contrรดlรฉe, des outils dโannotation semi automatique, tels que le Medical Text Indexer (Mork et al., 2013) pour PubMed, suggรจrent aux indexeurs les mots-clรฉs du rรฉfรฉrentiel qui apparaissent dans les documents. Les indexeurs procรจdent ensuite ร un examen manuel des mots-clรฉs suggรฉrรฉs pour valider ou ajouter des mots-clรฉs du rรฉfรฉrentiel qui nโont pas รฉtรฉ dรฉtectรฉs par ces outils. En contrepartie de la qualitรฉ de ces rรฉfรฉrentiels, leur mise ร jour et leur construction sont de lourds processus qui doivent toujours prendre en compte lโintรฉgralitรฉ du rรฉfรฉrentiel pour garantir sa cohรฉrence.
Lโindexation non contrรดlรฉe, contrairement ร lโindexation contrรดlรฉe, nโest soumise ร aucune contrainte. Elle permet une annotation rรฉalisable sans connaissances prรฉalables mais impacte nรฉgativement la cohรฉrence de lโannotation dโun document ร lโautre. Cette incohรฉrence est montrรฉe dans la figure 2.2 qui regroupe les variantes du concept de neural network dans des documents scientifiques annotรฉs par leurs auteurs. Lโindexation non contrรดlรฉe permet aussi, contrairement ร lโindexation contrรดlรฉe, dโindexer des concepts รฉmergeant et nโest pas limitรฉe aux termes dรฉjร identifiรฉs par un rรฉfรฉrentiel. Cette indexation non contrรดlรฉe est principalement utilisรฉe dans les bibliothรจques numรฉriques scientifiques, car les documents qui comportent des mots-clรฉs sont pour la plupart annotรฉs par leurs auteurs lors de lโรฉcriture ou de la soumission des articles.
Lโannotation en mots-clรฉs, quโelle soit contrรดlรฉe ou non, est gรฉnรฉralement effectuรฉe par des auteurs, des lecteurs ou des indexeurs professionnels. Les auteurs fournissent des mots-clรฉs pour les documents quโils ont รฉcrits, ils ont donc une connaissance experte du domaine et du contenu du document. Les mots-clรฉs quโils choisissent dรฉcrivent les concepts importants de leur point de vue et peuvent omettre certains concepts abordรฉs. De plus, le choix des mots-clรฉs peut รชtre biaisรฉ par les thรฉmatiques populaires du moment dans le but dโaugmenter la visibilitรฉ de lโarticle. Lโannotation par les auteurs est trรจs peu cohรฉrente car il nโy a pas de guide dโannotation, et chaque document est annotรฉ par une personne diffรฉrente. La figure 2.2 prรฉsente des variantes du concept de neural network (ยซ rรฉseau de neurone ยป en franรงais) annotรฉs par des auteurs. Les lecteurs, quant ร eux, ne sont pas des experts de lโannotation mais peuvent รชtre experts du domaine du document. Au contraire des auteurs, leur but nโest pas la visibilitรฉ du document mais plutรดt lโidentification des concepts des documents qui leur sont personnellement utiles dans leur recherche documentaire. Les annotations lecteurs โ dans le cadre de documents scientifiques โ proviennent gรฉnรฉralement de plateformes de partage de bibliographies dans lesquels les utilisateurs peuvent associer des mots-clรฉs ร des documents. Dans un cadre de crรฉation de jeux de donnรฉes pour la production automatique de mots-clรฉs, les donnรฉes des utilisateurs sont compilรฉes et filtrรฉes pour obtenir un ensemble de mots-clรฉs associรฉ ร chaque document retenu. Cette annotation lecteur permet, par exemple, dโoffrir une annotation alternative ร une annotation dรฉjร prรฉsente ou tout simplement dโobtenir une annotation en mots-clรฉs moins coรปteuse quโune annotation professionnelle. Les indexeurs professionnels, pour leur part, sont formรฉs ร lโindexation et ร lโutilisation de langages documentaires. Ils peuvent avoir une expertise dans le domaine des documents ร annoter et ont pour objectif dโaffecter des mots-clรฉs qui facilitent la recherche documentaire pour les utilisateurs. Pour illustrer la diffรฉrence dโannotation entre les auteurs et les indexeurs professionnels, nous comparons le nombre de mots-clรฉs assignรฉ aux documents par ces deux types dโannotateurs. Ainsi, la figure 2.3 prรฉsente la frรฉquence de documents par nombre de mots-clรฉs pour trois jeux de donnรฉes de notices scientifiques : Inspec et KP20k en anglais ; TermITH-Eval en franรงais. La diffรฉrence entre lโannotation indexeur et lโannotation auteur est flagrante. En effet, les auteurs assignent le plus souvent cinq mots-clรฉs par document, ce qui correspond au nombre maximal de mots-clรฉs autorisรฉs par les รฉditeurs de documents scientifiques, alors que les indexeurs, qui ne sont pas contraints par un seuil maximal, annotent en majoritรฉ de 6 ร 10 mots-clรฉs par document, sans diffรฉrence entre le franรงais et lโanglais.
Indexation automatique par mots-clรฉs
Lโindexation automatique consiste ร caractรฉriser des documents de maniรจre automatique, cโest-ร -dire ร choisir et ร pondรฉrer les descripteurs dโun document de maniรจre automatique. Lโindexation plein texte est un type dโindexation automatique qui considรจre chaque mot du document comme un descripteur potentiel, puis lui attribue un poids selon un schรฉma de pondรฉration tel que TfรIdf. Les techniques dโindexation automatique ont รฉtรฉ dรฉveloppรฉes pour simplifier et accรฉlรฉrer le travail dโindexation jusque-lร manuel. Ce travail nรฉcessite la disponibilitรฉ dโexperts ainsi que des budgets consรฉquents : lโannotation manuelle dโun article de PubMed coรปte une dizaine de dollarsย ; en 2020, 1,5 million dโarticles ont รฉtรฉ ajoutรฉs ร PubMed ce qui reprรฉsente un budget de 10,5 millions de dollars pour cette seule annรฉe. Ce processus est aussi coรปteux en temps : il faut compter entre 2 et 3 mois entre la soumission dโun document et son indexation. Ce dรฉlai dโattente dรฉcoule de la masse de documents ร indexer. Nous nous intรฉressons ici ร lโindexation automatique par mots-clรฉs que nous considรฉrons comme un type dโindexation libre. Et plus particuliรจrement, nous nous intรฉressons ร la production automatique de mots-clรฉs. Les mots-clรฉs sont des unitรฉs textuelles qui reprรฉsentent les sujets importants dโun document. Nous les prรฉsenterons en dรฉtail dans la section 2.2. Les mots-clรฉs ont de multiples intรฉrรชts pour lโindexation automatique de documents : ils peuvent aider ร la crรฉation de thรฉsaurus (Kosovac et al., 2002) ou autre rรฉfรฉrentiel ; ils peuvent aussi aider ร la crรฉation de rรฉsumรฉs automatiques (Litvak and Last, 2008; Qazvinian et al., 2010). Par ailleurs, ils peuvent enrichir lโindexation plein texte ou encore รชtre utilisรฉs pour de la recherche ร facette (Gutwin et al., 1999). La tรขche qui consiste ร associer automatiquement des mots-clรฉs ร des documents est gรฉnรฉralement nommรฉe ยซ extraction de mots-clรฉs ยป (keyphrase extraction) (Hasan and Ng, 2014; Meng et al., 2017). La grande majoritรฉ des mรฉthodes de production automatique de mots-clรฉs proposรฉe avant 2017 sont extractives, cโest-ร -dire quโelles produisent des mots-clรฉs prรฉsents dans le document. En 2017, Meng et al. (2017) introduit une mรฉthode supervisรฉe gรฉnรฉrative qui gรฉnรจre des mots-clรฉs mot-ร -mot ร partir dโun vocabulaire. Cette mรฉthode permet donc non seulement de produire des mots-clรฉs prรฉsents mais aussi des mots-clรฉs absents du document. Le terme ยซ extraction de mots-clรฉs ยป est ambigu : il peut dรฉsigner la seule production de mots-clรฉs prรฉsents, ou bien la production de mots clรฉs indiffรฉremment prรฉsents ou absents. Dans ce travail de thรจse, nous rรฉservons le terme dโextraction de mots-clรฉs ร la seule extraction de mots-clรฉs apparaissant dans le document. Pour lโaffectation de mots-clรฉs ร un document, quโils soient prรฉsents ou absents du document, nous emploierons ยซ assignation de mots-clรฉs ยป si les mots clรฉs proviennent dโun vocabulaire contrรดlรฉ et ยซ gรฉnรฉration de mots-clรฉs ยป si les mots-clรฉs sont gรฉnรฉrรฉs par des modรจles supervisรฉs ou semi-supervisรฉs. Le terme ยซ production de mots-clรฉs ยป dรฉsignera indiffรฉremment lโextraction, lโassignation ou la gรฉnรฉration de mots-clรฉs .
Dรฉfinition et caractรฉristiques des mots-clรฉs
Dans cette section nous examinons deux propriรฉtรฉs des mots-clรฉs : les catรฉgories grammaticales de leurs composants et leur longueur. Nous illustrons ces propriรฉtรฉs ร lโaide de deux jeux de donnรฉes : KP20k pour lโanglais et TermITH-Eval pour le franรงais. Dans la littรฉrature, ยซ mots-clรฉs ยป et ยซ termes-clรฉs ยป sont utilisรฉs de maniรจre interchangeable pour dรฉsigner les concepts importants dโun document.ย Ces deux appellations peuvent parfois รชtre utilisรฉes afin de diffรฉrencier les mots-clรฉs comprenant plusieurs mots (termes-clรฉs) des unigrammes (mots-clรฉs) mais cette utilisation nโest pas systรฉmatique. Dans ce travail de thรจse, nous choisissons dโemployer ยซ mot-clรฉ ยป pour dรฉsigner ces concepts importants sans rapport avec le nombre de mots qui les composent, ni le fait que les ยซ mots-clรฉs ยป soient des termes (dโun point de vue terminologique).ย Lโindexation des documents se fait toujours en leur associant des ensembles de mots clรฉs. Ces ensembles doivent respecter les propriรฉtรฉs de non-redondance et de couverture, cโest-ร -dire que les mots-clรฉs qui les composent doivent รชtre sรฉmantiquement disjoints, et couvrir le plus de concepts importants du document (Firoozeh et al., 2020). Au niveau dโune collection de documents, les mots-clรฉs peuvent รชtre plus ou moins cohรฉrents, cโestร -dire quโun concept est reprรฉsentรฉ par un nombre plus ou moins grand de variantes. Lโexemple du concept de neural network dans la figure 2.2 met en lumiรจre ce phรฉnomรจne.
Pour confirmer ce rรฉsultat sur les diffรฉrents jeux de donnรฉes disponibles, nous avons calculรฉ la frรฉquence des patrons morphosyntaxiques des mots-clรฉs sur le jeu de donnรฉes anglais KP20k et le jeu de donnรฉes franรงais TermITH-Eval. La figure 2.4 prรฉsente les 5 patrons morphosyntaxiques les plus frรฉquents. Ces 5 patrons couvrent respectivement 62 % et 70 % des mots-clรฉs de KP20k et de TermITH-Eval. Dans les deux langues, quatre des cinq patrons sont exclusivement composรฉs de noms et dโadjectifs, ce sont donc des syntagmes nominaux. En anglais, 4,5 % des mots-clรฉs sont des verbes ; en franรงais les noms propres (assimilables ร des noms) reprรฉsentent 4,5 % des mots-clรฉs. La faible proportion du patron NOUN ADP NOUN en franรงais est surprenante compte tenu de sa prรฉpondรฉrance dans les domaines de spรฉcialitรฉs (Daille, 2017).
Pour aider les auteurs ร choisir les mots-clรฉs de leurs articles, Gbur and Trumbo (1995) donnent des recommandations pour lโanglais. Par exemple, ils recommandent de ne pas rรฉpรฉter les mots-clรฉs des titres, de ne pas choisir de mots-clรฉs trop communs (ยซ regression ยป dans le domaine des statistiques) et de choisir des syntagmes nominaux simples et spรฉcifiques qui รฉvitent les composรฉs syntagmatiques avec groupe prรฉpositionnel (ยซ reliability ยป plutรดt que ยซ theory of reliability ยป) etc.
Mots-clรฉs prรฉsents et mots-clรฉs absents
La notion dโabsence dโun mot-clรฉ a รฉtรฉ introduite et formalisรฉe par Meng et al. (2017) dans les termes suivants : ยซ […] nous dรฉnotons les mots-clรฉs qui ne correspondent ร aucune sous-sรฉquence continue du texte source comme des mots-clรฉs absents, et ceux qui correspondent ร une partie du texte comme des mots-clรฉs prรฉsents ยป.ย Cette dรฉfinition est implรฉmentรฉe en cherchant si la sรฉquence de mots du mot-clรฉ apparaรฎt dans le mรชme ordre que dans la sรฉquence de mots du texte source. Ce dรฉcoupage permet de diffรฉrencier les mots-clรฉs pouvant รชtre extraits du document (mots-clรฉs prรฉsents) de ceux devant รชtre gรฉnรฉrรฉs (mots-clรฉs absents). Cette diffรฉrenciation est gรฉnรฉralement utilisรฉe pour filtrer la rรฉfรฉrence et pour รฉvaluer une mรฉthode sur sa seule capacitรฉ ร extraire ou ร gรฉnรฉrer des mots-clรฉs. Les mรฉthodes extractives ont historiquement รฉtรฉ รฉvaluรฉes ร lโaide de la rรฉfรฉrence entiรจre. Aujourdโhui il est commun dโรฉvaluer sรฉparรฉment les mots-clรฉs prรฉsents et les mots-clรฉs absents (Meng et al., 2017; Sun et al., 2019).
|
Table des matiรจres
1 Introduction
2 Concepts et mรฉthodes de base
2.1 Indexation de documents scientifiques
2.1.1 Indexation manuelle
2.1.2 Indexation automatique par mots-clรฉs
2.2 Dรฉfinition et caractรฉristiques des mots-clรฉs
2.2.1 Nature linguistique des mots-clรฉs
2.2.2 Mots-clรฉs prรฉsents et mots-clรฉs absents
2.3 Mรฉthodes en chaรฎne de traitement
2.3.1 Identification des mots-clรฉs candidats
2.3.2 Pondรฉration des mots-clรฉs candidats
2.3.3 Sรฉlection du sous-ensemble de mots-clรฉs
2.4 Conclusion
3 Production de mots-clรฉs de bout-en-bout
3.1 Principes fondamentaux des rรฉseaux de neurones
3.1.1 Rรฉseaux de neurones
3.1.2 Encodage de sรฉquences (encodeur)
3.1.3 Gรฉnรฉration de sรฉquences (dรฉcodeur)
3.1.4 Paradigme encodeur-dรฉcodeur
3.2 Mรฉthodes de bout-en-bout
3.2.1 Gรฉnรฉration de mots-clรฉs
3.2.2 Gรฉnรฉration de sรฉquences de mots-clรฉs
3.2.3 Extraction de mots-clรฉs
3.3 Conclusion
4 Cadre expรฉrimental
4.1 Jeux de donnรฉes
4.1.1 Jeux de donnรฉes composรฉs de notices scientifiques
4.1.2 Jeux de donnรฉes composรฉs dโarticles scientifiques
4.1.3 Jeux de donnรฉes composรฉs dโarticles journalistiques
4.1.4 Autres jeux de donnรฉes
4.1.5 Discussion
4.2 รvaluation
4.2.1 Appariement
4.2.2 Mรฉtriques
4.2.3 Expansion de rรฉfรฉrence
4.3 Conclusion
5 KPTimes : des mots-clรฉs รฉditeurs pour la gรฉnรฉration de mots-clรฉs
5.1 Constitution du jeu de donnรฉes
5.1.1 Sรฉlection des sources de donnรฉes
5.1.2 Collecte des donnรฉes
5.1.3 Filtrage des documents collectรฉs
5.1.4 Description statistique
5.2 Performances du jeu de donnรฉes
5.2.1 Comparaison aux jeux de donnรฉes journalistiques
5.2.2 Gรฉnรฉralisation des mรฉthodes neuronales
5.3 Conclusion
6 รvaluation ร large couverture
6.1 Cadre expรฉrimental
6.1.1 Jeux de donnรฉes
6.1.2 Mรฉthodes
6.1.3 Paramรจtres expรฉrimentaux
6.1.4 Mรฉtriques dโรฉvaluation
6.1.5 Reproductibilitรฉ des rรฉsultats
6.2 Rรฉsultats de lโรฉvaluation
6.2.1 Rรฉsultats gรฉnรฉraux
6.2.2 Impact des mots-clรฉs non-experts
6.2.3 Courbe dโapprentissage
6.2.4 Choix du cadre expรฉrimental pour lโรฉvaluation
6.3 Conclusion
7 Conclusion
Tรฉlรฉcharger le rapport complet