Indexation de documents scientifiques

Indexation de documents scientifiques

Lโ€™indexation est un processus qui vise ร  identifier les รฉlรฉments notables dโ€™un document dans le but de le caractรฉriser (Khemiri and Sidhom, 2020). Lโ€™indexation par mots-clรฉs, ou association de mots-clรฉs ร  des documents, est ร  lโ€™origine un processus manuel, effectuรฉ par des indexeurs professionnels ou des bibliothรฉcaires formรฉs ร  cette problรฉmatique. Dans les bibliothรจques, les documents sont gรฉnรฉralement associรฉs ร  des mots-clรฉs qui proviennent de vocabulaires contrรดlรฉs. Par exemple, les bibliothรจques universitaires indexent leurs documents grรขce au langage documentaire RAMEAU (Centre National RAMEAU, 2017) qui permet de dรฉcrire les sujets des documents grรขce ร  des descripteurs. Dans ce langage documentaire, un document intitulรฉ ยซ Les รฉvรฉnements de mai 68 racontรฉs par un รฉtudiant ยป sera indexรฉ avec les descripteurs suivants : France โ€“ 1968 (Journรฉes de mai) โ€“ Rรฉcits personnels ; ou encore le document ยซ Les conditions de travail des enseignants en Bretagne ยป sera indexรฉ de la maniรจre suivante : Enseignants โ€“ France โ€“ Bretagne (France) โ€“ Conditions de travail.

Indexation manuelle

Lโ€™indexation manuelle par mots-clรฉs, appelรฉe aussi annotation manuelle de documents en mots-clรฉs, peut sโ€™effectuer de maniรจre contrรดlรฉe ou non contrรดlรฉe. De maniรจre contrรดlรฉe, les mots-clรฉs sont ร  choisir dans un rรฉfรฉrentiel (ontologie, thรฉsaurus, base de donnรฉes terminologiques, etc.). De maniรจre non contrรดlรฉe, le choix des mots-clรฉs est ร  la discrรฉtion de lโ€™annotateur. Pour illustrer cette indexation par mots-clรฉs, nous prรฉsentons dans la figure 2.1 un exemple de notice scientifique annotรฉe en mots-clรฉs par des indexeurs professionnels .

Lโ€™annotation contrรดlรฉe permet dโ€™assurer une cohรฉrence dans le choix des termes mais limite le nombre de concepts. Elle nรฉcessite aussi une connaissance experte du rรฉfรฉrentiel utilisรฉ, par exemple le MeSH dans le domaine mรฉdical, cโ€™est pourquoi des indexeurs professionnels sont formรฉs ร  leur utilisation. Le MeSH contient 25 186 termesย  organisรฉs hiรฉrarchiquement avec quatre niveaux de profondeur en moyenne. Pour faciliter cette annotation contrรดlรฉe, des outils dโ€™annotation semi automatique, tels que le Medical Text Indexer (Mork et al., 2013) pour PubMed, suggรจrent aux indexeurs les mots-clรฉs du rรฉfรฉrentiel qui apparaissent dans les documents. Les indexeurs procรจdent ensuite ร  un examen manuel des mots-clรฉs suggรฉrรฉs pour valider ou ajouter des mots-clรฉs du rรฉfรฉrentiel qui nโ€™ont pas รฉtรฉ dรฉtectรฉs par ces outils. En contrepartie de la qualitรฉ de ces rรฉfรฉrentiels, leur mise ร  jour et leur construction sont de lourds processus qui doivent toujours prendre en compte lโ€™intรฉgralitรฉ du rรฉfรฉrentiel pour garantir sa cohรฉrence.

Lโ€™indexation non contrรดlรฉe, contrairement ร  lโ€™indexation contrรดlรฉe, nโ€™est soumise ร  aucune contrainte. Elle permet une annotation rรฉalisable sans connaissances prรฉalables mais impacte nรฉgativement la cohรฉrence de lโ€™annotation dโ€™un document ร  lโ€™autre. Cette incohรฉrence est montrรฉe dans la figure 2.2 qui regroupe les variantes du concept de neural network dans des documents scientifiques annotรฉs par leurs auteurs. Lโ€™indexation non contrรดlรฉe permet aussi, contrairement ร  lโ€™indexation contrรดlรฉe, dโ€™indexer des concepts รฉmergeant et nโ€™est pas limitรฉe aux termes dรฉjร  identifiรฉs par un rรฉfรฉrentiel. Cette indexation non contrรดlรฉe est principalement utilisรฉe dans les bibliothรจques numรฉriques scientifiques, car les documents qui comportent des mots-clรฉs sont pour la plupart annotรฉs par leurs auteurs lors de lโ€™รฉcriture ou de la soumission des articles.

Lโ€™annotation en mots-clรฉs, quโ€™elle soit contrรดlรฉe ou non, est gรฉnรฉralement effectuรฉe par des auteurs, des lecteurs ou des indexeurs professionnels. Les auteurs fournissent des mots-clรฉs pour les documents quโ€™ils ont รฉcrits, ils ont donc une connaissance experte du domaine et du contenu du document. Les mots-clรฉs quโ€™ils choisissent dรฉcrivent les concepts importants de leur point de vue et peuvent omettre certains concepts abordรฉs. De plus, le choix des mots-clรฉs peut รชtre biaisรฉ par les thรฉmatiques populaires du moment dans le but dโ€™augmenter la visibilitรฉ de lโ€™article. Lโ€™annotation par les auteurs est trรจs peu cohรฉrente car il nโ€™y a pas de guide dโ€™annotation, et chaque document est annotรฉ par une personne diffรฉrente. La figure 2.2 prรฉsente des variantes du concept de neural network (ยซ rรฉseau de neurone ยป en franรงais) annotรฉs par des auteurs. Les lecteurs, quant ร  eux, ne sont pas des experts de lโ€™annotation mais peuvent รชtre experts du domaine du document. Au contraire des auteurs, leur but nโ€™est pas la visibilitรฉ du document mais plutรดt lโ€™identification des concepts des documents qui leur sont personnellement utiles dans leur recherche documentaire. Les annotations lecteurs โ€“ dans le cadre de documents scientifiques โ€“ proviennent gรฉnรฉralement de plateformes de partage de bibliographies dans lesquels les utilisateurs peuvent associer des mots-clรฉs ร  des documents. Dans un cadre de crรฉation de jeux de donnรฉes pour la production automatique de mots-clรฉs, les donnรฉes des utilisateurs sont compilรฉes et filtrรฉes pour obtenir un ensemble de mots-clรฉs associรฉ ร  chaque document retenu. Cette annotation lecteur permet, par exemple, dโ€™offrir une annotation alternative ร  une annotation dรฉjร  prรฉsente ou tout simplement dโ€™obtenir une annotation en mots-clรฉs moins coรปteuse quโ€™une annotation professionnelle. Les indexeurs professionnels, pour leur part, sont formรฉs ร  lโ€™indexation et ร  lโ€™utilisation de langages documentaires. Ils peuvent avoir une expertise dans le domaine des documents ร  annoter et ont pour objectif dโ€™affecter des mots-clรฉs qui facilitent la recherche documentaire pour les utilisateurs. Pour illustrer la diffรฉrence dโ€™annotation entre les auteurs et les indexeurs professionnels, nous comparons le nombre de mots-clรฉs assignรฉ aux documents par ces deux types dโ€™annotateurs. Ainsi, la figure 2.3 prรฉsente la frรฉquence de documents par nombre de mots-clรฉs pour trois jeux de donnรฉes de notices scientifiques : Inspec et KP20k en anglais ; TermITH-Eval en franรงais. La diffรฉrence entre lโ€™annotation indexeur et lโ€™annotation auteur est flagrante. En effet, les auteurs assignent le plus souvent cinq mots-clรฉs par document, ce qui correspond au nombre maximal de mots-clรฉs autorisรฉs par les รฉditeurs de documents scientifiques, alors que les indexeurs, qui ne sont pas contraints par un seuil maximal, annotent en majoritรฉ de 6 ร  10 mots-clรฉs par document, sans diffรฉrence entre le franรงais et lโ€™anglais.

Indexation automatique par mots-clรฉs

Lโ€™indexation automatique consiste ร  caractรฉriser des documents de maniรจre automatique, cโ€™est-ร -dire ร  choisir et ร  pondรฉrer les descripteurs dโ€™un document de maniรจre automatique. Lโ€™indexation plein texte est un type dโ€™indexation automatique qui considรจre chaque mot du document comme un descripteur potentiel, puis lui attribue un poids selon un schรฉma de pondรฉration tel que Tfร—Idf. Les techniques dโ€™indexation automatique ont รฉtรฉ dรฉveloppรฉes pour simplifier et accรฉlรฉrer le travail dโ€™indexation jusque-lร  manuel. Ce travail nรฉcessite la disponibilitรฉ dโ€™experts ainsi que des budgets consรฉquents : lโ€™annotation manuelle dโ€™un article de PubMed coรปte une dizaine de dollarsย  ; en 2020, 1,5 million dโ€™articles ont รฉtรฉ ajoutรฉs ร  PubMed ce qui reprรฉsente un budget de 10,5 millions de dollars pour cette seule annรฉe. Ce processus est aussi coรปteux en temps : il faut compter entre 2 et 3 mois entre la soumission dโ€™un document et son indexation. Ce dรฉlai dโ€™attente dรฉcoule de la masse de documents ร  indexer. Nous nous intรฉressons ici ร  lโ€™indexation automatique par mots-clรฉs que nous considรฉrons comme un type dโ€™indexation libre. Et plus particuliรจrement, nous nous intรฉressons ร  la production automatique de mots-clรฉs. Les mots-clรฉs sont des unitรฉs textuelles qui reprรฉsentent les sujets importants dโ€™un document. Nous les prรฉsenterons en dรฉtail dans la section 2.2. Les mots-clรฉs ont de multiples intรฉrรชts pour lโ€™indexation automatique de documents : ils peuvent aider ร  la crรฉation de thรฉsaurus (Kosovac et al., 2002) ou autre rรฉfรฉrentiel ; ils peuvent aussi aider ร  la crรฉation de rรฉsumรฉs automatiques (Litvak and Last, 2008; Qazvinian et al., 2010). Par ailleurs, ils peuvent enrichir lโ€™indexation plein texte ou encore รชtre utilisรฉs pour de la recherche ร  facette (Gutwin et al., 1999). La tรขche qui consiste ร  associer automatiquement des mots-clรฉs ร  des documents est gรฉnรฉralement nommรฉe ยซ extraction de mots-clรฉs ยป (keyphrase extraction) (Hasan and Ng, 2014; Meng et al., 2017). La grande majoritรฉ des mรฉthodes de production automatique de mots-clรฉs proposรฉe avant 2017 sont extractives, cโ€™est-ร -dire quโ€™elles produisent des mots-clรฉs prรฉsents dans le document. En 2017, Meng et al. (2017) introduit une mรฉthode supervisรฉe gรฉnรฉrative qui gรฉnรจre des mots-clรฉs mot-ร -mot ร  partir dโ€™un vocabulaire. Cette mรฉthode permet donc non seulement de produire des mots-clรฉs prรฉsents mais aussi des mots-clรฉs absents du document. Le terme ยซ extraction de mots-clรฉs ยป est ambigu : il peut dรฉsigner la seule production de mots-clรฉs prรฉsents, ou bien la production de mots clรฉs indiffรฉremment prรฉsents ou absents. Dans ce travail de thรจse, nous rรฉservons le terme dโ€™extraction de mots-clรฉs ร  la seule extraction de mots-clรฉs apparaissant dans le document. Pour lโ€™affectation de mots-clรฉs ร  un document, quโ€™ils soient prรฉsents ou absents du document, nous emploierons ยซ assignation de mots-clรฉs ยป si les mots clรฉs proviennent dโ€™un vocabulaire contrรดlรฉ et ยซ gรฉnรฉration de mots-clรฉs ยป si les mots-clรฉs sont gรฉnรฉrรฉs par des modรจles supervisรฉs ou semi-supervisรฉs. Le terme ยซ production de mots-clรฉs ยป dรฉsignera indiffรฉremment lโ€™extraction, lโ€™assignation ou la gรฉnรฉration de mots-clรฉs .

Dรฉfinition et caractรฉristiques des mots-clรฉs

Dans cette section nous examinons deux propriรฉtรฉs des mots-clรฉs : les catรฉgories grammaticales de leurs composants et leur longueur. Nous illustrons ces propriรฉtรฉs ร  lโ€™aide de deux jeux de donnรฉes : KP20k pour lโ€™anglais et TermITH-Eval pour le franรงais. Dans la littรฉrature, ยซ mots-clรฉs ยป et ยซ termes-clรฉs ยป sont utilisรฉs de maniรจre interchangeable pour dรฉsigner les concepts importants dโ€™un document.ย  Ces deux appellations peuvent parfois รชtre utilisรฉes afin de diffรฉrencier les mots-clรฉs comprenant plusieurs mots (termes-clรฉs) des unigrammes (mots-clรฉs) mais cette utilisation nโ€™est pas systรฉmatique. Dans ce travail de thรจse, nous choisissons dโ€™employer ยซ mot-clรฉ ยป pour dรฉsigner ces concepts importants sans rapport avec le nombre de mots qui les composent, ni le fait que les ยซ mots-clรฉs ยป soient des termes (dโ€™un point de vue terminologique).ย  Lโ€™indexation des documents se fait toujours en leur associant des ensembles de mots clรฉs. Ces ensembles doivent respecter les propriรฉtรฉs de non-redondance et de couverture, cโ€™est-ร -dire que les mots-clรฉs qui les composent doivent รชtre sรฉmantiquement disjoints, et couvrir le plus de concepts importants du document (Firoozeh et al., 2020). Au niveau dโ€™une collection de documents, les mots-clรฉs peuvent รชtre plus ou moins cohรฉrents, cโ€™estร -dire quโ€™un concept est reprรฉsentรฉ par un nombre plus ou moins grand de variantes. Lโ€™exemple du concept de neural network dans la figure 2.2 met en lumiรจre ce phรฉnomรจne.

Pour confirmer ce rรฉsultat sur les diffรฉrents jeux de donnรฉes disponibles, nous avons calculรฉ la frรฉquence des patrons morphosyntaxiques des mots-clรฉs sur le jeu de donnรฉes anglais KP20k et le jeu de donnรฉes franรงais TermITH-Eval. La figure 2.4 prรฉsente les 5 patrons morphosyntaxiques les plus frรฉquents. Ces 5 patrons couvrent respectivement 62 % et 70 % des mots-clรฉs de KP20k et de TermITH-Eval. Dans les deux langues, quatre des cinq patrons sont exclusivement composรฉs de noms et dโ€™adjectifs, ce sont donc des syntagmes nominaux. En anglais, 4,5 % des mots-clรฉs sont des verbes ; en franรงais les noms propres (assimilables ร  des noms) reprรฉsentent 4,5 % des mots-clรฉs. La faible proportion du patron NOUN ADP NOUN en franรงais est surprenante compte tenu de sa prรฉpondรฉrance dans les domaines de spรฉcialitรฉs (Daille, 2017).

Pour aider les auteurs ร  choisir les mots-clรฉs de leurs articles, Gbur and Trumbo (1995) donnent des recommandations pour lโ€™anglais. Par exemple, ils recommandent de ne pas rรฉpรฉter les mots-clรฉs des titres, de ne pas choisir de mots-clรฉs trop communs (ยซ regression ยป dans le domaine des statistiques) et de choisir des syntagmes nominaux simples et spรฉcifiques qui รฉvitent les composรฉs syntagmatiques avec groupe prรฉpositionnel (ยซ reliability ยป plutรดt que ยซ theory of reliability ยป) etc.

Mots-clรฉs prรฉsents et mots-clรฉs absents

La notion dโ€™absence dโ€™un mot-clรฉ a รฉtรฉ introduite et formalisรฉe par Meng et al. (2017) dans les termes suivants : ยซ […] nous dรฉnotons les mots-clรฉs qui ne correspondent ร  aucune sous-sรฉquence continue du texte source comme des mots-clรฉs absents, et ceux qui correspondent ร  une partie du texte comme des mots-clรฉs prรฉsents ยป.ย  Cette dรฉfinition est implรฉmentรฉe en cherchant si la sรฉquence de mots du mot-clรฉ apparaรฎt dans le mรชme ordre que dans la sรฉquence de mots du texte source. Ce dรฉcoupage permet de diffรฉrencier les mots-clรฉs pouvant รชtre extraits du document (mots-clรฉs prรฉsents) de ceux devant รชtre gรฉnรฉrรฉs (mots-clรฉs absents). Cette diffรฉrenciation est gรฉnรฉralement utilisรฉe pour filtrer la rรฉfรฉrence et pour รฉvaluer une mรฉthode sur sa seule capacitรฉ ร  extraire ou ร  gรฉnรฉrer des mots-clรฉs. Les mรฉthodes extractives ont historiquement รฉtรฉ รฉvaluรฉes ร  lโ€™aide de la rรฉfรฉrence entiรจre. Aujourdโ€™hui il est commun dโ€™รฉvaluer sรฉparรฉment les mots-clรฉs prรฉsents et les mots-clรฉs absents (Meng et al., 2017; Sun et al., 2019).

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

1 Introduction
2 Concepts et mรฉthodes de base
2.1 Indexation de documents scientifiques
2.1.1 Indexation manuelle
2.1.2 Indexation automatique par mots-clรฉs
2.2 Dรฉfinition et caractรฉristiques des mots-clรฉs
2.2.1 Nature linguistique des mots-clรฉs
2.2.2 Mots-clรฉs prรฉsents et mots-clรฉs absents
2.3 Mรฉthodes en chaรฎne de traitement
2.3.1 Identification des mots-clรฉs candidats
2.3.2 Pondรฉration des mots-clรฉs candidats
2.3.3 Sรฉlection du sous-ensemble de mots-clรฉs
2.4 Conclusion
3 Production de mots-clรฉs de bout-en-bout
3.1 Principes fondamentaux des rรฉseaux de neurones
3.1.1 Rรฉseaux de neurones
3.1.2 Encodage de sรฉquences (encodeur)
3.1.3 Gรฉnรฉration de sรฉquences (dรฉcodeur)
3.1.4 Paradigme encodeur-dรฉcodeur
3.2 Mรฉthodes de bout-en-bout
3.2.1 Gรฉnรฉration de mots-clรฉs
3.2.2 Gรฉnรฉration de sรฉquences de mots-clรฉs
3.2.3 Extraction de mots-clรฉs
3.3 Conclusion
4 Cadre expรฉrimental
4.1 Jeux de donnรฉes
4.1.1 Jeux de donnรฉes composรฉs de notices scientifiques
4.1.2 Jeux de donnรฉes composรฉs dโ€™articles scientifiques
4.1.3 Jeux de donnรฉes composรฉs dโ€™articles journalistiques
4.1.4 Autres jeux de donnรฉes
4.1.5 Discussion
4.2 ร‰valuation
4.2.1 Appariement
4.2.2 Mรฉtriques
4.2.3 Expansion de rรฉfรฉrence
4.3 Conclusion
5 KPTimes : des mots-clรฉs รฉditeurs pour la gรฉnรฉration de mots-clรฉs
5.1 Constitution du jeu de donnรฉes
5.1.1 Sรฉlection des sources de donnรฉes
5.1.2 Collecte des donnรฉes
5.1.3 Filtrage des documents collectรฉs
5.1.4 Description statistique
5.2 Performances du jeu de donnรฉes
5.2.1 Comparaison aux jeux de donnรฉes journalistiques
5.2.2 Gรฉnรฉralisation des mรฉthodes neuronales
5.3 Conclusion
6 ร‰valuation ร  large couverture
6.1 Cadre expรฉrimental
6.1.1 Jeux de donnรฉes
6.1.2 Mรฉthodes
6.1.3 Paramรจtres expรฉrimentaux
6.1.4 Mรฉtriques dโ€™รฉvaluation
6.1.5 Reproductibilitรฉ des rรฉsultats
6.2 Rรฉsultats de lโ€™รฉvaluation
6.2.1 Rรฉsultats gรฉnรฉraux
6.2.2 Impact des mots-clรฉs non-experts
6.2.3 Courbe dโ€™apprentissage
6.2.4 Choix du cadre expรฉrimental pour lโ€™รฉvaluation
6.3 Conclusion
7 Conclusion

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *