Didactisation de l’indexation automatique à travers les moteurs de recherche

Au sein de la culture numérique, les moteurs de recherche et les algorithmes, ont beaucoup évolué depuis leur création au début des années 1990. Aujourd’hui des algorithmes tentant de mimer le cerveau humain y sont intégrés afin de faciliter aux internautes l’accès à l’information. Le Web sémantique a même pour objectif de donner une réponse à une requête et non une liste de résultats. Au cœur des moteurs de recherche, l’indexation automatique permet d’analyser le contenu des documents disponibles sur le Web afin que les moteurs d’indexation puissent retrouver l’information la plus pertinente par rapport à la recherche effectuée par les utilisateurs. L’indexation automatique a une origine beaucoup plus ancienne que les moteurs de recherche. Elle a été inventée à la fin des années 1950 par un chercheur en informatique, Hans Peter Luhn, pour permettre à un ordinateur de reconnaître une chaîne de caractères dans un texte (El Hachani, 1997). Historiquement et conceptuellement, c’est en partie grâce à l’invention de l’indexation automatique que les sciences informatiques et les sciences de l’information se sont rejointes (Timimi & Kovacs, 2006). Dans les années 1970, les premières utilisations de l’indexation automatique étaient à des fins documentaires, pour retrouver un document dans une base de données. A partir du moment où les moteurs de recherche se sont emparés de cette technologie, elle n’a cessé d’être améliorée au point, elle aussi, d’avoir recours à l’apprentissage ordinateur (machine learning).

A la fin des années 1990, le moteur de recherche Google est créé avec son algorithme principal (PageRank) basé sur la popularité. À cette époque les écoles sont progressivement entrées dans la culture numérique en étant dotées d’ordinateurs connectés à Internet (Rousseau, 2015). À la fin des années 2000, les professeur.e.s documentalistes commencent à étudier le fonctionnement des moteurs de recherche avec les élèves, dont le processus d’indexation automatique. La notion de moteur de recherche devient une entrée dans l’enseignement de l’information documentation (et principalement celui de Google ; Rabat, 2008 ; Sogliuzzo, 2013). Cet enseignement est mis en avant car les pratiques adolescentes, et adultes, montraient, et montrent encore, qu’à plus de 90%, les recherches informationnelles s’effectuent via ce moteur de recherche (Duffez, 2020). C’est en 2013 que la notion de « moteur de recherche » entre dans le Wikinotions (voir historique : Reynaud, 2020). L’indexation automatique est alors enseignée principalement à travers l’étude de la page de résultats (Sogliuzzo, 2013). Depuis plusieurs années maintenant, nous voyons apparaître sur la page de résultats des encarts informationnels, o u infoboxes, avec souvent, des références aux pages de l’encyclopédie en ligne Wikipédia, ou bien des cartes géographiques ou bien encore, plus récemment, des définitions. Leur relative hégémonie en haut de la page de résultats montre que les procédés d’indexation des pages Web se sont perfectionnés depuis la reconnaissance de caractères. Nous nous interrogeons sur l’impact, pour le développement de la culture de l’information-documentation des élèves, de l’enseignement de l’indexation automatique à travers les infoboxes.

Approche épistémologique et didactique de l’indexation automatique

De l’indexation automatique au Web sémantique : changement de cadre conceptuel pour les moteurs de recherche 

Définitions et fonctionnement d’un moteur de recherche

Dans son mémoire de master 2 en 2015, le professeur documentaliste Julien Rousseau s’est penché sur la question des définitions d’un moteur de recherche (Rousseau, 2015). Celle qu’il a retenue est issue des travaux de Mesguich et Thomas en 2010 : « un moteur de recherche est un outil destiné à collecter et indexer un grand nombre de pages dans l’objectif de permettre, via les interfaces web, une interrogation par mots-clés sur le contenu de ces pages ». J. Rousseau, même s’il avait retenu cette définition, déplorait qu’elle ne prenne pas en compte la notion de classement. La définition de Brigitte Simmonot, professeure au Centre de recherche sur les médiations (CREM), en 2012, aborde cette notion en intégrant toutes les caractéristiques d’un moteur de recherche : « un moteur de recherche web est une application qui collecte automatiquement les publications en ligne, les indexe de manière automatique et, via une interface souvent simplifiée, met en œuvre des algorithmes d’appariement et de classement des résultats en fonction des requêtes des internautes » (Simmonot, 2012).

Ces définitions étant antérieures au Web de données et au Web sémantique, il faudrait ajouter, dans les fonctionnalités d’un moteur de recherche, la capacité à agréger des contenus de pages web, qui se surajoute à l’indexation automatique (Krichen et al., 2012).

La compréhension du fonctionnement des moteurs de recherche a été facilitée par la mise à disposition d’algorithmes rendus publics, ainsi qu’à partir de l’histoire du Web. Aujourd’hui, seuls les logiciels libres donnent accès à leurs algorithmes, comme le moteur de recherche Qwant par exemple. Parfois, les brevets déposés par les compagnies opératrices permettent d’en savoir plus, mais sans ces algorithmes, la seule façon de déterminer leur fonctionnement est de remonter le fil à partir de la page de résultats à travers des expérimentations réalisées par des individus (Simmonot, 2012). Cependant, Dominique Cardon, professeur de sociologie à Sciences Po Paris, considère, que même si nous avions la possibilité d’avoir accès au contenu précis des algorithmes, cela ne permettrait pas de connaître l’étendue des conséquences de leur fonctionnement (Cardon, 2019). Même si le fonctionnement des moteurs de recherche a beaucoup évolué depuis leur création, une constante de quatre étapes subsiste à partir de la requête : la collecte des données, l’indexation des documents, l’appariement et le classement des résultats, et enfin la page de résultats (ou interface de consultation) (Simmonot, 2012).

• La collecte des données repose sur un protocole principal, le http (hypertext transfer protocol). Il permet d’interroger un ou plusieurs serveur.s sur le.s.quel.s une copie du document est stockée (Simmonot, 2012). Une fois le.les serveur.s interrogé.s, un robot de collecte (nommé spider ou crawler) va explorer des milliards de pages Web à partir d’un ensemble d’adresses URL qui renvoient à d’autres pages au travers des liens hypertextes (Rousseau, 2015 ; Simmonot, 2012).
• Selon Brigitte Simmonot (2012), « l’indexation des documents est le processus qui consiste à caractériser les documents pour permettre de les retrouver, en représentant leurs notions caractéristiques par des termes ou des indices. » Bien que manuelle au début du fonctionnement du Web, cette indexation est rapidement devenue automatique. Aujourd’hui, deux méthodes complémentaires permettent d’indexer les documents : l’indexation en texte brut, basée sur la reconnaissance de la chaine de caractères, et l’indexation structurée à l’aide de métadonnées (Delestre & Malandain, 2017). L’exhaustivité de la méthode en texte brut permet d’accéder à une grande partie du contenu du document, tandis que l’utilisation des métadonnées permet de gagner en précision (Delestre & Malandain, 2017).
• L’appariement et le classement des résultats pour une requête constituent le cœur du moteur de recherche (Simmonot, 2012), non seulement au niveau de la précision par rapport à la requête des utilisateurs, mais aussi au niveau économique. En effet, lorsque le moteur de recherche produit une liste de résultats, « à partir de la consultation de l’index d’une base de données constituée par exploration successive du Web » (Mesguich & Thomas, 2010), deux catégories de résultats apparaissent : « les résultats éditoriaux ou résultats « naturels » et les liens commerciaux » (Simmonot, 2015).
• L’interface de consultation contient à la fois la zone de requête et la page de résultats. Cela correspond à la « partie émergée de l’iceberg » d’un moteur de recherche comme le décrit Brigitte Simmonot en 2012. En fonction de son besoin d’information, l’usager va formuler une requête dans la barre d’interrogation du moteur de recherche (Rousseau, 2015). Les opérateurs booléens (ET – OU – SAUF), issus des premiers systèmes de recherche d’information dans les années 1970 sont encore utilisés de façon implicite dans la barre de recherche. Mais aujourd’hui, au moment même où l’usager formule sa requête, des suggestions lui sont proposées en fonction de la fréquence des associations de mots-clés, mais aussi en fonction des traces laissées par l’internaute ou sur la popularité des termes, expression et requêtes des autres internautes. Le moteur de recherche ne se contente plus de chercher une adéquation de chaînes de caractères entre une requête et des milliards de pages web, il « cherche », de surcroit, à devancer le besoin d’information de l’usager. L’ergonomie de la page de résultats a également beaucoup changé depuis les années 1990 et reflète les évolutions des algorithmes liés à l’appariement et au classement des résultats. Elle est différente pour chaque moteur de recherche et reflète « l’état d’esprit » dans lequel les concepteurs du moteur de recherche souhaitent faire apparaître les résultats. Encore une fois, la présentation antérieure avec Titre, URL, « snippet » (assemblage de fragments de texte) existe toujours, mais elle est souvent sous ou à côté d’une « infobox » , ou bien d’une barre d’agrégation de données de type images, vidéos, cartes, etc. (Krichen et al., 2012).

Comme nous le verrons dans la partie consacrée à l’histoire des moteurs de recherche, ces derniers ont évolué de façon synchrone avec les nouvelles fonctionnalités du Web, et les évolutions du Web de documents au Web de données vers un Web sémantique (Delestre & Malandain, 2017). Chacune des étapes est contrôlée par un ou plusieurs algorithmes qui reprennent les schémas anciens et en ajoutent de nouveaux. Cependant le fonctionnement de ces algorithmes n’est pas parfait et constitue le reflet de la vision du monde de leurs concepteurs. Même si aujourd’hui, l’utilisation du « machine learning », (l’apprentissage machine) et du « deep learning », (l’apprentissage profond, qui se rapproche du cerveau humain) permet une automatisation de plus en plus avancée et prédictive des procédures des algorithmes des moteurs de recherche, il n’en demeure pas moins que l’un des biais majeurs observé dans la pratique des internautes, et notamment des élèves, est d’attendre une réponse précise à une question, et non des informations à synthétiser soi-même. Le principe de synthèse par soi-même des informations plutôt que de se contenter d’une unique réponse serait pourtant meilleur pour les apprentissages. C’est ce que l’on appelle l’engagement actif en neuropédagogie (Dehaene, 2018).

Histoire du développement des moteurs de recherche

Le développement des moteurs de recherches est intimement lié à l’avènement du Word Wide Web en 1990 de Tim Berners-Lee (Simmonot, 2012). En effet, le Web, qui est une partie d’Internet regroupant tous les sites du réseau mondial et reposant sur le principe des liens hypertextes (Rey, 2016b), constitue une masse croissante de documents numériques, pour laquelle se pose rapidement le problème de l’accès à l’information. De cette problématique, naît la nécessité de classer l’information, de l’indexer et d’y donner accès. Comment à partir d’une requête, retrouver une liste des pages web les plus pertinentes possibles ?

Dès les années 1970, la question de la pertinence se pose mais uniquement au niveau du document lui-même. Les logiciels de traitement documentaire de certaines bibliothèques américaines ciblaient les documents les plus pertinents à partir d’une requête (Bellier & Estéoule, 1988). L’indexation des documents était manuelle à cette époque et si le document renvoyé n’était pas suffisamment pertinent, le document n’était pas affiché. La doctrine était alors « du silence plutôt que du bruit ». À l’inverse, avec le premier moteur de recherche sur le Web (Archie en 1990 ; Simmonot, 2012), même si l’indexation était manuelle, la pertinence était élargie à « du bruit, plutôt que du silence » et cela a tout changé, non seulement dans la façon de construire les algorithmes des moteurs de recherche, mais aussi dans l’utilisation de ces moteurs de recherche par les internautes. Depuis le premier moteur de recherche, Archie, créé en 1990 par Alan Emtage, qui proposait un système manuel d’indexation des documents, tous les moteurs de recherches ont cherché à automatiser toutes les étapes de la requête jusqu’au classement de la page de résultats à l’aide de robots de collecte, et ce dès l’apparition du Web en 1991 (Simmonot, 2012). Le système d’annuaire qui sélectionne, valide et classe les sites de façon manuelle comme Yahoo ! connaîtra assez vite ses limites face à l’explosion documentaire du Web (Rousseau, 2015). Cependant, l’évolution des algorithmes des moteurs de recherche se produit par couches successives, à l’image d’un oignon. Ainsi, le premier moteur procédant à une indexation plein texte des pages web, Webcrawler, créé en 1994 par Brian Pinkerton, alors qu’il était étudiant à l’université de Washington, a repris une partie de l’algorithme du moteur de recherche Worm, développé par Olivier McBrayan à l’université du Colorado, qui permettait d’indexer uniquement les titres des pages et les adresses URL (Uniform Resource Locator ; Simmonot, 2012).

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 APPROCHE ÉPISTÉMOLOGIQUE ET DIDACTIQUE DE L’INDEXATION AUTOMATIQUE
1.1 DE L’INDEXATION AUTOMATIQUE AU WEB SÉMANTIQUE : CHANGEMENT DE CADRE CONCEPTUEL POUR LES MOTEURS DE RECHERCHE
1.1.1 DÉFINITIONS ET FONCTIONNEMENT D’UN MOTEUR DE RECHERCHE
1.1.2 HISTOIRE DU DÉVELOPPEMENT DES MOTEURS DE RECHERCHE
1.1.3 EVOLUTION DE L’INDEXATION AUTOMATIQUE DANS LES MOTEURS DE RECHERCHE UNE BRÈVE HISTOIRE D’INDEXATION FONCTIONNEMENT DE L’INDEXATION AUTOMATIQUE DANS UN MOTEUR DE RECHERCHE
1.1.4 ÉVOLUTION DE L’INDEXATION AUTOMATIQUE DANS LE WEB DE DONNÉES ET LE WEB SÉMANTIQUE
WEB DE DONNÉES OU WEB SÉMANTIQUE ? UNE QUESTION DE DÉFINITION
FONCTIONNEMENT DE L’INDEXATION AUTOMATIQUE AU SEIN DU WEB SÉMANTIQUE
LE TRIPLET RDF
LE LANGAGE SPARQL
L’ONTOLOGIE
1.2 UN CAS CONCRET : LES « INFOBOXES ET AUTRES ENCARTS INFORMATIONNELS – ENTRE INDEXATION AUTOMATIQUE, AGRÉGATION D’INFORMATION ET/OU WEB SÉMANTIQUE ?
1.2.1 RÉCENTE HISTOIRE D’INFOBOXES
1.2.2 LA RECHERCHE AGRÉGÉE : UNE « CONDENSATION » DE L’INFORMATION DANS LA PAGE DE RÉSULTATS
1.2.3 LES « ENCARTS DÉFINITIONNELS » : UN NOUVEAU TYPE D’INFOBOX, D’AGRÉGATION DE CONTENU OU AUTRE ?
1.3 LA DIDACTISATION DE L’INDEXATION AUTOMATIQUE : UN ENJEU PÉDAGOGIQUE POUR LES ÉLÈVES ET LES PROFESSEUR.ES DOCUMENTALISTES
1.3.1 DIDACTIQUE ET TRANSPOSITION DIDACTIQUE EN INFORMATION-DOCUMENTATION
1.3.2 LES MÉTHODES PÉDAGOGIQUES ET PROGRESSIONS EN INFORMATION-DOCUMENTATION
LA PÉDAGOGIE EN INFORMATION-DOCUMENTATION
PROGRESSIONS LINÉAIRE ET SPIRALAIRE
1.3.3 L’INDEXATION AUTOMATIQUE DANS LE SECONDAIRE VUE PAR L’INSTITUTION
CYCLE 3 : (CM1-CM2) 6E
CYCLE 4 : 5E – 4E – 3E
LYCÉE : SCIENCE NUMÉRIQUE ET TECHNOLOGIE (SNT) ET SPÉCIALITÉ MANAGEMENT, SCIENCES DE GESTION ET NUMÉRIQUE
COLLÈGE-LYCÉE : CADRE DE RÉFÉRENCE DES COMPÉTENCES NUMÉRIQUES (CRCN)
1.3.4 L’INDEXATION AUTOMATIQUE VUE PAR LES PROFESSEUR.E.S DOCUMENTALISTES
CYCLE 3 : (CM1-CM2) 6E
CYCLE 4 : 5E – 4E – 3E
LYCÉE : SCIENCE NUMÉRIQUE ET TECHNOLOGIE (SNT)
1.3.5 DIDACTISATION DE L’INDEXATION AUTOMATIQUE
DIDACTISER L’INDEXATION AUTOMATIQUE OU L’INDEXATION AUTOMATISÉE ?
DIDACTISER L’INDEXATION AUTOMATIQUE
1.4 CADRE CONCEPTUEL ET HYPOTHÈSES DE RECHERCHE
1.4.1 CADRE CONCEPTUEL DE RECHERCHE
CONCEPTS SCIENTIFIQUES RETENUS
PROBLÉMATISATION ET PROBLÉMATIQUE
1.4.2 HYPOTHÈSE DE RECHERCHE
2 PROJET DE RECHERCHE
2.1 MÉTHODOLOGIE DE COLLECTE DE DONNÉES
2.1.1 ÉCHANTILLONNAGE ET CRITÈRES DE SÉLECTION
2.1.2 PRÉSENTATION DU QUESTIONNAIRE
2.2 MÉTHODOLOGIE DE TRAITEMENT DES DONNÉES
2.2.1 TYPES DE DONNÉES
2.2.2 PRÉSENTATION DES DONNÉES
3 RÉSULTATS ET DISCUSSION
3.1 RÉSULTATS
3.1.1 CADRE GÉNÉRAL DES RÉSULTATS
3.1.2 RÉPONSE AUX HYPOTHÈSES
3.2 DISCUSSION DES RÉSULTATS
3.3 PROPOSITION DE PROGRESSION PÉDAGOGIQUE DE L’ENSEIGNEMENT DE L’INDEXATION
AUTOMATIQUE À PARTIR DES INFOBOXES
3.4 CONCLUSION
3.5 DISCUSSION SUR LES BIAIS DE L’ÉTUDE
3.5.1 POINT DE VUE CRITIQUE
3.5.2 OUVERTURES ET ENJEUX PROFESSIONNELS
3.6 CONCLUSION GÉNÉRAL
CONCLUSION
BIBLIOGRAPHIE
ANNEXES

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *