ETAT DE LA QUESTION DE LA RECHERCHE SUR INTERNET : DES PISTES POUR FAVORISER L’ACCES A L’INFORMATION
La recherche d’informations ne date certes pas d’aujourd’hui. On trouvera un exemple intéressant sur les pratiques de Voltaire (1694-1778) en la matière dans un article de Jean-François Cerisier (voir bibliographie), où, à travers le travail d’une étudiante de maîtrise de sciences de l’information, on découvre que l’écrivain, maîtrisant les outils d’accès à l’information et aux documents (tels que répertoires, catalogues, etc.), avait une démarche d’appropriation de l’information et un réseau d ‘« informateurs » lui permettant de compléter ses connaissances.
Cette démarche reste toujours valable. Seulement, avec l’arrivée de l’informatique, la quantité d’informations créées, stockées et pouvant être interrogées, a connu une croissance énorme, et les outils d’accès à l’information ont dû tenir compte de cette masse. Cependant tant que l’on accédait à des catalogues ou des banques de données structurées, on restait dans la rigueur des systèmes documentaires.
Le contenu du document était décrit sous une forme synthétique (la notice) par son auteur ou un spécialiste du traitement de l’information, garantissant ainsi une homogénéité de la présentation des documents à travers l’utilisation de règles particulières (normes) et le choix de mots-clés appropriés. La recherche dans un système informatisé pouvait alors se faire sur certains critères prédéterminés de ces notices, choisis en fonction de leur pertinence (tout comme les fiches de catalogage des catalogues de bibliothèques) permettant d’accéder au document lui-même ou non. En complément il était possible de rechercher sur le texte du document lui même , permettant alors d’enrichir la technique booléenne de recherche sur les notices (ET, OU, SAUF) par des fonctions de recherche sur le texte lui même (opérateurs de proximité, recherches dans un paragraphe, une phrase, …), parfois couplées à des techniques, statistiques et linguistiques essentiellement, permettant de réduire le bruit ou le silence liés à la recherche en texte intégral.
Sur Internet, plus d’accès « normalisé » au document, l’information est censée être disponible directement. Simplement, le volume de documents accessibles en ligne et la vitesse de croissance de ce même volume ont fait qu’il est impossible pour un usager d’accéder à l’ensemble des informations l’intéressant sans l’aide d’outils appropriés à cette recherche.
Outils de recherche
Les outils généraux
Moteurs et annuaires
Il existe à la base deux types d’outils fonctionnant soit en interrogation directe sur le contenu du document, soit en interrogation par mots-clés. Il y a donc deux types d’approche :
-la collecte automatique suivie de l’indexation également automatique de ressources à l’aide de robots de recherche (« crawler » ou « spider ») : ce sont les moteurs de recherche.
-la constitution de répertoires organisés avec une validation, une classification humaine des ressources et une indexation automatique sur des zones particulières : ce sont les annuaires ou répertoires.
Dans le premier cas, l’usager pose une requête sous forme d’une liste de mots séparés par des opérateurs implicites ou choisis et le moteur cherche en texte intégral sur le contenu des pages HTML (HTML ou HyperText Markup Language est le langage de description des pages web, qui permet de structurer leur présentation et d’en décrire un minimum le contenu). Dans le second cas, l’usager peut poser une requête sur un index limité qui interrogera en fait sur les descriptions des sites et les titres de catégories, il peut aussi naviguer dans l’arborescence de la classification.
Les annuaires signalent les sites dans leur ensemble (en pointant vers leur page d’accueil), alors que les moteurs traitent indistinctement toutes les pages qu’ils rencontrent, même si elles proviennent du même site.
Quelques précisions
Les robots
Les services comme Alta Vista ou Excite se décomposent en 3 modules majeurs : le module de collecte automatique des ressources (c’est un logiciel qui passe son temps à demander des copies de pages html), le module d’indexation (au sens constitution de fichiers inverses), le module de recherche d’information gérant aussi l’interface avec l’usager. Choix des sites explorés : cette stratégie est variable mais très souvent on utilise les pages » What’s new « , des classements de sites très demandés, les déclarations spontanées des auteurs mais également une exploration aléatoire en privilégiant les URL courts.
Contenus indexés : très variable. On peut indexer les pages entières (ex : Altavista), les titres html, les premiers paragraphes et les liens (ex : Lycos).
L’exploration des liens en profondeur et en largeur peut varier également.
Cette indexation est associée à une pondération des mots qui tient compte à la fois de critères de fréquence mais aussi de l’encodage HTML, ainsi les mots des titres (balise ou tag title en langage HTML) reçoivent des poids plus importants.
Il faut aussi souligner l’utilisation des métadonnées d’indexation (dans les balises HTML) fournis directement par l’utilisateur sous forme d’une liste de mots-clé et d’un résumé. Certains robots vont utiliser ces données pour indexer et surtout pour afficher le descriptif du site. Cette indexation laissée à l’auteur n’est absolument pas normalisée et peut subir des dérives facilement identifiables (du genre répéter x fois le même mot clé pour donner un poids très fort à la ressource en fonction de ce mot clé). Certains robots vérifient un minimum ce type de dérive.
La production et l’analyse de ces champs métadonnées ne sont cependant pas généralisées.
Utilisation : pour utiliser les robots, il faut connaître la syntaxe du langage d’interrogation. Un guide en ligne est toujours disponible. Les interfaces présentent généralement 2 modes d’interactions:
*un mode simple visant l’utilisateur final : on donne une liste de mots et le système retrouve des documents répondant « au mieux » à cette liste selon des algorithmes peu explicités mais qui tiennent compte de la localisation, de la proximité et de l’occurrence des termes. La troncature à droite est souvent implicite.
*un mode « avancé » où l’utilisateur peut utiliser des opérateurs différenciés entre les termes de sa question et éventuellement orienter la pondération des documents retrouvés.
L’utilisateur doit se rappeler quelques règles de base qui tendent à se généraliser utilisation des guillemets (« ) pour spécifier une expression utilisation d’opérateurs de présence (+) ou l’exclusion (-) absolue de termes tester la sensibilité ou non aux caractères accentués et à la casse majuscule/minuscule des caractères.
Avantages pour l’usager : compte tenu de l’automatisation du processus, les robots sont les outils ayant la couverture la plus exhaustive de l’espace public Internet, la mise à jour est rapide. L’interaction est simplifiée. Mais les réponses sont hétérogènes, les doublons ne sont pas détectés, le bruit peut être considérable.
Le catalogage des ressources
Les professionnels de l’information, les chercheurs apprécient sûrement l’évolution de tous ces outils ; néanmoins, l’utilisateur non averti ne sait pas obligatoirement les utiliser et obtient des résultats souvent insatisfaisants, dûs à plusieurs raisons :
-beaucoup de « bruit », généré par une indexation informatique en texte intégral sur du texte non structuré sémantiquement. En effet, les données présentes sur le réseau sont décrites à l’aide d’un langage très simple, le langage HTML, qui précise la structure et la mise en forme de l’écrit et permet d’inclure des éléments extérieurs (images, sons, vidéos…), et ce à l’aide de balises ou tags nommés title, link, url… Cependant, ce langage ne rend pas compte de la structure du texte lui-même ni de son « intelligence », et mélange les descriptions des structures logiques et de simples éléments de mise en page. On a vu que, néanmoins, les outils de recherche cherchent à limiter le bruit à travers des algorithmes de pondération en présentant d’abord à l’usager les ressources où les termes de sa question apparaissent fréquemment et dans des zones telles que les champs title HTML.
-l’instabilité des ressources : les adresses changent sans que les index des outils soient mis à jour en conséquence.
-le manque d’identification des ressources : pas de date de création, pas de nom d’auteurs, pas d’information générique sur le contenu… Lors du référencement de son site, le concepteur peut soumettre un résumé auprès des annuaires, mais ce ne sont en général que quelques lignes succinctes, et qui n’apparaissent pas toujours en entier lorsque l’adresse du site apparaît.
-l’hétérogénéité des ressources trouvées : l’élément de base est un fichier
HTML et l’utilisateur n’a aucun moyen de spécifier qu’il ne s’intéresse qu’à un certain type d’objet, par exemple uniquement à des cours ou à des articles.
Pour pallier à ces types de problèmes, plusieurs solutions ont été envisagées :
-comme on l’a vu, certains robots proposent des algorithmes statistiques de regroupement des ressources pour fournir à l’utilisateur une certaine lecture des réponses : on présente des agrégats de ressources partageant de nombreux termes et l’utilisateur peut reformuler sa question en sélectionnant ou en éliminant des termes proposés dans ces agrégats. Alta Vista propose ce type de fonctionnalité automatique appelée » Live Topics « . Ceci ne résout qu’en partie le problème du bruit et n’apporte pas de solutions aux autres points soulignés précédemment. La fonction est cependant appréciable comme aide à l’exploration d’une thématique, elle ne nécessite pas d’intervention humaine.
-une autre approche est l’élaboration par un être humain de descriptions des ressources qui sont appelées des metadata. Ces metadata sont plus complètes que les tags que nous avons évoqués pour l’indexation effectuée par les robots et plus détaillées que les commentaires des administrateurs des répertoires. On rejoint la fonction classique de catalogage effectuée par les bibliothèques.
Les metadata ou métadonnées sont des données structurées sur les données, qui vont aider à l’identification, à la description et à la localisation des ressources sur le réseau. Elles sont véhiculées par un langage de description de pages web qui est en train d’évoluer : le HTML , qui était luimême une version « simplifiée » du SGML (Standard Generalized Markup Language), commence à être remplacé par le XML (eXtended Markup
Language), avec à ses côtés le XHTML, normalisé fin janvier 2000 par le W3C (World Wide Web Consortium : regroupement de compagnies qui préside au développement du World Wide Web), couplant la puissance du XML et la simplicité du HTML, et permettant de conserver une compatibilité entre la production éditoriale existant sous HTML et celle qui naît sous XML.
Un cadre, reposant sur une structure XML, va recevoir les métadonnées des documents : c’est le RDF (Resource Description Framework) : le RDF est un ensemble de conventions qui supportera l’interopérabilité entre des applications qui échangeront des métadonnées. La syntaxe sera exprimée en langage XML mais la sémantique sera définie par les besoins des usagers. C’est un cadre : il peut donc recevoir toutes sortes de métadonnées (même celles à venir !) et même emboîter plusieurs standards de métadonnées.
Les microstructures : clôture de l’espace
On observe également de nombreuses initiatives pour délimiter l’espace à un sous-ensemble de ressources utiles à une discipline, à une communauté d’usagers partageant les mêmes centres d’intérêt. Chaque micro-structure construit ses clés d’accès correspondant aux demandes des utilisateurs et aux ressources disponibles.
Par exemple, dans le domaine des ressources éducatives, différents acteurs ont initié des recensements spécialisés de ressources utiles à l’enseignant et à l’élève, l’objectif majeur étant d’accroître l’efficacité et la richesse des recherches de l’utilisateur dans ce domaine. Très souvent, les ressources ont été évaluées et organisées par discipline et/ou par niveau de classe. Ces répertoires constituent des filtres permettant de guider au mieux l’utilisateur intéressé par ce type de ressources. Par exemple : Cyberscol : c’est un projet visant à favoriser l’exploitation des ressources éducatives d’Internet et le développement de ressources francophones. Le projet est d’origine québécoise et implique différents partenaires éducatifs. Le répertoire propose à la fois des sélections de sites et des scénarios pédagogiques utilisant ces ressources.
CNDP, CRDP : sur les sites web de ces organismes, on trouve déjà certains documents pédagogiques utilisables par les enseignants. Un projet national a permis de mettre en place une base de données appelée Educasource, pilotée au départ par la Direction de l’information scientifique, des technologies nouvelles et des bibliothèques et le CNDP. Cette base est le produit d’une collecte nationale des supports pédagogiques disponibles, l’objectif est de fournir aux enseignants une aide pour leurs recherches d’informations, leurs préparations de cours, l’animation des cours et les échanges d’expériences. Un vaste projet américain dans ce domaine est le programme K-12 fédérant un ensemble de sites américains fournissant des ressources éducatives.
On retrouve aussi le concept de « portail », cette fois non plus sur des sites généraux comme ceux des outils de recherche, mais sur des sites déjà spécialisés, qui vont rassembler toute l’information concernant un domaine particulier.
Ainsi Educlic, « portail des professionnels de l’éducation » (accessible à l’URL http://educiic.education.fr ou à partir du site du CNDP (http://www.cndp.fr). mis en place le 30 juin de cette année par le CNDP à la demande du ministère de l’éducation nationale, dont l’objectif principal est de valoriser la production éducative des acteurs publics ou associatifs sur le Web français, qui couvre plus de 200 serveurs éducatifs, et permet de faire une recherche par thèmes, ou directe par mot ou expression dans l’ensemble des documents hébergés par ces mêmes serveurs; il va également donner accès à des informations utiles aux enseignants (liste des vidéos exemptes de droits pour pouvoir être utilisées en classe, par exemple).
Filtrage d’informations et info-agents
Face à la quantité, à la diversité et au renouvellement continuel des informations disponibles sur Internet, le marché des services d’information personnalisée se développe également dans différents domaines, correspondant à un repérage automatique. Le principe est de filtrer les informations selon un profil personnalisé et de diffuser régulièrement et automatiquement les nouvelles informations collectées à l’utilisateur (DSI diffusion sélective de l’information). Le filtre va être réalisé par un agent, c’est à dire un logiciel qui agit pour accomplir des tâches fixées par son utilisateur.
Un agent va en fait être caractérisé par :
-son architecture technique son domaine d’application (courrier électronique, news, dépêches, …)-son » intelligence « (pour la définition du profil : mots fournis par l’utilisateur ou fonction d’auto-apprentissage, pour la stratégie de recherche : choix explicite des outils par l’usager ou auto-sélection).
Il existe encore très peu d’agents intelligents, c’est à dire capable de prendre des décisions pour l’usager avec des fonctions d’auto-apprentissage. On trouve, par contre, de nombreux programmes paramétrés par l’usager et effectuant ce travail de filtres dans des domaines variés : filtrage des pages web en fonction d’un profil, filtrage d’articles de revues et magazines (comme les services d’alerte des éditeurs scientifiques), filtrage des dépêches de presse, mais aussi fonction de DSI dans certains logiciels de gestion de bibliothèques ou de centres de documentation, grâce à laquelle le lecteur de la bibliothèque ou l’usager (interne ou externe) du centre peut être mis au courant de ce qui existe dans le domaine qui l’intéresse et informé régulièrement des nouveaux documents correspondants.
Concernant le domaine éducatif, un filtrage important concerne la nonvisualisation de sites problématiques : pornographie, violence, racisme…
Rien ne garantit aujourd’hui qu’un élève utilisant un robot de recherche par exemple, ne puisse visualiser ce type de ressources. Des logiciels particuliers ont été développés pour permettre de bloquer certaines requêtes ou empêcher la visualisation de certains sites.
Des mesures internationales sont en cours de développement comme celles définies par le groupe PICS (voir plus haut) créé à l’initiative du W3C.
L’objectif est de développer des moyens de contrôle sur le contenu en vue de sélectionner notamment les ressources accessibles par des enfants.
Le principe repose sur l’établissement d’un » label » mesurant en particulier les niveaux de violence, nudité, sexe et correction de langage, qui serait codé dans les ressources. Les visualiseurs seraient capables d’interpréter ce label et de filtrer les ressources à la demande (notamment celle des parents et des enseignants). Plusieurs labels pourraient être associés à une ressource car en fait plusieurs acteurs pourraient attribuer ces labels : le fournisseur de la ressource mais aussi des services extérieurs ayant un rôle d’évaluation des sites.
Le référencement de sites
Au vu de tout ce qui précède, on peut comprendre le gros souci du mainteneur de site (« webmaster ») qui se trouve face à des outils de recherche qui ont chacun leur mode de fonctionnement, et une catégorie d’internautes (le public visé par son site) qui aura son mode d’interrogation, selon ses connaissances dans la façon d’interroger les outils de recherche et ses centres d’intérêt dans le domaine concerné. Comment signaler son site et comment optimiser ce signalement ?
Il existe heureusement des aides apportant des réponses à ces questions (voir bibliographie (1) et (2), et surtout le site d’O. Andrieu http://www.abondance.com, qui est une source d’informations très intéressante sur les outils de recherche, leur fonctionnement, le référencement, etc., qui présente des listes de questions (avec leurs réponses) à propos du positionnement et de la promotion de sites et des outils d’analyse de sites ; on y propose même un audit des pages du site proposé par le visiteur (http://www.abondance.com/audit/code.htmI). Il existe aussi des grilles d’évaluation de sites proposées aux lecteurs de sites mais qui peuvent tout à fait servir au créateur de pages web, par exemple celui de l’INSA : http://csidoc.insa-lvon.fr/sapristi/fristi36.htmn.
Le mainteneur doit donc penser à remplir avec les mots appropriés les « champs » de la page HTML qui seront « visités » par les moteurs de recherche (« title », «description», « keywords »…), en les choisissant judicieusement : vocabulaire utilisé bien sûr, mais aussi singulier et/ou pluriel, voyelles accentuées ou non, majuscules, …Il devra faire un résumé de présentation de son site (surtout pour les annuaires), penser à établir des liens vers des sites connus et très visités (les moteurs indexent d’abord les sites les plus visités, s’il existe un lien, le robot l’utilisera pour arriver à la page qui a fait ce lien).
Lorsque les pages sont créées, le mainteneur va les inscrire et donc les référencer dans les moteurs et annuaires les plus connus en suivant la procédure indiquée sur chacun d’entre eux (pour connaître le classement des outils de recherche, là encore, le site d’O. Andrieu donne des tableaux de statistiques actualisés régulièrement : fréquentation, mais aussi pertinence des résultats obtenus (http://www. abondance, com/outils/barometres. htm I).
Lancement des recherches, évaluation des résultats
Pour la lecture des réponses, je suis allée souvent très loin dans celle du nombre de pages proposées (souvent même jusqu’à la fin) pour savoir si le site apparaissait, tout en sachant que nombre d’utilisateurs n’auraient pas cette démarche puisque la plupart ne lisent que les premières pages de résultats (voir page 20 à propos du comportement des utilisateurs), parfois la dernière en plus.
Le seul mot « crdp », qui est celui sous lequel on s’attend certainement à voir apparaître le site du Nord Pas-de-Calais, montre beaucoup de manques, de nombreuses redirections d’anciennes adresses en plus récentes, sans toujours tomber sur la plus actuelle. Il faut savoir que peu de ces outils proposent au « référenceur » d’un site web de faire l’annulation, ou simplement la modification d’une adresse antérieure ; ce qui oblige à faire un nouveau référencement, en laissant de côté ces corrections. Situation toujours délicate car rien ne dit qu’un usager tombant sur une première adresse « à renvoi » ira jusqu’à la troisième, comme c’est le cas ici. Globalement, l’ensemble des mots choisis fait apparaître des réponses pertinentes, et les sites de centres de documentation pédagogique sont inclus (CNDP, CRDP et CDDP) ; néanmoins, sur une recherche plus précise (les logiciels), les centres n’apparaissent presque plus, on voit en revanche s’afficher beaucoup de sites d’éditeurs (les centres le sont pourtant aussi) et des sites académiques, sur lesquels des enseignants présentent des produits pédagogiques et des fiches-ressources aidant à la préparation des cours.
Sur les annuaires, tels Yahoo ou Nomade, le site apparaît dans une liste alphabétique, dans une catégorie dans laquelle il a été rangé (les catégories sont proposées au référenceur du site, au nombre de deux maximum): en fonction de la catégorie dans laquelle il se trouve, il apparaîtra donc ou non selon la recherche.
|
Table des matières
I. LE STAGE, BESOINS, RAISONS, OBJET
I.1 Le lieu
1.1.1 L’institution, ses missions, son public
1.1.2 Le service concerné, ses missions spécifiques
I.2 Le moment et la demande
II. ETAT DE LA QUESTION DU REFERENCEMENT : DES PISTES POUR FAVORISER L’ACCES
A L’INFORMATION
II.1 Outils de recherche
11.1.1 Les outils généraux
Moteurs et annuaires
Evolutions de ces outils
11.1.2 Le catalogage des ressources
11.1.3 L’identification des ressources
11.1.4 Les microstructures
11.1.5 Le filtrage d’informations
11.2 La recherche par l’utilisateur
11.2.1 Utilisation de mots-clés
11.2.2 La norme Z 39.50
11.3 Le référencement des sites
III. APPLICATIONS DE CES RECHERCHES AU SITE
111.1 Mise en place d’une recherche-type
111.2 Lancement des recherches, évaluation des résultats
111.3 Propositions de modifications
111.4 Mise à jour du référencement et résultats
IV. CONCLUSION
BIBLIOGRAPHIE
ANNEXES
Télécharger le rapport complet