Tentative d’application d’une norme aux métadonnées

Quel traitement appliquer à l’information en ligne?

Il semble évident que le traitement humain de l’information est préférable. Mais la croissance exponentielle de la masse informationnelle rend impossible ce seul traitement. La quantité à gérer est trop importante et elle ne cesse de croître, en outre la vitesse d’exécution est bien sûr en deçà de celle d’une indexation automatisée. Cependant, le traitement robotisé présente un inconvénient assez important, il n’est pour l’instant pas en mesure de dissocier les différents types d’information, à savoir les sources d’information primaire et les sources d’information secondaire qui se côtoient très fréquemment dans un même site, à 1′ instar des portails, des sites spécialisés qui proposent des résumés, des études comparatives, des liens vers d’autres sites, des références bibliographiques, des documents primaires, . . . Seul l’humain peut traiter et analyser ces différents types d’information, pour enfin les gérer.
Il est néanmoins indispensable de procéder à une indexation « intelligente » des pages du World Wide Web par des robots de moteurs de recherche. Toutefois, cette indexation dite intelligente se fait sur un nivellement de l’information: c’est le principe de neutralité, les moteurs partent du principe que toutes les informations se valent et qu’elle méritent toutes de circuler au même plan. Cette méthode a l’avantage de structurer un minimum le flot d’information, mais il ne fait pas de réels choix cognitifs, pas plus qu’il ne hiérarchise la qualité de l’information ou ne propose plusieurs « chemins » selon des critères de validité solidement éprouvés.
En effet, les robots se basent essentiellement sur les contenus des balises métatags (les motsclés) dont le choix est laissé à la discrétion des webmasters, et qui répondent donc généralement plutôt à une logique commerciale ou qui sont tout au moins sans logique documentaire. Un problème de clarté, de pertinence et d’honnêteté se pose donc.
Internet est arrivé rapidement et s’est très vite développé obligeant de ce fait les informaticiens à créer dans l’urgence des techniques applicables au Web mais qui n’étaient pas du niveau de ce qui se faisait (et se fait encore) dans les autres domaines de la documentation (en particulier la recherche d’informations). Or, aujourd’hui, se positionner de manière visible dans l’Internet oblige le recours à des techniques multimédia mais aussi à des techniques d’ingénierie linguistique. Il semble difficile d’aller de l’avant sans allier les techniques actuelles de recherche sur le Web avec les techniques de documentation en général. Il faut que les travaux dans ces deux domaines respectifs soient menés conjointement pour espérer une progression.

Tentative d’application d’une norme aux métadonnées

Les métadonnées

La situation du Web en général amène à penser qu’il faudrait peut-être aller vers une structure plus marquée au moyen des métadonnées. En effet, les informations circulant sont lisibles par les robots des moteurs de recherche mais ils ne les comprennent pas plus qu’ils ne peuvent les interpréter. Les métadonnées permettent de donner un sens structuré et cognitif à 1′ information. Ce sont elles notamment qui vont permettre aux moteurs de recherche d’indexer les pages Web qui les contiennent.
Mais qu’est-ce qu’une métadonnée? Littéralement, il s’agit d’une donnée sur une donnée. Meta vient du grec et signifie « avec, en parallèle, après ». On peut rapporter une acception plus récente, meta sert alors à exprimer quelque chose hors de nature. Les métadonnées forment un ensemble structuré d’informations servant à décrire une ressource quelconque. Cette dernière ne se trouve pas forcément sous une forme numérique, il peut s’agir par exemple d’un catalogue de bibliothèque sous une forme papier. Les métadonnées se constituent de mots-clés ou de textes libres et elles remplissent différents usages tels que la description, la gestion et la préservation du document auquel elles sont appliquées.
Les liens qui unissent une métadonnée à la ressource qu’elle décrit peuvent être de différentes natures : elle peut être séparée du contenu décrit, comme dans un catalogue de bibliothèque où la fiche descriptive d’un ouvrage est physiquement séparée de celui-ci par exemple, ou être incluse directement dans la ressource, comme c’est le cas pour une donnée numérique où la métadonnée est inscrite directement dans le code.
Cependant, on a assisté au début des années quatre-vingt-dix à une explosion de l’utilisation pas toujours rigoureuse des métadonnées sur Internet. S’ensuivit une surcharge d’information qui a nécessité une tentative pour établir des normes descriptives visant à améliorer la recherche de ressources pertinentes. Ces normes doivent faciliter la recherche d’information par une meilleure description, un meilleur classement des pages par les moteurs de recherche. Elles doivent en outre favoriser l’interopérabilité (c’est-à-dire le partage et l’échange d’informations), faciliter la gestion et l’archivage ainsi que la gestion et la protection des droits d’auteurs et enfin l’authentification des documents.
Les métadonnées sont contenues dans le code par les métabalises. Ces deux termes se confondent souvent dans la littérature, métadonnée étant le plus usité et désignant parfois la métabalise par métonymie. Les métabalises sont incluses dans le code d’un document numérique dans la section En-Tête (ou Head). Elles sont utilisées pour décrire le contenu de la page. Comme il vient d’être dit, les métabalises contiennent les métadonnées et n’ont pas pour vocation d’être visibles par les usagers des sites. Leur fonction essentielle est de permettre à un site d’être retrouvé sur le Web et d’amplifier la pertinence d’une page Web au moyen de descripteurs appropriés. Cependant, seules 21% des pages Web ont des métabalises renseignées de manière correcte.
Un archivage efficace passe par l’utilisation de métadonnées (dont l’ensemble peut être comparé à une fiche de bibliothèque électronique). Si l’on poursuit la comparaison, on s’aperçoit que rédiger une fiche bibliographique réclame l’emploi de formats standards. Il faut donc appliquer cette règle aux métadonnées et essayer de leurs trouver des standards qui leurs sont propres. Cette standardisation est rendue d’autant plus nécessaire que l’indexation sur le Web n’est pas du seul fait de bibliothécaires ou de professionnels mais peut être réalisée par n’importe quel producteur de ressources (que ce soit un concepteur de sites chevronné ou un simple utilisateur de l’Internet qui aurait créé sa page personnelle). Il est évident que tous les créateurs de site n’évoluent pas dans le milieu de la documentation ou ne sont simplement pas familiarisés avec les préceptes qu’il dispense ou encore ne se sentent pas concernés par des enjeux documentaires. C’est pourquoi il paraît clair que la standardisation doit être mise au niveau de l’ensemble des internautes et ne doit pas être compréhensible des seuls professionnels de l’information. Cela peut sembler une tâche ardue à accomplir dans de telles conditions mais la standardisation s’avère nécessaire. Effectivement, si l’on poursuit la comparaison avec les bibliothèques entamée auparavant, on sait qu’un ouvrage mal catalogué est perdu pour l’usager qui ne sera pas en mesure de le retrouver lors d’une recherche même si sa requête est formulée correctement. Il va sans dire qu’un service de prêt entre bibliothèques est hors de propos sans le respect de normes qui permettent à chaque établissement d’avoir les mêmes bases pour un catalogue collectif et raisonné. C’est d’autant plus vrai avec l’Internet où des métadonnées non renseignées ou attribuées sauvagement rendront l’interopérabilité impossible entre différentes collectivités qui ne pourraient s’adapter à toutes les façons d’indexer les documents.
Toutefois, l’élaboration de normes est actuellement confrontée à une prolifération de standards. Plusieurs standards pour les métadonnées voient simultanément le jour mais ont une orientation différente selon le « métier » (c’est-à-dire que chaque domaine a ses propres normes). La difficulté majeure n’est pas tant la prolifération des standards que la non interopérabilité de ceux-ci. Chaque standard a ses propres normes et ne peut être utilisé en dehors du « métier » pour lequel il a été conçu. Il faut donc plutôt chercher à créer une structure et une nomenclature minimales qui seraient applicables à n’importe quel domaine.
Beaucoup d’acteurs (pour la plupart issus des domaines de la documentation et du elearning) se sont penchés sur ce problème: l’Aviation Industry Computer-based training Committee (AICC), le Dublin Core, l’Alliance of Remote Instructional Authoring and Distribution Networks for Europe (ARIADNE), l’Instructional Management Systems (IMS), le Sharable Content Object Reference Mode! (SCORM), l’Institute of Electrical and Electronics Engineers (IEEE), …

L’Initiative de Métadonnées du Dublin Core

Nous allons étudier plus précisément l’Initiative de Métadonnées du Dublin Core (IMDC). Cette initiative s’est faite sous l’impulsion d’un certain nombre d’équipes impliquées dans la sémantique du Web et qui ont organisé un atelier au siège de l’OCLC (Online Computer Library Centre) à Dublin, dans l’Ohio, États-unis, en 1995. Leurs membres appartiennent surtout au NCSA (National Centre for Supercomputing Applications) et à l’OCLC. Une liste précise de 15 métadonnées communes à diverses communautés fut établie . Elle a trait au contenu (Couverture, Description, Sujet, Source, Titre, Type, Relation), à la propriété intellectuelle (Créateur, Collaborateur, Éditeur, Droits) et à l’instanciation (Date, Format, Identifiant, Langue); en Dublin Core, l’instanciation représente «une occurrence spécifique d’une source d’information ».
Par exemple, un livre traduit est l’instanciation en français d’un livre original anglais. Il pourrait également y avoir une instanciation différente si le format change, ce qui modifierait d’autant la notice Dublin Core.
Le Dublin Core ne dit pas comment représenter ces métadonnées dans la pratique, ce qui conduit à l’utilisation de plusieurs représentations. Cependant, deux conventions ont établi la syntaxe du Dublin Core: d’un côté, la syntaxe d’étiquettes HTML Méta (simplement placer les balises dans la zone Head du code) et de l’autre, le Resource Description Framework (RDF) (en français « le cadre de définition des ressources » ). C’est le HTML Méta qui est le plus utilisé jusqu’à présent mais le RDF présente l’avantage d’être une expression du langage XML, plus normatif dans la façon d’écrire les données. La lisibilité des métadonnées par la machine est plus aisée avec le RDF.
Les métadonnées dans le Dublin Core sont appelées « éléments » dont la signification pour certains d’entre eux peut être précisés grâce à des «raffinements». Ceux-ci sont facultatifs et restreignent la signification des éléments sans pour autant la changer fondamentalement. Les métadonnées s’expriment dans un format libre ou se conforment à un format bien défini . Le Dublin Core s’appuie d’ailleurs sur certains formats qui font autorité (pour la date, le format est défini par la norme ISO 8601, pour la langue, le format est défini par la norme ISO RCF1766, pour l’identifiant on peut utiliser l’ISBN par exemple, etc.).
Si l’élaboration du Dublin Core a été effectuée par des professionnels de l’information, ses éléments ont été conçus de la manière la plus restreinte et simple possible afin de laisser aux non spécialistes la possibilité de s’en servir malgré tout. D’autre part, un souci d’objectivité a présidé à sa conception. Des facilités appréciables caractérisent le Dublin Core : sa gestion est assez simple, elle utilise une sémantique communément comprise, il a une envergure internationale, il est extensible et applicable à presque tous les formats de fichiers à condition que ceux-ci possèdent des métadonnées interprétables à la fois par les moteurs de recherche et par les humains . Le Dublin Core favorise en outre l’interopérabilité sémantique et le multilinguisme. La participation de représentants de presque tous les continents au moment de sa création et l’appui du World Wide Web Consortium (W3C) place le Dublin Core en bonne position dans les standards les plus utilisés, il reçoit même les recommandations du groupe JETF, organisme qui fédère les groupes de recherche travaillant sur les technologies et les protocoles de l’Internet. De plus, il est en cours de normalisation par NISO (National Information Standards Organisation) aux États-unis et le Centre for European Standardisation en Europe. Cette technique est utilisée entre autres au sein des normes connexes par Open E-Book Publication Structure 1.0 (application à la publication de livres électroniques).
Le Dublin Core présente quand même des limites. Il ne prétend aucunement répondre aux besoins et à la complexité de tous les« métiers» et de tous les formats et doit d’ailleurs être généralement complété par d’autres schémas de métadonnées. De même, l’utilisation non réglementée du Dublin Core a compromis l’interopérabilité sémantique puisque l’interprétation de la définition des éléments constitutifs de cette normalisation est laissée à l’appréciation des utilisateurs de la norme.
Le Dublin Core constitue une première étape vers le Web sémantique qui est ce vers quoi les professionnels de l’information aimeraient voir le Web actuel évoluer c) Le Web sémantique Aujourd’hui le Web est composé de liens simples et universels mais qui ne sont sémantiquement pas ou peu structurants et structurés. On constate actuellement que les métadonnées sont peu ou mal utilisées. Certes, les moteurs de recherche sont de plus en plus sophistiqués mais ils demeurent imparfaits, d’où la nécessité d’instaurer des liens riches, d’utiliser des métadonnées structurées qui seraient sures et signifiantes. Une première réponse a été apportée avec la conception d’un Web sémantique. Il s’agit d’une vision d’un Web suffisamment structuré pour permettre d’automatiser le traitement des données et de les intégrer et les réutiliser au travers de nombreuses applications . Le Web sémantique permettrait d’intervenir à trois niveaux différents: au niveau des ressources: on veut pouvoir les nommer à 1′ aide de descripteurs universels – on parle des URI (Uniform Resource Identifier, identifiant uniforme de ressource) – et pouvoir les structurer à l’aide de schémas comme le DTD (Document Type Definition) ou encore les Schemas XML ; au niveau des métadonnées : on veut leur fournir un cadre comme le RDF et créer des ontologies destinées à définir les concepts liés à un terme. Les ontologies sont la principale lacune pour rendre le Web sémantique réel et elles se caractérisent par la difficulté de leur conception. Le niveau de la recherche est le dernier niveau, il faut qu’elle soit assurée par des agents intelligents capables de se servir des ontologies. Il serait en outre appréciable de parvenir à instaurer définitivement un système d’authentification des documents par un certificat, une signature, etc. Pour faire face à toutes ces exigences pour accéder au Web sémantique, une série de standards sont actuellement en cours d’élaboration mais les ontologies constituent un obstacle que les chercheurs n’arrivent aujourd’hui pas à surmonter. Il faut bien sûr faire concorder les technologies utilisées pour la recherche avec celles de l’indexation et favoriser l’emploi du RDF (basé sur les métadonnées) ou le Topic Maps (basé sur les réseaux sémantiques).
Cependant, si l’on fait un état des lieux de la façon d’indexer actuelle, force est de constater que la volonté de créer un Web sémantique restera une pure utopie. En effet, les métadonnées qui doivent être renseignées pour permettre l’existence de ce type de Web ne le sont pas ou sont remplies de manière peu fiable. Cela s’explique par le fait que les concepteurs de pages sont en général peu rigoureux, subjectifs même sans le vouloir dans l’attribution des descripteurs ou sont motivés par des objectifs purement commerciaux et vont donc attribuer des métadonnées dans l’unique but de faire de l’audience. Il reste malaisé de décrire objectivement son site, les schémas destinés à normaliser ne sont eux-mêmes jamais neutres, il n’y a pas de consensus général sur les normes à mettre en vigueur universellement et enfin il serait fallacieux de dire que l’on peut tout décrire d’une seule manière.

Les limites à la normalisation

Même si l’on considère que les métabalises sont peu utilisées, leur nombre considérable (quand elles le sont) font que les moteurs de recherche les considèrent avant tout comme des générateurs d’abus (à l’exemple du spamdexing et autres), ce qui tient également à la manière dont les métabalises sont renseignées. Cela conduit malheureusement à une prise en compte de plus en plus minime des métadonnées lors des référencements. Il est donc légitime de s’interroger sur l’avenir des normes qui seraient appliquées sur les métadonnées si les moteurs de recherche n’évoluent pas dans leur façon d’indexer et ne prennent pas plus en compte les métadonnées au détriment des textes intégraux qui sont actuellement leur support de travail. Par conséquent, il faudrait arriver à un consensus : d’un côté les normes doivent inclure de nouvelles méthodes comme créer des ontologies et de l’autre les moteurs doivent élaborer de nouveaux moyens de prendre en compte les balises. Une des solutions idéales serait de créer et d’implanter un langage du type thésaurus. Néanmoins, il semble a priori impossible de créer un tel langage qui conviendrait à l’universalité des acteurs, des sujets du Web. Pour l’instant on est loin de l’embryon même d’une véritable technique d’indexation des pages par les moteurs de recherche puisque ces derniers, pour la plupart, adoptent une indexation de type 0 ou 0+, comme défini par cette citation:« Il s’agit de l’inversion la plus sommaire qui soit : un lexique des mots du document (définis par les blancs et les ponctuations), est constitué en associant à chaque mot les adresses de ces occurrences dans le document. Bien qu’il n’y ait pas ici de traitements linguistiques à proprement parler, le niveau pris en compte de ce point de vue et celui du découpage. Il s’agit d’indexation libre. [ … ]
Quelques variantes sont possibles à partir de ce type, nous les désignerons par « type 0+ » : il s’agit de l’ajout aux listes d’index des mots obtenus par changement de casse et suppression d’accents[ … ], ainsi que par phonétisation des index d’origine. ».
La manière de formuler les requêtes sur les moteurs de recherche est une difficulté à l’imposition d’une normalisation puisque elles sont en général effectuées par des non spécialistes et sont donc exprimées en langage naturel qui ne correspond pas forcément à un langage documentaire. Concrètement, la requête risque d’être incomprise car les termes employés ne correspondraient pas au langage imposé par les ontologies. Une solution serait que les concepteurs de moteurs de recherche conçoivent un « langage-passerelle » qui mènerait le langage naturel vers celui lié aux ontologies.
Enfin, les normes s’appliquent aux métabalises et très peu à leur contenu qui reste soumis à la logique de compétitivité qui régit l’Internet. Il serait donc intéressant d’approfondir l’étude des métadonnées afin de discerner une méthodologie qui permettrait à la fois d’être compétitif et de respecter les enjeux documentaires.

Le choix des mots-clés et les techniques d’indexation

On voit qu’en théorie, il existe de nombreux préceptes pour aider à l’indexation des pages Web. Mais il ne faut pas tomber dans l’excès inverse en manquant d’une certaine souplesse vis-à-vis de ces préceptes et donc en se fermant des portes. Une trop grande rigidité serait défavorable à la venue du public car le site serait alors sans doute moins bien référencé que si on effectue cette opération dans le cadre pratique duquel elle ne devrait pas être dissociée.
Un bon référencement de son site se prépare. Il faut tout d’abord bien définir les critères qui vont influer sur le référencement.

Méthodes pour le choix et l’insertion des mots-clés

Le choix des mots-clés

Il existe plusieurs méthodes pour optimiser le choix des mots-clés qui seront utilisés pour le référencement d’un site.
On constate que beaucoup de développeurs ne se préoccupent de l’optimisation des moteurs de recherche qu’une fois la création du site achevée. Il ne semble pas que ce soit la meilleure approche : il vaut mieux construire un site autour de plusieurs mots-clés et d’un nom de domaine plutôt que d’attribuer ces derniers à un site préexistant. Une attention particulière doit être portée au répertoire et aux fichiers placés au sommet de l’arborescence du site puisqu’ils se verront accorder la pertinence la plus élevée par les moteurs de recherche.
Ceux-ci vont référencer le site grâce au texte et aux mots-clés qui sont contenus dans ces fichiers. On peut donc dire que les mots-clés sont la pierre angulaire du référencement.
L’opération de référencement consiste avant tout à indiquer aux outils de recherche les motsclés sur lesquels le site souhaite être indexé.
La première étape pour attribuer des mots-clés est d’élaborer une liste réfléchie. Celleci est l’aboutissement d’un travail de recoupement de plusieurs listes.
La première liste est élaborée à partir du texte de la page que l’on souhaite indexer, il s’agit de dégager les dix mots qui apparaissent le plus dans le corps du texte. Un mot-clé proposé se verra attribué un meilleur score par les moteurs de recherche s’il est retrouvable dans le texte. Vient ensuite la liste éditeur pour laquelle on demande au professionnel gérant le site de proposer dix mots employés dans le métier et qui correspondent bien sûr au site.
Une liste intuitive viendra en complément, on se met à la place de l’usager et on retient les mots que l’on croit susceptibles d’être utilisés dans ses requêtes. Pour cette liste, il ne faut pas prendre des termes trop génériques et il faut essayer de toujours raisonner en associations.
C’est le moment idéal pour inclure des termes à l’orthographe erronée (mais qui pourrait être fréquemment employée si le terme correctement orthographié est assez rare et difficile à écrire), aux synonymes et aux termes en rapport lointain (ce qui peut s’avérer une tactique dangereuse si le moteur de recherche ne perçoit aucun rapport avec les thèmes du site). Il est toujours intéressant de chercher une source d’inspiration chez les concurrents en choisissant en priorité ceux qui apparaissent en meilleure position aux requêtes formulées avec les motsclés choisis a priori pour son propre site. L’étape suivante consiste à mettre les listes en commun, on enlève les termes trop génériques et on garde de dix à vingt mots. La société Worldtracker propose sur leur site un outil, le Search Term Suggestion Tool, qui permet de tester l’efficacité d’un mot-clé en calculant son Keyword Effectiveness Index (KEI), en français, «indice d’efficacité d’un mot-clé». C’est le rapport entre le nombre de fois où un terme apparaît dans la base de données de Worldtracker et le nombre de pages qui y font référence.
Il est préférable d’associer des mots-clés que de mettre un seul mot-clé, c’est le regroupement par proximité. Cette règle pourra souffrir quelques exceptions si le site se base sur un néologisme, un acronyme, une marque connue. Cette façon de faire résulte d’une tendance actuelle de combiner plusieurs mots pour formuler une requête. Cependant, il ne faut pas tomber dans l’excès inverse et il vaut mieux se limiter à deux ou trois phrases clés afin de conserver une pertinence accrue et des réponses affinées aux requêtes des utilisateurs.
Une fois la liste achevée il convient de tester les mots-clés qu’elle contient à l’aide de requêtes formulées avec eux sur les moteurs de recherche. Le test doit porter sur toutes les combinaisons possibles (en solo, en duo, en groupe). On enregistre le nombre de pages ressorties en résultat pour chaque configuration. Les meilleurs mots-clés sont ceux qui permettent l’affichage d’un nombre moyen de pages. En effet, trop de pages signifie trop de bruits, trop peu de pages, trop de silence. On peut encore affiner le test en recoupant les résultats obtenus par un moteur avec un autre. On appelle cela le « test de résonance ». A la fin, on désigne cinq mots-clés primaires et cinq secondaires. Cela se révèle suffisant puisque les moteurs prennent essentiellement ceux-ci en considération. Les mots restants peuvent être placés de manière complémentaire.

L’insertion des mots-clés

Les moteurs de recherche suivent un ordre bien précis dans leur façon de répertorier les pages Web. Ils se basent avant tout sur la manière dont sont utilisés les mots-clés dans une page. Il existe un ordre de priorité dans le classement des mots-clés dans une page Web par un moteur de recherche: le nom de domaine (ou adresse Internet), la balise <TITLE>, les balises <Hl> à <H6>, le contenu de la page, les métabalises, les liens proposés. L’ordre suivi pour classer les sites est le suivant : la prééminence, la fréquence, la densité, la proximité, l’emplacement, …
Une fois les mots-clés choisis et ordonnés, on commence à les disposer dans le code de la page. Les mots-clés primaires sont placés en priorité dans la balise <Title> à laquelle le moteur donne le plus de poids. Les autres mots-clés sont placés dans la métabalise Keywords (dans le code, elle se note <META NAME = « keywords »CONTENT= « mot-clél, … »>) et enfin dans la métabalise Description (dans le code, elle se note <META NAME == «description» CONTENT= «blabla»>). Il faut faire attention et employer les virgules avec parcimonie. Celles-ci ne s’imposent vraiment que lorsque deux termes désignent des concepts différents. Il faut être vigilant à la lemmatisation. Il se révèle souvent plus efficace de préférer la forme au pluriel à la forme au singulier d’un mot puisque dans la majorité des cas la chaîne de caractères du dernier se retrouve dans le premier uniquement complétée par la désinence du pluriel. Par exemple le terme« chaussure» ressortira systématiquement lors d’une requête même si «chaussures» est indexé mais l’inverse, c’est-à-dire une requête «chaussures» alors que l’indexation a été faite avec «chaussure» ne sera pas donné en résultat car 1′ ordinateur n’aura pas établi de correspondance entre les deux chaînes de caractères. Ce précepte s’applique également pour le féminin. Dans le cas où le mot masculin est contenu dans le féminin, il vaut mieux indexer avec ce dernier pour qu’une requête formulée avec n’importe lequel des deux genres aboutisse à un résultat. Dans le cas où le terme au pluriel ou au féminin est très différent du singulier ou du masculin, il vaut mieux faire coexister les deux termes dans la liste des mots-clés. Cette technique est appelée stemming.
Il existe un avantage indéniable d’inclure dans le code de la page une métabalise Description. Celle-ci ne doit pas excéder 200 caractères (soit environ 25 mots) puisque au delà de cette limite ils n’apparaissent pas sur les écrans de résultat et ils sont de toute façon moins pris en compte par les moteurs. Cependant, cette balise reste très importante car elle permet de faire apparaître un résumé explicatif du site sur l’écran de résultat d’une requête. La métabalise Description ne doit par répéter le titre et être si possible différente pour chaque page d’introduction d’une partie importante du site.
Mais l’insertion de métatags se révèle insuffisante pour obtenir un bon positionnement. Elles sont en effet de moins en moins prises en compte suite à leur utilisation intempestive. C’est pourquoi, une fois les métabalises renseignées, il n’est pas interdit et il même fortement conseillé de compléter l’indexation de son site en plaçant certains mots-clés à des endroits stratégiques de la page. Les mots-clés ne se placent pas de manière aléatoire dans le code d’une page. Il existe certaines règles à connaître pour optimiser l’indexation de son site. Les moteurs de recherche prennent en effet plus en considération certaines zones que d’autres pour indexer les pages. La zone qui a le plus de poids est celle du titre (après le nom de domaine) puisque les moteurs de recherche lui octroient une grande valeur lors de leurs calculs (il est important de préciser que la balise <TITLE> n’est pas une métabalise).Un titre doit être descriptif, fonctionnel et concis (environ cinq mots-clés qui s’associent parfaitement). Cette zone est indexée dans sa totalité par les moteurs de recherche et les annuaires mais seuls 55 à 90 caractères (70 à 80 en moyenne) sont affichés dans les résultats de requêtes.
Le classement des pages Web dans l’ordre alphabétique et en particulier les titres de ces pages peuvent être influencées par la valeur ASCII des caractères . En effet, seuls les moteurs de recherche francophones prennent l’accentuation des caractères en compte (ces lettres accentuées sont alors ramenées à leur valeur sans accent). Il existe donc un risque de voir un mot-clé comportant un accent non pris en compte par un moteur de recherche anglophone. De même les espaces, les caractères spéciaux puis les chiffres ont une valeur moindre par rapport aux lettres. On peut donc essayer de biaiser les moteurs de recherche en insérant un de ces signes typographiques avant un titre. Mais cela peut se révéler dangereux puisque les moteurs sont accoutumés à ces procédés frauduleux et peuvent décider d’un bannissement de la page ou du site s’ils en repèrent l’emploi. Toutefois, tous les moteurs de recherche ne prennent pas en compte l’ordre ASCII.
La balise < ! –commentaire–> (destinée comme son nom l’indique à recueillir des commentaires) est initialement prévue pour recevoir des annotations quelconques et qui n’apparaissent pas lors de la visualisation. On peut détourner quelque peu cette utilisation et y inscrire des mots-clés. Ce procédé ne fonctionne pas avec tous les moteurs de recherche mais il donne la possibilité d’augmenter la densité des mots-clés sans pour autant les faire apparaître dans la page. Il présente en plus 1′ avantage de permettre le référencement de sites programmés en Flash.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

REMERCIEMENTS 
INTRODUCTION
1. ANALYSE DES TECHNIQUES D’INDEXATION ET DE RÉFÉRENCEMENT
A. L’INDEXATION DES PAGES WEB
1. État de l’information sur l’ntemet
a) L’explosion de l’information
b) Quel traitement appliquer à l’information en ligne ?
2. Tentative d’application d’une norme aux métadonnées
a) Les métadonnées
b) L’Initiative de Métadonnées du Dublin Core
c) Le Web sémantique
d) Les limites à la normalisation
3. Le choix des mots-clés et les techniques d’indexation
a) Préparer un site au référencement
b) Méthodes pour le choix et l’insertion des mots-clés
(1) Le choix des mots-clés
(2) L’insertion des mots-clés
(3) Les robots  Les techniques de fraude
B. LE RÉFÉRENCEMENT
1. Intérêt du référencement
2. Aperçu des méthodes de recherche d’information sur le Web
3. Le Web invisible
4. Méthodes pour le référencement d’un site Internet
5. Les obstacles au référencement
6. D’autres techniques de promotion d’un site Internet
7. Comment maintenir le niveau de popularité
11. LE SITE LILLE3 JEUNESSE
A. PRÉSENTATION DU CADRE DU STAGE
1. La littérature jeunesse à 1 ‘université
2. Le site Lille Jeunesse
a) L’historique
b) Le contenu
B. TÂCHES DE NATURE JOURNALISTIQUE
1. La B’m• rencontre professionnelle à l’IUFM d’Arras
2. Les Parcours Profèssionnels Pour la Lecture Jeunesse
C. ((Nous VOULONS LIRE»: LE JEU D’IMAGES
D. TÂCHES DENATURE DOCUMENTAIRE
E. L’ENTRETIEN DU SITE
1. Mes tâches
a) La bibliographie thématique
b) Le Mag Garçons 1 Filles
c) La Vie des Livres
d) La navigabilité
2. Tâches partagées avec Julien Siméoni
F. APPLICATION DE LA PARTIE THÉORIQUE AU SITE LILLE JEUNESSE
1. Le Dublin Core
a) L’Éducation Nationale et le Dublin Core
b) La syntaxe des métadonnées
2. Les mots-clés
a) Le contexte
b) Composer la liste
c) Classer les mots-clés
d) L’insertion des mots-clés dans la page
e) Piloter les robots
3. Le référencement du site
a) Réviser le code HTML des frames
b) Le choix des outils de recherche adéquats
c) La phase de référencement
4. Les autres techniques de promotion
CONCLUSION
BIBLIOGRAPHIE 
GLOSSAIRE
ANNEXES

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *