Collecte orientée sur le Web pour la recherche d’information spécialisée

La recherche d’information est un domaine de recherche fort de plus de cinquante années de travaux. Tourné à ses débuts vers les bibliothécaires et les professionnels de l’information, le domaine a connu un bouleversement majeur dans les années 90 : l’arrivée d’Internet et plus précisément du World Wide Web (ou, plus simplement, Web), qui deviendra par la suite l’application fédératrice des recherches de ce domaine. Le Web a permis à des millions d’utilisateurs de créer, publier et diffuser du contenu au niveau international. Il est aujourd’hui, sans nul doute, le plus important répertoire de connaissance de l’histoire de l’humanité. Le volume de documents disponibles est en augmentation constante  , atteignant, selon de récentes estimations  , le chiffre astronomique d’un millier de milliards de documents. Face à cette masse de connaissances, il est rapidement devenu indispensable d’employer des outils permettant de trouver une réponse pertinente à nos besoins d’informations quotidiens : les moteurs de recherche.

Le terrain fertile du Web a permis l’éclosion de plusieurs moteurs de recherche grand public : Excite (1994), AltaVista (1995), Infoseek (1995), Inktomi (1996) et Google (1997/98). Google domine aujourd’hui encore ce domaine avec plus de 85 % de part de marché dans le monde  . Seules l’Asie et l’Afrique de l’Ouest (avec Yahoo !), la Russie (avec Yandex) ou la Chine (avec Baidu) montrent une forme d’opposition au monopole de Google (Figure 1 d’après multilingualwebmarketing.com). Chaque année, de nouveaux moteurs de recherche tels que Powerset, Cuil, Wolfram Alpha, DuckDuckGo ou Blekko tentent de détrôner le géant du Web, mais aboutissent à un résultat mitigé. Google reste le site internet le plus visité au monde  , et possède même un verbe outre-Atlantique : goo·gle : to use the Google search engine to obtain information about a subject on the World Wide Web (Dictionnaire Merriam Webster).

moteurs de recherche web

Web

“ WorldWideWeb: Proposal for a HyperText Project ” Titre d’un document électronique coécrit par Tim Berners-Lee et Robert Caillau. 1990.

Le World Wide Web ou Web (Figure 1.1) est un système hypertexte inventé dans les années 1990 par Tim Berners-Lee au CERN (Organisation européenne pour la recherche nucléaire). Il est composé d’une multitude de documents identifiés via une URL (Uniform Resource Locator) unique et liés entre eux par des hyperliens. Techniquement, les pages Web sont généralement des documents semi-structurés au format HTML (HyperText Markup Language) ou XHTML (Extensible HTML). Ces derniers incluent fréquemment d’autres fichiers tels que des images, des feuilles de style, ou des scripts dynamiques.

Le Web est accessible en un clic via l’utilisation d’une connexion à Internet et d’un navigateur Web. Tout utilisateur du Web est alors en mesure de consulter, mais également de publier son propre contenu, sans nécessiter l’approbation d’une autorité particulière. Seules trois règles doivent être respectées : écrire une page au format HTML, définir une URL pour cette page et la rendre disponible sur Internet par le protocole HTTP (HyperText Transfer Protocol).

Les débuts du Web ont été marqués par l’arrivée de répertoires de sites créés manuellement à l’instar du répertoire Yahoo !  . Les créateurs de sites Web étaient alors invités à soumettre leurs URL à ces répertoires afin d’être plus facilement découverts par les utilisateurs d’Internet. Toutefois, cette approche n’a pas résisté à l’explosion du nombre de pages Web et une approche automatique s’est avérée nécessaire pour passer à l’échelle : le crawling. Le crawling consiste à naviguer de page en page, au travers des hyperliens, pour obtenir une liste des documents disponibles sur le Web.

Deux conclusions découlent de cette observation :
– Les pages qui ne sont jamais liées ne peuvent pas être découvertes  , sauf si leur URL est connue ;
– Maintenir une liste des pages du Web à jour (ou fraîche) est un processus extrêmement complexe et coûteux.

Recherche d’information

Information retrieval is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers).

Christopher D. Manning, Prabhakar Raghavan et Hinrich Schütze, An Introduction to Information Retrieval, 2008.

La recherche d’information (RI) est le procédé permettant à un utilisateur de trouver une réponse satisfaisant son besoin d’information dans une masse d’informations. Ce procédé comprend la représentation, le stockage, l’organisation et l’accès aux informations (Baeza-Yates et Ribeiro-Neto, 1999, chap. 1, p. 1).

Nous nous intéressons plus précisément à la recherche d’information assistée par ordinateur, où le procédé de recherche d’information est compris dans un système de recherche d’information, aussi nommé moteur de recherche. Dans ce cadre, un utilisateur formule son besoin d’information sous la forme d’une requête dans le format d’entrée du système de recherche d’information (typiquement des mots-clés et des opérateurs booléens). Cette requête est transmise au moteur de recherche qui la met en correspondance avec sa collection de documents, pour retourner un ensemble de résultats potentiellement pertinents pour l’utilisateur. Étant donné la masse de documents traitée par les moteurs de recherche, les systèmes de recherche d’information modernes renvoient plus généralement une liste de documents ordonnés en fonction de leur pertinence par rapport à la requête. Enfin, les moteurs de recherche Web ont la particularité de travailler sur les données issues du Web. Pour collecter ces données, ces derniers font appel à un collecteur (ou crawler) qui leur permet de parcourir et télécharger les pages Web. Pour permettre une recherche plus rapide parmi les documents collectés, ces derniers sont indexés par le moteur de recherche.

Les documents issus du Web possèdent également d’autres caractéristiques qui font de la recherche d’information sur le Web un véritable enjeu technologique. L’une d’elles est le format HTML utilisé pour représenter les pages Web. Ce langage de balisage permet de structurer la présentation des pages Web mais ne fournissait pas, jusqu’à récemment  , de mécanisme clair pour spécifier la sémantique des différents constituants des documents (menu, publicité, section d’introduction, résumé. . . ). L’une des tâches incombant au moteur de recherche est par conséquent de segmenter et quantifier l’intérêt de ces constituants pour les utilisateurs. Un autre enjeu pour les moteurs de recherche Web est la détection des pages et sites de spam : avec l’augmentation du nombre d’utilisateurs du Web, une plus grande exposition sur le Web est devenue synonyme d’une augmentation des retombées économiques. Les moteurs de recherche, consultés quasi systématiquement lors de la plupart des navigations Web, sont naturellement devenus des cibles privilégiées des « spammeurs » qui tentent délibérément d’améliorer la position de leurs sites de manière injustifiée pour capter toujours plus d’utilisateurs (Gyöngyi et Garcia-Molina, 2005).

Moteurs de recherche verticaux

Un moteur de recherche vertical, par opposition à un moteur de recherche généraliste ou horizontal, est un moteur de recherche caractérisé par sa spécialisation, son périmètre. La définition exacte de la verticalité ou spécialisation d’un moteur de recherche vertical reste pourtant floue, aussi bien dans le domaine industriel qu’académique. À titre d’exemple, les articles scientifiques traitant de recherche d’information fédérée (ou métarecherche) ou de recherche d’information agrégée (Arguello et coll., 2009; Diaz et coll., 2010; Murdock et Lalmas, 2008; Arguello et coll., 2011; Shokouhi et Si, 2011) mentionnent de nombreux moteurs de recherche verticaux de natures diverses, dont voici quelques exemples : actualités (news), articles scientifiques (scholar), blogs, cartes (maps), connaissances encyclopédiques, images, forums de discussion, livres, local, média sociaux, offres d’emplois, produits (e-commerce), profils d’artistes ou d’entreprises, et vidéos.

Nous proposons une première classification des verticalités rencontrées en six grandes catégories :
1. Verticalité en format :
– Format de fichier (HTML, PDF, DOC)
2. Verticalité en genre :
– Type de média (cartes, images, vidéos)
– Type de site (blog, forum, livre, réseaux sociaux, wikis)
– Type de texte (brevets, articles scientifiques, journalistiques)
3. Verticalité géographique :
– Pays de publication
– Localité de l’utilisateur
4. Verticalité langagière :
– Langue du document
– Langue simplifiée
5. Verticalité temporelle :
– Date/Heure de publication
– Recherche en temps réel
6. Verticalité thématique :
– Thème (cuisine, emploi, immobilier, juridique, médical, musique, voyage)

La verticalité d’un moteur de recherche vertical correspond donc, de manière générale, à un périmètre limité, quel qu’il soit. Nous allons nous intéresser plus particulièrement aux moteurs de recherche verticaux thématiques (ou simplement moteurs de recherche thématiques), c’est-à-dire des moteurs de recherche traitant un thème (ou domaine) en particulier. Ces moteurs sont particulièrement intéressants, car ils fournissent des points d’entrée thématiques au Web. De plus, couplés à d’autres informations du même domaine (actualités, réseaux sociaux), ces portails offrent aux utilisateurs un site Web de référence auprès duquel s’informer quotidiennement sur les sujets qui les intéressent, à la manière des chaînes de télévision thématiques  .

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
moteurs de recherche web et collecte thématique
1 moteurs de recherche web
1.1 Web
1.2 Recherche d’information
1.3 Moteurs de recherche verticaux
1.4 Moteurs de recherche thématiques
2 collecte thématique de documents
2.1 Présentation
2.2 Recherche orientée
2.3 Exploration orientée
2.3.1 Exploration
2.3.2 Exploration orientée
2.4 Revisite
2.5 Synthèse
collecte automatique de documents spécialisés
3 construction de bases documentaires via un moteur de recherche
3.1 Données
3.2 Sélection des termes amorces
3.3 Protocole expérimental
3.4 Évaluations
3.4.1 Performances en fonction de la taille des tuples
3.4.2 Performances en fonction des catégories
3.5 Bilan
4 prédiction des performances des requêtes thématiques sur le web
4.1 Travaux liés
4.2 Pertinence d’un terme pour un thème
4.2.1 Recueil de connaissances exogènes
4.2.2 Critère de cohésion thématique
4.3 Évaluations
4.3.1 Évaluation de l’influence des paramètres du critère
4.3.2 Évaluation du critère pour la sélection de requêtes
4.4 Bilan
5 grawltcq : graphes hétérogènes et marches aléatoires pour la collecte spécialisée
5.1 Travaux liés
5.2 Modèle de graphe
5.3 Marches aléatoires
5.4 Évaluation brute sur l’OpenDirectory
5.4.1 Évaluation de l’ordre des documents
5.4.2 Évaluation de la sélection de termes amorces
5.5 Évaluation sur un corpus de l’Agence France Presse
5.6 Bilan
6 exploration orientée du web
6.1 Babouk : exploration orientée du Web
6.1.1 Implémentation pour un passage à l’échelle
6.1.2 Synthèse
6.2 Apprendre à ordonner la frontière de crawl
6.2.1 Apprentissage de fonctions d’ordonnancement à partir de données de crawl annotées
6.2.2 Évaluations
6.3 Bilan
Conclusion
bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *