La fouille de texte

La fouille de texte

Introduction du Web

Si vous รชtre un utilisateur des rรฉseaux sociaux comme twitter, facebook, linkedin, foursquare et autres, vous รชtes souvent obliger de lancer plusieurs pages Web pour consulter vos messages ou pour suivre vos amis. Cโ€™est assez contraignant et pas toujours trรจs simple ร  gรฉrer. Pour รฉviter tout cela, il existe des agrรฉgateurs pour vos rรฉseaux sociaux. Ces solutions permettent de centraliser tous vos comptes et de nโ€™avoir quโ€™une seule page web ร  lancer pour suivre vos amis [20].

On appelle agrรฉgateur un outil capable de recueillir et de synthรฉtiser en temps rรฉel des donnรฉes et des contenus dispersรฉs sur plusieurs sites. Concrรจtement, un agrรฉgateur permet dโ€™avoir une vision centralisรฉe de ce qui se passe simultanรฉment sur lโ€™ensemble des rรฉseaux dont on fait partie en permettant aussi de mieux gรฉrer son identitรฉ numรฉrique. Un agrรฉgateur permet ainsi de gagner du temps en interagissant le cas รฉchรฉant plus rapidement avec ses contacts. Un agrรฉgateur est un site qui va reprendre du contenu en provenance de blogs ou sites multiples. L’objectif de ce type de plateforme est de proposer au visiteur un large choix de sources d’information, afin de lui permettre de trouver celles qui l’intรฉressent, sur des thรฉmatiques prรฉcises. Car les agrรฉgateurs apportent au lecteur une grille de lecture par le biais de diffรฉrents classements thรฉmatiques, popularitรฉ, etc… En frรฉquentant ces sites, vous serez ainsi en mesure de dรฉcouvrir quels sont les contenus qui ont le plus intรฉressรฉ les lecteurs, ou ceux qui suscitent le plus de rรฉaction. Un agrรฉgateur de rรฉseaux sociaux permet ร  son utilisateur de compiler sur une seule interface tous ses rรฉseaux sociaux. Cela รฉvite principalement dโ€™avoir ร  ouvrir plusieurs sites Web et ร  se connecter plusieurs fois afin dโ€™รชtre au courant de ce qui se passe dans tel ou tel rรฉseau. En un seul coup dโ€™oeil, vous pouvez faire le tour de vos contacts [21].

Le standard RSS reprรฉsente un moyen d’รชtre tenu informรฉ des nouveaux contenus d’un site web, sans avoir ร  le consulter. Le format ยซRSSยป permet de dรฉcrire de faรงon synthรฉtique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelรฉ รฉgalement flux RSS, canal RSS ou fil RSS, contenant les informations ร  diffuser, est maintenu ร  jour afin de constamment contenir les derniรจres informations ร  publier. Pour pouvoir exploiter un fil RSS, un utilisateur doit disposer d’un outil spรฉcifique, appelรฉ ยซlecteur RSSยป ou encore ยซagrรฉgateur RSSยป, afin d’exploiter les fils RSS. Ainsi, il est possible de consulter en un seul endroit les derniรจres actualitรฉs de dizaines, et parfois de centaines de sites web, sans avoir ร  les visiter et sans avoir ร  communiquer d’informations personnelles [22].

Principe C’est une sorte de ยซ facteur ยป qui va chercher le courrier ร  l’extรฉrieur, puis le dรฉpose chez l’utilisateur, dispensant ce dernier d’aller rรฉguliรจrement aux nouvelles en visitant de nombreux sites internet. Il fonctionne un peu comme une messagerie รฉlectronique (quasiment en temps rรฉel) mais (contrairement ร  un client de messagerie), l’utilisateur d’un agrรฉgateur est souvent limitรฉ ร  la lecture passive des messages reรงus (le ยซ fil ยป de syndication). Il ne peut pas ยซ rรฉpondre ยป aux รฉlรฉments reรงus. Il existe quelques exceptions dans le cas de billets blogs, oรน certains agrรฉgateurs permettent de poster des commentaires.

Un agrรฉgateur ne peut traiter qu’une information spรฉcialement structurรฉe, par une technologie particuliรจre. Les sources de contenu (des sites web en gรฉnรฉral) offrent l’adresse d’un fil de syndication mis ร  jour plus ou moins rรฉguliรจrement. Cette premiรจre phase, dite syndication de contenu structure les donnรฉes pour l’agrรฉgateur. L’agrรฉgation consiste ร  s’abonner ร  un ou plusieurs de ces fils de syndication. L’agrรฉgateur dรฉtecte leurs mises ร  jour et averti aussitรดt l’utilisateur, sans qu’il ait ร  visiter pรฉriodiquement les sites internet diffusant les fils de syndication auxquels il s’est abonnรฉ. Chaque fil est associรฉ ร  un dossier dans l’agrรฉgateur, dossier qui contient les diffรฉrentes entrรฉes du fil le plus souvent par ordre chronologique inverse (les plus rรฉcentes entrรฉes en premier). La dรฉtection de nouveaux รฉlรฉments dans un fil est pรฉriodique, ou rรฉalisรฉe ร  la demande de l’utilisateur qui peut quand il le souhaite mettre ร  jour tout ou partie de ses abonnements [24].

L’objectif d’un agrรฉgateur est de permettre l’agrรฉgation de plusieurs sources de contenus internet en une seule application. Le suivi du contenu est rรฉalisรฉ quasiment en temps rรฉel. Proche dans son fonctionnement de la messagerie รฉlectronique, l’agrรฉgateur est le plus souvent un outil limitรฉ ร  la lecture des messages reรงus. En gรฉnรฉral, un agrรฉgateur permet de visualiser une liste des fils enregistrรฉs, classรฉs alphabรฉtiquement ou par thรฉmatique. Pour chaque fil, les n-derniers รฉlรฉments sont listรฉs (n choisi par l’utilisateur ou fixรฉ). Pour chaque รฉlรฉment (billet, article…) peut รชtre affichรฉ un rรฉsumรฉ ou son contenu complet. De ce fait, l’utilisateur peut รชtre amenรฉ ร  quitter son agrรฉgateur pour lire le contenu sur le site d’oรน il a รฉtรฉ tirรฉ, ou bien en faire l’entiรจre lecture dans son logiciel [24].

Usages Les fils de syndication sont trรจs utilisรฉs sur les blogs chaque nouveau billet postรฉ est ainsi transmis en quasi-temps rรฉel aux personnes abonnรฉes au fil du carnet, qui peuvent le lire directement dans leur agrรฉgateur. Ce mode de suivi commence ร  รชtre adoptรฉ en masse par les sites d’actualitรฉs, comme les quotidiens en ligne, dont le contenu renouvelรฉ arbitrairement ou par cycles peut-รชtre regroupรฉ en thรฉmatiques par l’utilisateur. La plupart des agrรฉgateurs permettent en effet de faciliter le suivi de ces fils en les catรฉgorisant en dossiers et sous-dossiers. Agrรฉgation et syndication sont les deux facettes d’une mรชme idรฉe, qui veut proposer ร  l’utilisateur une dรฉcentralisation du contenu crรฉรฉ en des points isolรฉs d’internet, il doit pouvoir รชtre transmis ร  travers les mailles du rรฉseau de faรงon simple, et il doit รฉgalement pouvoir รชtre regroupรฉ chez l’utilisateur et le lecteur, en des thรฉmatiques arbitraires, sans perdre sa cohรฉrence. L’agrรฉgateur essaye de faciliter l’organisation du contenu, en plus d’รชtre un outil de suivi temporel.

Conclusions gรฉnรฉrales

Le travail rรฉalisรฉ dans ce PFE sert ร  รฉvoluer le mรฉcanisme classique des agrรฉgateurs des rรฉseaux sociaux afin dโ€™orienter lโ€™utilisateur vers la bonne source dโ€™information qui rรฉpond a son besoin. Notre mรฉmoire est articulรฉ autours de deux partie ; la premiรจre est thรฉorique, il sโ€™agit de lโ€™รฉtat de lโ€™art et elle contient trois chapitres , le premier introduit le Web depuis le Web 2.0 jusqu’au le web social , le seconde parle de la fouille de textes qui consiste a extraire les connaissances pertinentes selon un ensemble de mรฉthodologies et le troisiรจme prรฉsente les agrรฉgateurs qui ont comme objectif de proposer a lโ€™utilisateur un large choix de sources dโ€™information et pour cela nous avons รฉtudiรฉ quelque agrรฉgateurs de rรฉseaux sociaux comme Netvibes, Spokeo , FiendFeed, Seesmic,… La seconde partie de notre mรฉmoire est la partie pratique ou lโ€™application du projet dans laquelle nous avons appliquรฉ tous ce que nous avons dรฉjร  รฉtudiรฉ dans la phase prรฉcรฉdente (la phase thรฉorique).

Notre application est une application Web qui est basรฉe sur lโ€™utilisation des JSP et encore lโ€™utilisation de deux types de parsers HTML ; le premier qui a comme objectif de parser le contenu de lโ€™agrรฉgateur ยซ Netvibes ยป et tester si la requรชte utilisateur existe (nous avons appliquer la recherche dโ€™information ยซ RI ยป) et le deuxiรจme qui a comme objectif de parser le code source de lโ€™agrรฉgateurs pour extraire la bonne information de chaque rรฉseau social (nous avons appliquer la fouille de textes ou lโ€™extraction dโ€™information ยซ EI ยป ) et en fin le rรฉsultat de notre travail est visualiser a lโ€™utilisateur pour lui dirigรฉ vers le rรฉseau social qui rรฉpond le mieux ร  son besoin. Comme perspective de ce travail, il serait intรฉressant de tester notre application sur nโ€™importe contenu web afin dโ€™extraire lโ€™information pertinente selon le besoin de lโ€™utilisateur. Aussi une amรฉlioration possible serait intรฉressante dans le cadre du web sรฉmantique.

Le rapport de stage ou le pfe est un document d’analyse, de synthรจse et d’รฉvaluation de votre apprentissage, c’est pour cela rapport gratuit propose le tรฉlรฉchargement des modรจles gratuits de projet de fin d’รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties d’un projet de fin d’รฉtude.

Table des matiรจres

Table de matiรจre
Liste des figures
Liste des tableaux
Liste des acronymes
Introduction gรฉnรฉrale
Motivations
Contribution
Lโ€™organisation de notre travail
Chapitre I Introduction du Web
1.Web 2.0
1.1. Introduction
1.2. Dรฉfinition
1.3. Origine du terme
1.4. Les limites ergonomiques du Web 1.0
1.5. Le Web 2.0 un nouveau modรจle de dรฉveloppement
1.6. Les concepts de base
1.6.1. Un blog ou blogue
1.6.2. Un wiki
1.6.3. Really Simple Syndication
1.6.4. Un rรฉseau social
1.6.5. Lโ€™intelligence collective
1.6.6. Mashup
1.7. Comparaison du web 1.0 et du web 2.0
1.8. Les composants du web 2.0
1.8.1. Interface ยซ centrรฉe ยป utilisateur
1.8.2. Standards et API ouvertes
1.8.3. Premiรจre catรฉgorie dโ€™application Web 2.0 Lโ€™environnement de productivitรฉ personnelle
1.8.4. Deuxiรจme catรฉgorie dโ€™applications web 2.0 La constitution ย de rรฉseaux dโ€™intรฉrรชt
1.8.5. Troisiรจme catรฉgorie dโ€™applications web 2.0 Les plateformes applicatives
1.9. Les Lacunes du web 2.0
2.Web sรฉmantique
2.1. Introduction
2.2. Dรฉfinition
2.3. Principe gรฉnรฉral
2.4. Les langages pour le web sรฉmantique
2.4.1. W3C
2.4.2. RDF
2.4.3. Topic Maps
2.4.4. UDDI
2.4.5. WSDL
2.4.6. DAML-S
2.4.7. XL
3.Web social
3.1. Introduction
3.2. Dรฉfinition
3.3. Historique
3.4. Objectif
3.5. Les aspects techniques du Web 3.0
4.Conclusion
Chapitre II La fouille de texte
1.Introduction
2.Dรฉfinition
3.Objectif de fouille de texte
4.Etape de la fouille
4.1. Analyse
4.2. Interprรฉtation de l’analyse
5.La diffรฉrence fondamentale entre la Recherche dโ€™Informations (RI) et lโ€™Extraction dโ€™Information (EI))
6.Applications
6.1. Recherche d’information
6.2. Applications biomรฉdicales
6.3 Filtrage des communications
6.4. Applications de sรฉcuritรฉ
6.5. Gestion des connaissances
6.6. Analyse du sentiment
7.Disciplines connexes
8.Processus globale de fouille de textes
8.1. Etape 1 Le nettoyage
8.2. Etape 2 Etiquetage
8.3. Etape 3 Extraction de termes
8.4. Etrape 4 dรฉtection des traces de concepts
8.5. Etape 5 Extraction dโ€™informations
Conclusion
Chapitre III Les agrรฉgateurs des rรฉseaux sociaux
1.Introduction
2.Dรฉfinition
3.Prรฉsentation gรฉnรฉrale des flux RSS
4.Principe
5.Usages
6.Interface dโ€™accรจs aux services dโ€™agrรฉgations
7.Les types dโ€™agrรฉgateurs
7.1. Agrรฉgation en ligne
7.2. Agrรฉgation en local (lecture)
8.Quelques agrรฉgateurs
8.1. FriendFeed
8.1.1.Historique
8.1.2. Lโ€™objectif
8.2. Spokeo
8.3. Netvibes
8.3.1. Prรฉsentation
8.3.2. Historique
8.3.3. Utilisations documentaires
8.4. Seesmic
Conclusion
Chapitre IV Approche retenue
1.Introduction
2.Schรฉma de notre application
3.Rรฉsultat de lโ€™application
3.1.Lโ€™interface homme machine (IHM)
3.2. Le test dโ€™existante de la requรชte utilisateur
3.3 Le rรฉsultat final de notre application
4.Conclusion
5.Annexes
5.1.Annexe A
5.1.Annexe B
Conclusion et perspectives
Bibliographie

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *