La fouille de texte

Introduction du Web

Si vous être un utilisateur des réseaux sociaux comme twitter, facebook, linkedin, foursquare et autres, vous êtes souvent obliger de lancer plusieurs pages Web pour consulter vos messages ou pour suivre vos amis. C’est assez contraignant et pas toujours très simple à gérer. Pour éviter tout cela, il existe des agrégateurs pour vos réseaux sociaux. Ces solutions permettent de centraliser tous vos comptes et de n’avoir qu’une seule page web à lancer pour suivre vos amis [20].

On appelle agrégateur un outil capable de recueillir et de synthétiser en temps réel des données et des contenus dispersés sur plusieurs sites. Concrètement, un agrégateur permet d’avoir une vision centralisée de ce qui se passe simultanément sur l’ensemble des réseaux dont on fait partie en permettant aussi de mieux gérer son identité numérique. Un agrégateur permet ainsi de gagner du temps en interagissant le cas échéant plus rapidement avec ses contacts. Un agrégateur est un site qui va reprendre du contenu en provenance de blogs ou sites multiples. L’objectif de ce type de plateforme est de proposer au visiteur un large choix de sources d’information, afin de lui permettre de trouver celles qui l’intéressent, sur des thématiques précises. Car les agrégateurs apportent au lecteur une grille de lecture par le biais de différents classements thématiques, popularité, etc… En fréquentant ces sites, vous serez ainsi en mesure de découvrir quels sont les contenus qui ont le plus intéressé les lecteurs, ou ceux qui suscitent le plus de réaction. Un agrégateur de réseaux sociaux permet à son utilisateur de compiler sur une seule interface tous ses réseaux sociaux. Cela évite principalement d’avoir à ouvrir plusieurs sites Web et à se connecter plusieurs fois afin d’être au courant de ce qui se passe dans tel ou tel réseau. En un seul coup d’oeil, vous pouvez faire le tour de vos contacts [21].

Le standard RSS représente un moyen d’être tenu informé des nouveaux contenus d’un site web, sans avoir à le consulter. Le format «RSS» permet de décrire de façon synthétique le contenu d’un site web, dans un fichier au format XML, afin de permettre son exploitation par des tiers. Le fichier RSS, appelé également flux RSS, canal RSS ou fil RSS, contenant les informations à diffuser, est maintenu à jour afin de constamment contenir les dernières informations à publier. Pour pouvoir exploiter un fil RSS, un utilisateur doit disposer d’un outil spécifique, appelé «lecteur RSS» ou encore «agrégateur RSS», afin d’exploiter les fils RSS. Ainsi, il est possible de consulter en un seul endroit les dernières actualités de dizaines, et parfois de centaines de sites web, sans avoir à les visiter et sans avoir à communiquer d’informations personnelles [22].

Principe C’est une sorte de « facteur » qui va chercher le courrier à l’extérieur, puis le dépose chez l’utilisateur, dispensant ce dernier d’aller régulièrement aux nouvelles en visitant de nombreux sites internet. Il fonctionne un peu comme une messagerie électronique (quasiment en temps réel) mais (contrairement à un client de messagerie), l’utilisateur d’un agrégateur est souvent limité à la lecture passive des messages reçus (le « fil » de syndication). Il ne peut pas « répondre » aux éléments reçus. Il existe quelques exceptions dans le cas de billets blogs, où certains agrégateurs permettent de poster des commentaires.

Un agrégateur ne peut traiter qu’une information spécialement structurée, par une technologie particulière. Les sources de contenu (des sites web en général) offrent l’adresse d’un fil de syndication mis à jour plus ou moins régulièrement. Cette première phase, dite syndication de contenu structure les données pour l’agrégateur. L’agrégation consiste à s’abonner à un ou plusieurs de ces fils de syndication. L’agrégateur détecte leurs mises à jour et averti aussitôt l’utilisateur, sans qu’il ait à visiter périodiquement les sites internet diffusant les fils de syndication auxquels il s’est abonné. Chaque fil est associé à un dossier dans l’agrégateur, dossier qui contient les différentes entrées du fil le plus souvent par ordre chronologique inverse (les plus récentes entrées en premier). La détection de nouveaux éléments dans un fil est périodique, ou réalisée à la demande de l’utilisateur qui peut quand il le souhaite mettre à jour tout ou partie de ses abonnements [24].

L’objectif d’un agrégateur est de permettre l’agrégation de plusieurs sources de contenus internet en une seule application. Le suivi du contenu est réalisé quasiment en temps réel. Proche dans son fonctionnement de la messagerie électronique, l’agrégateur est le plus souvent un outil limité à la lecture des messages reçus. En général, un agrégateur permet de visualiser une liste des fils enregistrés, classés alphabétiquement ou par thématique. Pour chaque fil, les n-derniers éléments sont listés (n choisi par l’utilisateur ou fixé). Pour chaque élément (billet, article…) peut être affiché un résumé ou son contenu complet. De ce fait, l’utilisateur peut être amené à quitter son agrégateur pour lire le contenu sur le site d’où il a été tiré, ou bien en faire l’entière lecture dans son logiciel [24].

Usages Les fils de syndication sont très utilisés sur les blogs chaque nouveau billet posté est ainsi transmis en quasi-temps réel aux personnes abonnées au fil du carnet, qui peuvent le lire directement dans leur agrégateur. Ce mode de suivi commence à être adopté en masse par les sites d’actualités, comme les quotidiens en ligne, dont le contenu renouvelé arbitrairement ou par cycles peut-être regroupé en thématiques par l’utilisateur. La plupart des agrégateurs permettent en effet de faciliter le suivi de ces fils en les catégorisant en dossiers et sous-dossiers. Agrégation et syndication sont les deux facettes d’une même idée, qui veut proposer à l’utilisateur une décentralisation du contenu créé en des points isolés d’internet, il doit pouvoir être transmis à travers les mailles du réseau de façon simple, et il doit également pouvoir être regroupé chez l’utilisateur et le lecteur, en des thématiques arbitraires, sans perdre sa cohérence. L’agrégateur essaye de faciliter l’organisation du contenu, en plus d’être un outil de suivi temporel.

Conclusions générales

Le travail réalisé dans ce PFE sert à évoluer le mécanisme classique des agrégateurs des réseaux sociaux afin d’orienter l’utilisateur vers la bonne source d’information qui répond a son besoin. Notre mémoire est articulé autours de deux partie ; la première est théorique, il s’agit de l’état de l’art et elle contient trois chapitres , le premier introduit le Web depuis le Web 2.0 jusqu’au le web social , le seconde parle de la fouille de textes qui consiste a extraire les connaissances pertinentes selon un ensemble de méthodologies et le troisième présente les agrégateurs qui ont comme objectif de proposer a l’utilisateur un large choix de sources d’information et pour cela nous avons étudié quelque agrégateurs de réseaux sociaux comme Netvibes, Spokeo , FiendFeed, Seesmic,… La seconde partie de notre mémoire est la partie pratique ou l’application du projet dans laquelle nous avons appliqué tous ce que nous avons déjà étudié dans la phase précédente (la phase théorique).

Notre application est une application Web qui est basée sur l’utilisation des JSP et encore l’utilisation de deux types de parsers HTML ; le premier qui a comme objectif de parser le contenu de l’agrégateur « Netvibes » et tester si la requête utilisateur existe (nous avons appliquer la recherche d’information « RI ») et le deuxième qui a comme objectif de parser le code source de l’agrégateurs pour extraire la bonne information de chaque réseau social (nous avons appliquer la fouille de textes ou l’extraction d’information « EI » ) et en fin le résultat de notre travail est visualiser a l’utilisateur pour lui dirigé vers le réseau social qui répond le mieux à son besoin. Comme perspective de ce travail, il serait intéressant de tester notre application sur n’importe contenu web afin d’extraire l’information pertinente selon le besoin de l’utilisateur. Aussi une amélioration possible serait intéressante dans le cadre du web sémantique.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Table de matière
Liste des figures
Liste des tableaux
Liste des acronymes
Introduction générale
Motivations
Contribution
L’organisation de notre travail
Chapitre I Introduction du Web
1.Web 2.0
1.1. Introduction
1.2. Définition
1.3. Origine du terme
1.4. Les limites ergonomiques du Web 1.0
1.5. Le Web 2.0 un nouveau modèle de développement
1.6. Les concepts de base
1.6.1. Un blog ou blogue
1.6.2. Un wiki
1.6.3. Really Simple Syndication
1.6.4. Un réseau social
1.6.5. L’intelligence collective
1.6.6. Mashup
1.7. Comparaison du web 1.0 et du web 2.0
1.8. Les composants du web 2.0
1.8.1. Interface « centrée » utilisateur
1.8.2. Standards et API ouvertes
1.8.3. Première catégorie d’application Web 2.0 L’environnement de productivité personnelle
1.8.4. Deuxième catégorie d’applications web 2.0 La constitution de réseaux d’intérêt
1.8.5. Troisième catégorie d’applications web 2.0 Les plateformes applicatives
1.9. Les Lacunes du web 2.0
2.Web sémantique
2.1. Introduction
2.2. Définition
2.3. Principe général
2.4. Les langages pour le web sémantique
2.4.1. W3C
2.4.2. RDF
2.4.3. Topic Maps
2.4.4. UDDI
2.4.5. WSDL
2.4.6. DAML-S
2.4.7. XL
3.Web social
3.1. Introduction
3.2. Définition
3.3. Historique
3.4. Objectif
3.5. Les aspects techniques du Web 3.0
4.Conclusion
Chapitre II La fouille de texte
1.Introduction
2.Définition
3.Objectif de fouille de texte
4.Etape de la fouille
4.1. Analyse
4.2. Interprétation de l’analyse
5.La différence fondamentale entre la Recherche d’Informations (RI) et l’Extraction d’Information (EI))
6.Applications
6.1. Recherche d’information
6.2. Applications biomédicales
6.3 Filtrage des communications
6.4. Applications de sécurité
6.5. Gestion des connaissances
6.6. Analyse du sentiment
7.Disciplines connexes
8.Processus globale de fouille de textes
8.1. Etape 1 Le nettoyage
8.2. Etape 2 Etiquetage
8.3. Etape 3 Extraction de termes
8.4. Etrape 4 détection des traces de concepts
8.5. Etape 5 Extraction d’informations
Conclusion
Chapitre III Les agrégateurs des réseaux sociaux
1.Introduction
2.Définition
3.Présentation générale des flux RSS
4.Principe
5.Usages
6.Interface d’accès aux services d’agrégations
7.Les types d’agrégateurs
7.1. Agrégation en ligne
7.2. Agrégation en local (lecture)
8.Quelques agrégateurs
8.1. FriendFeed
8.1.1.Historique
8.1.2. L’objectif
8.2. Spokeo
8.3. Netvibes
8.3.1. Présentation
8.3.2. Historique
8.3.3. Utilisations documentaires
8.4. Seesmic
Conclusion
Chapitre IV Approche retenue
1.Introduction
2.Schéma de notre application
3.Résultat de l’application
3.1.L’interface homme machine (IHM)
3.2. Le test d’existante de la requête utilisateur
3.3 Le résultat final de notre application
4.Conclusion
5.Annexes
5.1.Annexe A
5.1.Annexe B
Conclusion et perspectives
Bibliographie