Les réseaux sociaux aujourd’hui

Les réseaux sociaux aujourd’hui

Depuis leur apparition il y a une quinzaine d’années, les médias sociaux en ligne sont rapidement devenus un vecteur d’information incontournable, mettant en jeu des dynamiques complexes de communication entre utilisateurs. Le premier réseau social, nommé Classmates, dont le but était de remettre en contact d’anciens camarades de classe, fut créé en 1995 par Randy Conrads. Il fut largement détrôné par l’arrivée des géants comme Facebook en 2004 ou Twitter en 2006 qui comptent aujourd’hui respectivement plus d’un milliard et 300 millions d’utilisateurs. Ils ont ensuite été suivis par une multitude d’autres réseaux plus spécifiques : Instagram, Vine, Periscope, Pinterest, Snapchat… A l’heure actuelle, pour beaucoup d’internautes, utiliser ces sites est considéré comme une activité sociale à part entière. Ces nouveaux moyens de communication ont entraîné la création d’une nouvelle génération de consommateurs de l’information, toujours plus désireux de savoir vite, et plus. Dans le monde ultra connecté de 2016, la communication via les réseaux sociaux est donc devenue un enjeu majeur, si bien que la compréhension des dynamiques sous-jacentes constitue une question clé pour de nombreux acteurs, industriels ou académiques. D’un point de vue industriel, les entreprises ont rapidement compris le potentiel des médias sociaux. Il s’agit en effet d’un outil permettant de toucher un public très large et de façon quasi instantanée, si bien que de nombreuses campagnes de publicité ont désormais lieu sur les réseaux sociaux. Les réseaux sociaux leur permettent de gérer leur image, de se développer financièrement et d’enrichir leur expérience sur un marché du web offrant de nouvelles opportunités, auparavant inexistantes. L’apparition de nouveaux métiers tels que community manager, content manager et autres social media planner témoigne de l’intérêt porté à ces moyens de communication. D’autre part, dans le monde de la recherche, de nombreux scientifiques se sont intéressés à rendre compte des mécaniques à l’œuvre sur les réseaux sociaux. En effet, la mise à disposition d’une quantité d’informations considérable permet d’étudier des phénomènes auparavant impalpables si bien que le domaine de l’analyse des réseaux sociaux a fait des progrès considérables. Cette branche des sciences mêle sociologie, théorie des graphes et statistiques au sens large. A titre illustratif, de nombreux aspects tels que la modélisation du phénomène de bouche à oreille, la détection de communautés, la détection de source et beaucoup d’autres sont désormais des sujets à part entière. Toutes ces études sont rendues possibles par la présence de données sociales sur le web, dont la collecte représente une étape clé. Or, l’accès à la donnée des réseaux sociaux est contraint par différents facteurs qu’il convient de prendre en compte. D’une part, cette dernière soulève de nombreuses questions liées au respect de la vie privée et les débats à ce sujet ont été nombreux ces dernières années. La plupart des réseaux sociaux autorisent désormais chaque utilisateur à personnaliser les conditions d’accès à son profil par des tiers. D’autre part, même sur les réseaux sociaux les plus ouverts comme Twitter, l’accès à la donnée est restreint par les médias eux-mêmes. En effet, conscients de la valeur financière de celle-ci, il est souvent impossible d’avoir accès à la totalité des contenus. La collecte des données produites par les réseaux sociaux constitue donc un enjeu majeur en amont de toute étude. Nous proposons dans cette thèse de s’intéresser à cette problématique.

La collecte d’information

fin de permettre le suivi de l’activité de leurs utilisateurs sur leur système, la plupart des médias sociaux actuels proposent un service de capture de données via des API (Application Programming Interface). D’une façon générale, il existe deux types d’API – sur lesquels nous reviendrons en détail par la suite – permettant d’accéder aux données : des API donnant accès à des données historiques stockées en base et des API fournissant les données en temps réel, au fur et à mesure qu’elles sont produites. Alors que la navigation dans les bases de données historiques peut s’avérer difficile et coûteuse, l’accès temps réel permet en outre de s’adapter aux dynamiques des réseaux étudiés. Dans ce manuscrit, nous étudierons ce second moyen d’accès aux données permettant l’acquisition en temps  réel des flux produits sur le média social considéré. Néanmoins, l’utilisation d’un tel service peut se heurter à diverses contraintes, aussi bien techniques que politiques. Tout d’abord, les ressources de calcul disponibles pour le traitement de ces données sont souvent limitées. D’autre part, des restrictions sont imposées par les médias sociaux sur l’utilisation des API, dites de streaming, qu’ils mettent à disposition pour permettre un traitement en temps réel de leur contenu. Bien souvent, comme c’est le cas sur Twitter, seules les données relatives à un nombre limité d’indicateurs (auteurs ou mots-clés contenus par exemple) peuvent être considérées simultanément, restreignant alors considérablement la connaissance du réseau à un sous-ensemble limité de son activité globale. La collecte en temps réel de la totalité des données produites sur un média social est donc bien souvent impossible et il s’agit alors d’échantillonner les données collectées, en définissant des méthodes automatiques de collecte. Une stratégie consiste à définir des filtres permettant d’orienter la collecte vers des données correspondant à un besoin particulier. Il s’agit de sélectionner les sources de données à écouter les plus susceptibles de produire des données pertinentes pour le besoin défini.

Dans ce contexte, définir un besoin de données / informations peut s’avérer une tâche complexe : comment définir un ensemble d’indicateurs permettant une collecte efficace, alors que l’on ne connaît pas la distribution des données pertinentes sur le réseau ? D’autant plus dans un contexte dynamique ? Si une collecte concernant une thématique particulière peut se faire en définissant une liste de mots-clés spécifiques que doivent contenir les messages à récupérer, les données obtenues via cette méthode sont souvent très bruitées ou hors sujet du fait du trop grand nombre de réponses ou d’interférences entre divers événements. Les entreprises qui vendent des solutions d’accès aux données des réseaux sociaux connaissent bien cette problématique et beaucoup d’entre elles ont recours à l’intervention d’un opérateur humain pour définir et modifier les indicateurs permettant de filtrer les données à collecter, ce qui est onéreux et n’est pas envisageable à grande échelle. Ceci nous amène à considérer le problème général de la collecte de données dans un réseau social pour un besoin spécifique lorsque le nombre de sources simultanément observables est restreint. Plus formellement, considérons un système d’écoute qui, compte tenu d’un ensemble d’utilisateurs sources à écouter, fournit le contenu produit par ces derniers pendant une période de temps donnée. Etant donné une fonction de qualité spécifique à la tâche en question, permettant d’évaluer la pertinence du contenu délivré par une source pour un besoin particulier, nous proposons une solution à ce problème d’échantillonnage de sources, basée sur une méthode d’apprentissage automatique. Nous utilisons pour cela le formalisme du problème du bandit manchot qui, comme nous le verrons, s’adapte bien à cette tâche de collecte orientée. En effet, le problème du bandit traite du compromis entre exploration et exploitation dans un processus de décision séquentiel où, à chaque pas de temps, un agent doit choisir une action parmi un ensemble d’actions possibles puis reçoit une récompense traduisant la qualité de l’action choisie. Dans notre cas, en optimisant à chaque pas de temps la fonction de qualité, les algorithmes de bandits nous permettront d’explorer, d’évaluer et de redéfinir l’ensemble des sources à considérer à chaque pas de temps. Cela permettra en particulier d’apprendre progressivement à se concentrer sur les sources d’information les plus pertinentes du réseau, sous les contraintes spécifiées (relatives à la capacité d’écoutes simultanées). Cette méthode a l’avantage de fonctionner pour n’importe quel besoin, sous réserve que ce dernier puisse être exprimé sous la forme d’une fonction de qualité associant une note à un contenu. Cette dernière peut prendre diverses formes et peut être utilisée par exemple pour collecter des messages d’actualité, identifier des influenceurs thématiques ou capturer des données qui tendent à satisfaire un panel d’utilisateurs finaux donnés.

Traitement de l’information hors-ligne

Modèle classique

Depuis sa création au début des années 1990, Internet a connu une croissance exponentielle. De quelques centaines de sites, sa taille estimée dépasse aujourd’hui plusieurs dizaines de milliards de pages. Progressivement, les données qu’il contient sont devenues extrêmement intéressantes pour les entreprises, mais aussi les particuliers. Naturellement, la question de la récupération et de l’exploitation de cette source quasi inépuisable de données est apparue. C’est dans le cadre de cette problématique qu’a émergé le concept de crawling, outil majeur de la collecte de données sur le web. Originellement, le crawling consiste à parcourir et indexer le web afin d’en établir la cartographie, le but final étant de permettre à un moteur de recherche de trouver les documents les plus pertinents pour une requête donnée. Les trois principales étapes d’un processus de recherche d’information sont les suivantes :
1. Le crawl – ou exploration – est effectué par un robot d’indexation qui parcourt récursivement tous les hyperliens qu’il trouve. Cette exploration est lancée depuis un nombre restreint de pages web (seeds);
2. L’indexation des ressources récupérées consiste à extraire les termes considérés comme significatifs du corpus de documents exploré. Diverses structures – tel que le dictionnaire inverse – permettent alors de stocker les représentations des documents;
3. Finalement, la fonction d’appariement permet d’identifier dans le corpus documentaire (en utilisant l’index) les documents qui correspondent le mieux au besoin exprimé dans la requête afin de retourner les résultats par ordre de pertinence.

En partant de ce principe générique, un grand nombre de méthodes existe pour effectuer chacune des sous-tâches en questions.

Crawling

Un crawler est un programme qui explore automatiquement le web afin de collecter les ressources (pages web, images, vidéos, etc.) dans le but de les indexer. L’hypothèse sous-jacente est que les contenus du web évoluent de façon relativement lente, autorisant les crawlers à se rafraîchir de façon plus ou moins régulière selon les sites pour maintenir l’index à jour. D’un côté, les sites de nouvelles, dont les contenus évoluent rapidement, sont visités très régulièrement, alors que d’un autre, une page personnelle par exemple peut avoir une inertie de quelques jours. Par ailleurs, étant donné la taille du réseau, il est impossible, même pour les plus grands moteurs de recherche de couvrir la totalité des pages publiques. Une étude datant de 2005 [Gulli and Signorini, 2005] a montré que ceux-ci ne sont en mesure d’indexer qu’entre 40% et 70% du web. Dans cette optique, il est souhaitable que la portion de pages visitées contienne les pages les plus pertinentes et pas seulement un échantillon aléatoire. Ceci amène à considérer la nécessité d’une métrique permettant de hiérarchiser les pages web par ordre d’importance, celle-ci étant souvent définie comme une fonction du contenu et de la popularité en termes de liens ou de visites. Dans ce contexte, les algorithmes de crawling sont très nombreux et se différencient entre autres par l’heuristique permettant de donner un score aux différentes adresses visitées, ou à visiter, dans le but de prioriser les visites les plus utiles (en fonction de leur importance et/ou de leur fréquence de modification). Parmi les nombreux algorithmes de crawling nous citerons Breadth first [Cho and Garcia-Molina, 2003], Depth first [Deo, 1974], OPIC [Abiteboul et al., 2003], HITS [Mendelzon, 2000] ou encore Page Rank [Page et al., 1999]. A titre illustratif, l’algorithme PageRank de Google attribue à chaque page une valeur proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le web en cliquant aléatoirement sur un desliens apparaissant sur chaque page. Ainsi, une page a un score d’autant plus important qu’est grande la somme des scores des pages qui pointent vers elle. Nous orientons le lecteur vers le travail de [Kumar et al., 2014] pour une étude des différentes possibilités. Dans un contexte où le nombre pages est de plus en plus grand, et pour répondre à un besoin de collecte d’information plus ciblée, le concept de focused crawling est apparu. Au lieu de réaliser une exploration du web uniquement basé sur les liens entre les différentes pages, ce dernier permet de cibler particulièrement des pages présentant certaines caractéristiques. On peut par exemple s’intéresser uniquement aux pages parlant de tel ou tel sujet, rendant ainsi la tâche d’exploration moins coûteuse, le nombre de pages à visiter étant restreint. Le crawling ciblé fut introduit dans [Chakrabarti et al., 1999], où les auteurs définissent une méthode permettant de décider si oui ou non une page doit être visitée en fonction des informations dont on dispose – par exemple selon ses métadonnées – et de ses liens vers d’autres pages considérées pertinentes relativement à un sujet prédéfini. De nombreuses variantes ont été proposées par la suite, par exemple dans [Micarelli and Gasparetti, 2007] où une stratégie de crawling adaptatif est élaborée.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Introduction
1.1 Les réseaux sociaux aujourd’hui
1.2 La collecte d’information
1.3 Contributions
1.3.1 La collecte vue comme un problème de bandit
1.3.2 Modèle stationnaire stochastique
1.3.3 Modèle stationnaire avec profils constants
1.3.4 Modèle contextuel
1.3.5 Modèles récurrents
2 De la RI traditionnelle à l’exploitation en ligne des réseaux sociaux
2.1 Traitement de l’information hors-ligne
2.1.1 Modèle classique
2.1.2 Le cas particulier des réseaux sociaux
2.2 Exploitation en temps réel de l’information
2.2.1 La fouille de flux de données : un besoin de méthodes adaptées
2.2.2 Applications en temps réel dans les médias sociaux
3 Problèmes de bandits et algorithmes
3.1 Problème générique et notations
3.1.1 Position du problème
3.1.2 Notations
3.1.3 Applications courantes
3.2 Bandit stochastique
3.2.1 Problème et notations
3.2.2 Regret
3.2.3 Algorithmes
3.3 Bandit contextuel
3.3.1 Problème et notations
3.3.2 Regret
3.3.3 Algorithmes
3.4 Bandit avec sélections multiples
3.4.1 Cas stochastique
3.4.2 Cas contextuel
3.5 Bandit dans les graphes
3.6 Bandit non stationnaire
4 La collecte vue comme un problème de bandit
4.1 Processus de collecte dynamique
4.2 Un problème de bandit
4.3 Modèles de récompenses utilisés
4.4 Représentations des messages
4.5 Jeux de données
4.6 Conclusion
5 Conclusion

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *