Base de données NoSQL de type Graphe

Base de données NoSQL de type Graphe

Métriques existantes en Sciences de l’Information

Bibliométrie
La Bibliométrie est une analyse quantitative des publications scientifiques. Cette science permet de mesurer la productivité scientifique d’un établissement de recherche ou d’un chercheur par le comptage des unités bibliographiques décrivant les publications (auteurs, pages etc.). (Heilbron,2002)
Scientométrie
La Scientométrie est une science pouvant être considérée comme étant une réduction ou une extension de la bibliométrie. Elle n’applique les techniques bibliométriques qu’au  champ des études Scientifiques et Technologiques, mais analyse en plus des publications, leurs financements, leurs ressources humaines, leurs brevets, etc. (Suraud, 1996)
Cybermétrie
La Cybermétrie regroupe l’ensemble des méthodes et outils permettant l’analyse de données provenant du Web. Ce domaine, aussi vaste soit-il, peut englober l’analyse des habitudes des internautes sur un site web, l’analyse du trafic sur Internet, l’optimisation de campagnes publicitaires, etc.(Sen, 2004)
Infométrie
L’Infométrie est la science étudiant des données quantitatives économiques, humaines ou encore bibliographiques. Dans ce dernier cas, il s’agit plutôt de Bibliométrie. Sur ces données sont appliqués des traitements principalement descriptifs et classificatoires.(Coadic, F, 2005)
Webométrie
La webométrie est une science d’analyse quantitative du web. Björneborn l’a définie en 2004 comme étant : « The study of quantitative aspects of the construction and use of information ressources, structures and technologies on the Web drawning on bibliometrics and informetrics approches ». (Björneborn, Ingwersen, 2004, p. 2)
Cette science aborde les thématiques d’analyse du contenu des pages web, d’analyse de la structure hypertextuelle du web, d’analyse des usages du web et d’analyse des technologies du web. Nous nous intéressons dans ce qui suit au web mining qui repose sur la webométrie

Web Mining et prédiction de nouvelles tendances

Le web mining est l’adaptation des techniques de data mining pour des données se trouvant sur le World Wide Web. Cela consiste à récupérer des données en masse aux travers de différents moteurs de recherche, réseaux sociaux et autres outils fournissant de l’information grâce au web.(Cooley et al., 1997)
Nous avons repéré que très peu d’études ont été faites concernant la détection et prédiction de nouvelles tendances en utilisant le Web Mining. Le peu de travaux de  détection de nouvelles tendances ont été effectués par analyse temporelle des liens hypertexte. En effet, Einat Amitay et al. ont publié en 2004, dans le « Journal of the American Society for Information Science and Technology » (JASIST), un article étudiant la possibilité d’ajouter une dimension temporelle lors de l’analyse structurelle des liens, permettant ainsi de détecter les tendances actuelles. (Ibekwe-SanJuan, Fidelia, 2007)
Dans cet article, Amitay et ses compères mentionnent le travail de Kleinberg paru en 2000, lequel porte sur l’analyse temporelle des données dans le contexte des e-mails. Pour ce travail, Kleinberg est parti du principe que les e-mails présents lors d’un échange font tous partie du même contexte.

Prédiction des liens

L’article de Jon Kleinberg et David Liben-Nowell, paru en 2007 dans le « Journal of the American Society for Information Science and Technology », nommé « The Link Prediction Problem for Social Networks », mentionne différents outils de prédiction de liens dans un réseau donné.
Cette étude se base sur la théorie des graphes pour comparer différentes techniques de prédiction des liens, dans ce cas pour un réseau social. La technique la plus commune et la plus intuitive est celle des voisins en communs. Selon cette technique, une forte probabilité que deux nœuds (x, y) dans un réseau (R) n’étant pas liés à l’instant T, le soient à l’instant T+1 si ces deux nœuds ont des voisins en communs. Un voisin du nœud x est un nœud ayant un lien avec x.(Liben-Nowell, Kleinberg, 2007)
Plus récemment, en janvier 2014, Peng WANG publie un article de recherche concernant la prédiction de nouveaux liens au sein des réseaux sociaux (Link Prediction in Social Network : the State-of-the-Art).
En effet, WANG mentionne une difficulté à prédire des nouveaux liens au sein d’un réseau social. Il nous présente l’exemple suivant : « A l’instant t, Alice et Bob sont amis. Alice est également amie avec Nick. A l’instant t+1, peut-être qu’Alice aura présenté Bob à Nick et qu’ils deviendront amis également. »

Mesure de fréquence des mots

Un des objectifs de ce travail étant d’être capable de définir quel média détient le plus d’autorité sur un thème donné, il est nécessaire pour cela d’analyser le contenu de ce média. Pour ce faire, il existe la mesure « Term Frequency-Inverse Document Frequency » (TF-IDF) qui permet d’évaluer l’importance d’un terme dans un document.
Cette méthode de pondération ajoute et augmente le poids d’un terme en fonction du nombre de fois qu’il apparaît sur ledit document.(Christian et al., 2016)
Une variante de cette mesure statistique est utilisée, par exemple, par les moteurs de recherche afin d’évaluer la pertinence du document retourné par rapport à la recherche de l’utilisateur.

Stockages de l’information

Théorie des Graphes
plusieurs chercheurs, dont les travaux ont pour base la pratique du web mining, ont structuré leurs données sous forme de graphe. Un graphe est un ensemble de nœuds, reliés entre eux par des arêtes. Chaque nœud représentant une entité du domaine étudié, les arêtes symbolisant un lien entre ces nœuds.
Un exemple, parmi d’autres, d’une mise en application des graphes, serait le réseau routier d’un pays. Chaque ville d’un pays peut être représentée par un nœud, tandis que chaque route reliant ces différentes villes peut être représentée par une arrête.
Base de données NoSQL de type Graphe
On retrouve des bases de données orientés graphe principalement dans la gestion des réseaux sociaux tels que Facebook, LinkedIn ou Instagram, mais également dans tout domaine où les données peuvent être représentées sous forme de réseau (ou de graphe).
Pour un réseau social, par exemple, chaque nœud représente une personne tandis que les arêtes représentent une relation (« être ami », dans le cas de Facebook).

 

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela chatpfe.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1. Introduction
1.1 Contexte
1.2 Problématique
1.3 Objectif
2. Etat de l’art
2.1 Recherche et quantification de l’information
2.1.1 Métriques existantes en Sciences de l’Information
2.1.2 Web Mining et prédiction de nouvelles tendances
2.2 Stockages de l’information
2.2.1 Théorie des Graphes
2.2.2 Base de données NoSQL de type Graphe
2.3 Conclusion de l’état de l’art
3. Méthodologie 
3.1 Récolte de données
3.2 Nettoyage des URLs
3.3 Nettoyage des mots
3.3.1 Phase de nettoyage par NLTK
3.3.2 Phase de filtrage des mots à analyser
3.4 Regroupement des données
3.5 Architecture de la base de données
3.6 Mise en forme des données
3.6.1 Structure du graphe dans Neo4J
3.7 Architecture du travail
3.7.1 Description globale
3.7.2 Description détaillée
3.8 Calcul de pertinence
4. Résultats 
4.1 Mesures « Confinement »
4.2 Mesures « Pandémie »
4.3 Mesures « Epidémie »
4.4 Mesures globales
4.4.1 Confinement
4.4.2 Pandémie
4.4.3 Epidémie
4.4.4 Résultats
5. Limites et perspectives
5.1 Limites
5.2 Perspectives
6. Conclusion
Bibliographie
7. Annexes
7.1 Nettoyage des URLs
7.2 Récupération des liens redirigeant sur d’autres pages Google
7.3 Processus de nettoyage des mots
7.4 Liste de mots à analyser

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *