Télécharger le fichier pdf d’un mémoire de fin d’études
Disciplines autour des données
Les données désignent une nouvelle discipline qui se situe au croisement de plusieurs domaines : statistiques, technologie, base de données et métiers (marketing, finance, RH, etc.) donc, elles définissent les dimensions du social, de l’économie, etc. [5] [8]
Cette section ressort alors les différents domaines qui travaillent sur les données.
Data analysis
C’est l’analyse des données qui ont été collectées. Les données collectées sont présentées d’une certaine façon, digeste ou non. Avec « Google Analytics » on a une analyse des données déjà construite “Temps Moyen passé sur le site”, “Nombre Moyen de pages Visitées” etc. [5] [9]
Data analytics
C’est la collecte de données automatisée, par exemple le service “Google Analytics” qui fournit un framework javascript de collecte automatisée de l’activité des utilisateurs sur un site Web.
En général la collecte est faite de manière industrielle, la purification est automatique et cela sur tous les canaux (Mobile , Web , Serveur, etc)[5] [9]
Data mining
Le data mining est l’ensemble des méthodes scientifiques destinées à l’exploration et l’analyse de (souvent) grandes bases de données informatiques (qui proviennent de la collecte automatisée) en
vue de détecter dans ces données des profils-type, des comportements récurrents, des règles, des liens, des tendances inconnues (non fixées à priori), en les croisant avec d’autres données et on cherche un pattern ou une corrélation, des structures particulières restituant de façon concise l’essentiel de l’information utile pour l’aide à la décision. On parle d’extraire l’information de la donnée. [7] [8]
Par exemple :
Quel est le facteur de corrélation pour les 18–25 chez Pull & Bear et Zara ?
Il y a une tendance qui montre que les produits de type X sont fortement achetés lorsqu’il y a des événements de type Y et surtout pendant la période N. Les techniques de data mining sont souvent regroupées en deux types de méthodes :
• Les méthodes descriptives (recherche de « patterns ») : visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’association de produits sur les tickets de caisse). Elles réduisent, résument et synthétisent les données ; ici il n’y a pas de variable à expliquer.
• Les méthodes prédictives (modélisation) : visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring). Elles expliquent les données, donc il y a une variable à expliquer.
Data science
La Data Science ou science des données est l’ensemble des champs de connaissances acquis grâce à l’exploitation des données. Cette notion s’appuie sur une pluralité de disciplines qui regroupe : la Data Analysis, la Data Analytics, et le Data Mining entre autres. [9][10]
Par comparaison, les additions, les soustractions font parties d’un plus grand ensemble appelé “Arithmétique”. Cet ensemble est compris dans un plus grand ensemble appelé “Mathématique”. Les analyses et les interprétations effectuées par la Data Science permettent de prendre des décisions plus éclairées sur un problème donné. Ce domaine est devenu très populaire grâce à la profusion de données que nous créons. Pour nous donner une idée, il se crée aux environs de 2 milliards d’octets de données dans le monde à chaque minute et que nous sommes incapables de traiter. Les entreprises ont donc commencé à s’intéresser au problème et engager des « Data Scientists » pour organiser leur flux de données et pouvoir mieux s’adresser à leurs clients.
Les Data Scientists se basent beaucoup sur des outils statistiques et de code (comme Python ou R ou encore SQL) pour pouvoir analyser leurs données et des outils de Business Intelligence comme Tableau Software (Tableau Public) ou Chartio (Chartio: Cloud-based data exploration for all) pour présenter leurs données aux personnes qui sont en charge de prendre des décisions.
Aujourd’hui, nous produisons plus de données que nous sommes capables de traiter. Le but des Data Sciences est de pouvoir régler ce problème notamment grâce à des algorithmes de Machine Learning et plus généralement de l’intelligence artificielle où l’on essaie de faire en sorte que les ordinateurs aient non seulement une énorme capacité de calcul mais aussi d’interprétation de données. [9]
Machine learning
C’est une technique qui consiste à fournir des données à un réseau de neurones, afin qu’il soit en mesure “d’apprendre” automatiquement les patterns dans les données et soit capable de produire une réponse plus précise et fiable. [7][8] [10]
Par exemple, je donne 1 Millions de lignes au format Excel à mon réseau de neurones, avec 500 000 lignes qui décrivent des souris noirs et 500 000 qui décrivent des souris blanches. Chaque ligne contient le poids, la taille, le nombre de moustache etc, etc.
Le moteur va automatiquement détecter les facteurs de corrélation qui permettent d’identifier les souris blanches par rapport aux noirs (Poids, Tailles, etc).
Nous pouvons maintenant demander à la machine de deviner si une souris est blanche ou noire en saisissant des paramètres similaires à ces données pour l’entraîner.
Big data
Big Data est caractérisé par les 3 « V » [10] [11]
• Volume
L’ordre de grandeur est le pétaoctet (1015 octets). L’accroissement du volume vient de l’augmentation : du nombre d’individus observés (plus nombreux ou à un niveau plus fin) de la fréquence d’observation et d’enregistrement des données (mensuel, quotidien, voire horaire) du nombre de caractéristiques observées. Cet accroissement vient aussi de l’observation de données nouvelles, provenant notamment d’Internet : pages indexées, recherches effectuées, éventuellement avec des données de géolocalisation.
Cet aspect est peut-être le plus visible et le plus spectaculaire, mais il n’est pas le plus nouveau (grande distribution, banque, téléphonie manipulent de grands volumes de données, etc)
• Variété
Ces données sont de nature et de forme très diverses : numériques, logs web, textes (Word, PDF, courriels, SMS, etc), sons, images, données fonctionnelles, etc.
Cette variété rend difficile l’utilisation des bases de données usuelles et requiert diverses méthodes (text mining, web mining, etc.)
• Vitesse, ou Vélocité
Vélocité des données qui proviennent de sources où elles sont mises à jour rapidement, parfois en temps réel, vitesse des traitements à mettre en œuvre sur ces données.
La décision du client sur Internet se fait vite car il suffit d’un clic pour changer de site, aussi faut-il instantanément lui faire la meilleure offre commerciale.
La détection de la fraude par carte bancaire doit bien sûr aussi être instantanée. Dans certains cas, vitesse de mise à jour des modèles et pas seulement vitesse de leur application.
Visualisation de données
Définition 1.07 :
La visualisation de données : c’est une représentation d’information sous forme d’image
La data visualisation a pour objectif de faire parler les données, de les rendre lisibles afin que nous puissions mieux les synthétiser, les explorer, les comprendre. En effet, c’est un moyen de communication, comme l’écriture ou la photographie, un outil pour faciliter des tâches intellectuelles.
Bref historique
La visualisation de données est une discipline qui s’est développée dans le domaine des statistiques dès le dix-huitième siècle. A l’époque, les théories statistiques et des probabilités par les mathématiciens Bayes et Laplace amorcent la résolution des problèmes dans la recherche de données. L’apparition puis la généralisation des technologies informatiques, au cours du vingtième et vingt-et-unième siècle lui donneront un nouvel essor. Parallèlement, la représentation en arbres et la cartographie connaîtront également de multiples évolutions. [12] [13]
En 1370, le Français Nicolas Oresme représente sous une forme graphique le rapport entre deux variables et préfigure les premiers graphiques en barres. En 1765, le Britannique Joseph Priestley réalise la première ligne du temps historique. En 1786, William Playfair met au point trois types de conception graphique : la série statistique sous forme de courbes, le graphique en barres et le graphique à secteurs. Les premières cartes teintées (choroplèthes) sont élaborées par le Français Charles Dupin en 1826. Trois ans plus tard, le Français André-Michel Guerry crée le premier histogramme et pratique la visualisation de statistiques comparées. En 1830, Armand Joseph a l’idée d’une représentation par des points et des cercles. [12][13]
La Britannique Florence Nightingale, pionnière de l’usage des statistiques dans le domaine de la santé, utilise, en 1857, des histogrammes circulaires pour illustrer les causes de mortalité de l’hôpital qu’elle gère. En 1868, Emille Levasseur travaille sur les premiers cartogrammes (statistiques figuratives). La première pyramide des âges est signée par l’économiste américain Francis Walker en 1874. En 1889, le Français Joseph Minard réalise la carte des pertes napoléoniennes lors de la campagne de Russie. [13][14]
Domaine d’application.
La visualisation de données permet non seulement une meilleure représentation du monde, elle fait aussi émerger de nouveaux concepts ou des informations difficilement observables autrement. La visualisation de données constitue aujourd’hui l’un des outils les plus utilisés dans le contexte du journalisme computationnel en général et du data journalisme en particulier.
Ce qui peut aussi s’expliquer par l’accessibilité d’outils en ligne, gratuits et simples d’utilisation, qui permettent de produire un graphique en quelques secondes (à condition d’avoir bien préparé ses données préalablement).
Mais les outils de visualisation de données disponibles en ligne ne proposent pas autre chose que les représentations graphiques développées dans le domaine statistique au cours du dix-neuvième siècle (points, barres, lignes, etc.) constate Manovich. [14][15]
La représentation de données sous forme d’arbres constitue, au Moyen-Âge, un outil de mémorisation et de visualisation des connaissances. L’exploitation de la symbolique de l’arbre (symbole religieux et sacré) remonte également à l’Antiquité et elle a traversé l’histoire de l’humanité et des cultures. Graphiquement chargés à leur naissance, les arbres de la connaissance se sont peu à peu dépouillés pour devenir des formes abstraites et épurées. [14][15]
Avec le développement de la génération (algorithmique) de graphiques par ordinateurs, les arbres ont favorisé de nouvelles méthodes de conception et de développement. ”Comme n’importe quelle carte, une visualisation est toujours une interprétation, un point de vue unique pour comprendre le système” relève Manuel Lima, soulignant la puissance et l’impact de cet outil de visualisation. Lima indique que les usages de l’arbre en tant qu’outil de communication se retrouvent dans une variété de domaines : religieux, généalogique, scientifique, biologique, etc. Aujourd’hui, ils servent notamment à schématiser des bases de données et des systèmes informatiques en proposant des structures hiérarchiques claires et simples. [14] [15]
Types de variable
Variables qualitatives
Ce sont des variables qui s’expriment en modalités. Elles sont représentées par des qualités, comme par exemple le degré de satisfaction, la couleur des yeux ou le sexe d’un individu.
Elles sont de deux sous types différents : les variables ordinales et les variables nominales.
Les variables binaires sont des variables nominales particulières.
Les variables qualitatives ordinales sont les variables qualitatives qui comportent un ordre. Cela peut être un degré de ressemblance à 5 modalités : « très ressemblant », « ressemblant», « neutre », « différent », « très différent ».
Les variables qualitatives nominales sont des variables qui prennent un nombre fini de modalités et qui sont a priori non comparables (sans ordre). Cela peut être par exemple une profession, une couleur, une technique, un genre, un pays, etc… [4] [6] [16]
Variable qualitative nominale
Les données catégorielles peuvent être affichées en utilisant soit un camembert ou un graphique à barres.
La figure suivante montre un diagramme à secteurs de la répartition de l’état matrimonial selon le sexe pour les adultes britanniques au recensement de 2001. Chaque segment du graphique circulaire représente la proportion de la population britannique qui se trouve dans cette catégorie. Il est clair à partir de cette figure que les différences entre les sexes existent en ce qui concerne l’état matrimonial; près de la moitié des hommes ne se sont jamais mariés, alors que cette proportion était plus faible pour les femmes. Fait intéressant, la proportion de femmes veuves était environ trois fois plus élevée que celle des hommes. [4] [6] [16]
|
Table des matières
INTRODUCTION GENERALE
CHAPITRE 1 GENERALITES SUR LES DONNEES
1.1 Introduction
1.2 Définitions
1.3 Disciplines autour des données
Data analytics
Data mining
Data science
Machine learning
Big data
1.4 Visualisation de données
Domaine d’application.
1.5 Types de variable
1.5.1.1 Variable qualitative nominale
1.5.2.1 Variable quantitative discrète
1.5.2.2 Variable quantitative continue
1.6 Les types d’analyse de données
1.6.1.2 Paramètre de position
1.6.1.3 Paramètre de disposition
1.6.1.4 Paramètre de forme
Analyse inférentielle
1.6.3.1 Schéma général de la démarche inférentielle
1.6.3.2 Formalisation
1.6.3.3 Principe de test d’inférence
1.7 Conclusion
CHAPITRE 2 TECHNIQUE D’IDENTIFICATION, DE MESURE DE LA LIAISON ET DE LA DEPENDANCE ENTRE VARIABLES
2.1 Introduction
2.2 Pourquoi analyser la liaison des variables ?
2.3 Analyse graphique
2.4 Coefficient de corrélation de Bravais de Pearson
2.4.1.1 Définitions
2.4.1.2 Propriété
2.4.1.3 Domaine de définition
2.4.1.4 Estimation
2.5 Coefficient de corrélation de Pearson
2.5.1.1 Définition
2.5.1.2 Propriété
2.5.1.3 Domaine de définition
2.6 Coefficient de corrélation empirique
Interprétation
Spécification du test
2.7 Test de conformité et intervalle de confiance
Intervalle de confiance
2.8 Causalité
2.9 Présentation de la régression multiple
Dans quelles situations utiliser un modèle de régression multiple ?
Quels termes introduire dans le modèle ?
2.9.3.1 Facteurs de risque
2.9.3.2 Facteurs de confusion
2.9.3.3 Facteurs d’interaction
2.10 Analyses en composantes principales
Résultats sur les variables
Résultats sur les individus
2.11 Conclusion
CHAPITRE 3 TECHNOLOGIES RELATIVES A L’ANALYSE DE DONNEES SOUS PYTHON
3.1 Introduction
3.2 Pourquoi python ?
3.3 Ipython , Notebook
3.4.1.2 Fihier ipynb
3.4.1.3 L’interface du portable
Jupyterlab
Jupyter hub
3.5 Présentation des principales bibliothèques d’analyse de données Python :
3.5.1.1 Numpy
3.5.1.2 SciPy
3.5.1.3 Pandas
3.5.2.1 Matplotlib
3.5.2.2 Bokeh
3.5.2.3 Seaborn
3.6 Conclusion
CHAPITRE 4 CONCEPTION ET IMPLEMENTATION
4.1 Introduction
4.2 Enumération des besoins
Contexte de Madagascar
Besoins de base
4.3 Spécification technique
4.3.1.1 Environnement python
4.3.1.2 Librairies sur le « data science »
4.3.1.3 Projets IPython et Jupiter
4.3.1.4 Interactivité
4.4 Implémentation de la partie « système »
Environnement de travail
4.4.1.1 Pip
4.4.1.2 Anaconda
4.4.1.3 Environnement virtuel
Interface utilisateur « JupyterLab »
Serveur « JupyterHub »
4.4.4.1 Installation et lancement
4.4.4.2 Gestion d’utilisateur
4.5 Mise en place de la partie « ressource »
Notion de projets
Préparations
4.5.3.1 Répertoire de travail
4.5.3.2 Chargement de librairies
4.5.3.3 Chargement de données
4.5.3.4 Configurations nécessaires
Exploration de variable individuelle
Exploration de liaison entre variables
4.5.6.1 Interaction entre les variables qualitatives
4.5.6.2 Liaison entre les variables quantitatives
4.5.6.3 Relation entre des variables quantitative et qualitative
4.5.6.4 Relation entre deux variables quantitatives et une variable qualitative
4.5.7.1 Projection en 2D par ACP
4.5.7.2 Projection en 3D par ACP
4.6 Conclusion
CONCLUSION GENERALE
ANNEXES
ANNEXE 1 : QUELQUES EXTRAITS DE CODES SOURCES
ANNEXE 2 : RECREER L’ENVIRONNEMENT DE TRAVAIL
BIBLIOGRAPHIE
RENSEIGNEMENTS
RESUME
ABSTRACT
Télécharger le rapport complet