Les compétences clés de la Data Science
Définition des termes & Contexte
Le Big Data Le Big Data est un terme flou pour une grande partie des professionnels et particuliers. Que regroupe ce terme ? Les données que j’exploite peuvent-elles être légitimement classées dans cette catégorie ? Quelles sont les caractéristiques intrinsèques du Big Data ? Toutes ces questions trouvent souvent différentes réponses dans la littérature. Pour y répondre et définir le terme, Big Data, nous allons tout d’abord nous attarder sur 3 des nombreuses lois technologiques (Delort, 2018) de notre ère. Ces dernières régissent le rythme et l’envergure des évolutions informatiques, il est donc pertinent de les étudier. Puis nous analyserons brièvement les différentes sources de données et leurs classifications pour finir sur la décomposition d’un « mythe », celui que nous appellerons le mythe des 3 V. 2.1.1 Les lois technologiques La première serait la loi de Moore (Moore, 1965) du nom de son inventeur, Gordon Moore fondateur de Fairchild Semiconductor. Cette dernière implique un doublement de la densité des transistors dans les semi-conducteurs tous les deux ans. Une plus grande densité de ces composants induit une plus grande puissance de calcul. La seconde loi est similaire, mais concerne la densité de l’espace de stockage sur les disques magnétiques (Walter, 2005). Selon Mark Kryder, ingénieur fondateur de la Carnegie Mellon University’s Data Storage Sytems Center et CTO de Seagate Technology, la densité de stockage sur les disques durs devrait doubler tous les 18 mois environ. La dernière de ces lois concerne les bandes passantes des réseaux professionnels (Nielsen, 1998). Tous les ans, la bande passante de ces réseaux augmenterait de 50 % selon Jakob Nielsen Ph. D en Interaction Homme machine et détenteur 79 brevets sur le sujet. La loi de Moore, de Kryder, de Nielsen démontre le rythme effréné de nos évolutions technologiques. Pour beaucoup, ces évolutions sont la genèse du Big Data. Sans une puissance de calcul considérable, un espace de stockage suffisant et une bande passante performante, l’apparition du Big Data et son exploitation n’aurait pu être possible. 2.1.2 Les sources de données Ces avancées technologiques ont permis l’apparition de nombreuses sources de données aussi diverses que variées. La classification de ces différentes sources par l’UNECE (Vale, 2013), la commission économique pour l’Europe des Nations Unies, met en exergue 3 grandes classes de sources de données : “There are 2.5 quintillion bytes of data created each day at our current pace” […] “Over the last two years alone 90 percent of the data in the world was generated” (Marr, 2018). Ces simples phrases résument parfaitement l’explosion de données à laquelle nous faisons face. Cette abondance de donnée est dû à la démocratisation massive des 3 types de sources de données citées précédemment et à l’évolution technologique dont les 3 lois technologiques précitées sont également le symbole. Selon différents rapports de Statista (Statista, 2019), Facebook compte désormais plus de 2 milliards d’utilisateurs et le cabinet de consulting McKinsey (Manyika et al., 2011) reporte 30 milliards de pièces de contenu publiées sur ce même réseau social tous les mois. Ces chiffres démontrent la démocratisation massive des réseaux sociaux. Leurs expansions mondiales soutenues par l’explosion du marché des smartphones génèrent des quantités de données structurées et non structurées inégalées jusqu’alors. En effet, en 2017 le nombre d’abonnés mobile a dépassé la barre des 5 milliards (GSMA, 2018) soit près de deux tiers de la population mondiale et ce chiffre tendrait à atteindre près de 6 milliards dans les prochaines années. En outre, un rapport de l’entreprise Cisco fait l’état du nombre d’objet connecté par personne. Ce ratio passerait de 0,04 par personne en 2013 à près de 7 en 2020 (Evans, 2011). Cisco explique également que l’IoT est utilisé dans tous les secteurs : la production, les transports, la distribution… L’IoT permet de gérer diverses tâches tel que l’inventaire des stocks, l’« asset tracking », le « fleet maangement » ou encore la facturation en temps réel (Biren Gandhi, 2015). La 4e révolution industrielle ou l’industrie 4.0 n’est pas simplement un concept. Ces transformations sont des réalités.
La Data Science
En 2012, Harvard Business Review qualifiait le Data Scientist comme: « The Sexiest Job of the 21st century » (Davenport, Patil, 2012). Un sondage réalisé auprès des professionnels par le World Economic Forum place en première position des technologies à adopter d’ici à 2022, l’« User and Big Data Analytics » avec près de 85 % des répondants la plaçant comme une priorité. Le machine-learning est 4e avec 73 % des réponses. Pour les professionnels de la Finance, le classement est similaire avec pour unique différence une troisième place attribuée au machine-learning au coude à coude avec la Blockchain. Le secteur de l’informatique classe le Big Data et le « machinelearning » à la première et deuxième place au coude à coude avec le cloud computing et l’app and web development. Plus particulièrement, en Suisse le Swiss Job Index de Michael Page rapporte une hausse de 54,3 % entre juin 2017 et juin 2018 pour la demande de gestionnaires des informations/données. Google Trend permet également de voir l’explosion de popularité de ces nouveaux termes depuis 7 ans dans les recherches des internautes (100 démontre un intérêt maximal). Tous ces chiffres montrent l’intérêt grandissant des entreprises et des particuliers pour les rois de la Data Science et le nouveau pétrole de notre ère. Qu’est-ce que la Data Science exactement ?
|
Table des matières
Déclaration
Remerciements
Résumé
Liste des tableaux
Liste des figures
1. Introduction
2. Définition des termes & Contexte
2.1 Le Big Data
2.1.1 Les lois technologiques
2.1.2 Les sources de données
2.1.3 Le mythe des 3
2.2 La Data Science
2.2.1 Business Intelligence VS Data Science, une définition de la science des
données
2.2.2 Les compétences clés de la Data Science
2.2.3 Les rôles :
3. Les technologies Big Data
3.1 Les grandes tendances
3.2 Le langage Python
3.3 Apache Hadoop
3.3.1 La genèse d’Hadoop
3.3.1.1 Google File System
3.3.1.2 MapReduce
3.3.2 Hadoop en détails
3.3.3 L’écosystème Hadoop de nos jours
3.4 Le framework Apache Spark
3.4.1 Les motivations du développement d’Apache Spark
3.4.2 Les développements clés d’Apache Spark
3.4.3 L’architecture Spark
3.4.4 Hadoop VS Spark
4. La Data Science appliquée à la Finance
4.1 L’environnement technologique
4.1.1 Les nouveaux entrants
4.1.2 Les autres moteurs de cette révolution
4.1.3 La place de la Data Science en Finance
4.2 Un aperçu des données financières
4.2.1 Classifications des sources de données du secteur financier
4.2.2 Zoom sur les données de marchés et d’entreprises
La Data Science appliquée à la Finance Hüni, Victor
4.2.3 Les données clientes
4.3 Les différents uses cases
4.3.1 Le management de la performance
4.3.1.1 Le trading algorithmique :
4.3.1.1.1 Le trading haute fréquence/high frequency trading (HFT)
4.3.1.1.2 Robo-advisory
4.3.1.2 Robotic Process Automation:
4.3.1.3 Back testing investment strategy
4.3.2 Le risk management et la régulation
4.3.2.1 Le credit scoring
4.3.2.2 Détection de fraudes
4.3.2.3 Analyses des cyberattaques
4.3.3 La connaissance du client
4.3.3.1 Acquisition de clients & Limiter les départs
4.3.3.2 Marketing ciblé
4.3.3.3 Customer feedback analysis, Sentiment analysis et Brand reputation
5. Le développement informatique
5.1 Les objectifs
5.1.1 L’objectif technique
5.1.2 L’objectif métier
5.1.3 Le choix final
5.2 Le choix des données
5.2.1 Les contraintes rencontrées
5.2.2 Les données sélectionnées
5.2.3 Le Data Flow
5.3 L’environnement de développement
5.4 Les résultats
5.4.1 Les résultats techniques
5.4.2 Le Résultat métiers
5.4.2.1 Matrice de corrélation
5.4.2.2 Le modèle de markovitz
5.4.2.3 Les indicateurs de performance
5.4.2.4 Capital Asset Pricing Model (CAPM
5.4.2.5 Simulation de Monte-Carlo
Bibliographie
Annexe 1 : Financials activities of Big Tech Companies
Annexe 2 : Porfolio Creation & Analysis Code (full)
Annexe 3 : Batch CSV Reading Comparison code (full).
Télécharger le rapport complet