Les processus propres aux dispositifs projet data sont-ils efficients ?

Tรฉlรฉcharger le fichier pdf d’un mรฉmoire de fin d’รฉtudes

Les progrรจs technologiques et informatiques

Cependant les avancรฉes en statistiques seules ne permettent pas de rรฉpondre aux enjeux liรฉs ร  lโ€™explosion des donnรฉes, qui nรฉcessitent des solutions technologiques appropriรฉes au stockage et au traitement de lโ€™information. Alors que les cartes perforรฉes montrent leurs limites รฉvidentes et que lโ€™ordinateur thรฉorique est dรฉjร  imaginรฉ par lโ€™inventeur Charles Babbage, IBM sโ€™attaque en 1937 au projet ASCC, dit Harvard Mark I. Conรงu par Howard Hathaway Aiken, ce calculateur รฉlectromรฉcanique nโ€™est pas dotรฉ de la possibilitรฉ de programmation, et fonctionne avec des cartes perforรฉes quโ€™il est nรฉcessaire de remettre en entrรฉe manuellement en cas de boucle ยป conditionnelle. En parallรจle, le Z3, premiรจre machine programmable automatique, est crรฉรฉ entre 1938 et 1941 en Allemagne par Konrad Zuse. La conception des deux premiers ordinateurs entiรจrement รฉlectroniques dรฉbute en 1943. Les Etats-Unis lancent le dรฉveloppement de lโ€™ENIAC, et la Grande Bretagne celui du Colossus Mark I. Ce dernier est conรงu pour dรฉchiffrer le code Lorenz, utilisรฉ par les Allemands, tout comme le code Enigma, mais seulement pour de rares communications entre hauts dirigeants allemands. Le dรฉveloppement de ces ordinateurs sโ€™est largement appuyรฉ sur les travaux de Turing et de Shannon, et intรจgrent le calcul binaire. Le dรฉveloppement futur des ordinateurs ร  travers lโ€™introduction de transistors dans les annรฉes 50โ€™ sโ€™appuie sur ce systรจme binaire. Dโ€™autres solutions technologiques, commeย  la compression (Marron & de Maine, 1967) ou VLSI, technologie de circuit intรฉgrรฉ permettant la fabrication de puces comprenant des millions de transistors, commencent ร  faire leur apparition. Lorsque sont conรงues les puces รฉlectroniques, Moore, directeur de recherche et de dรฉveloppement chez Fairchild Semiconductor et futur co-fondateur de Intel en 1968, formule la conjecture, dite la loi de Moore (Moore, 1965), qui anticipe un doublement de la capacitรฉ des composants รฉlectroniques tous les 18 mois. Sa conjoncture se vรฉrifie (Fanet, 2008; Schaller, 1997) depuis sa formulation, en traversant la pรฉriode de dรฉveloppement des circuits intรฉgrรฉs lancรฉs par Intel : tous les 18 mois, le nombre de transistors qui peuvent รชtre installรฉs sur une puce double, avec une baisse des coรปts des microprocesseurs, liรฉe aux progrรจs de la miniaturisation, au traitement collectif de silicium et au parallรฉlisme. Cependant, le manque de fondements de cette conjecture est largement soulignรฉ (Kish, 2002; Meindl, 2003), que ce soit en termes thรฉoriques, pratiques ou physiques, en particulier en se basant sur ses limites de consommation รฉnergรฉtique ou de taille de support en silicone, vouรฉ ร  รชtre remplacรฉ grรขce au dรฉveloppement des nanotechnologies. En attendant, la baisse des coรปts de production des ordinateurs et autres dispositifs dรฉveloppรฉs, notamment la tรฉlรฉphonie mobile, et plus gรฉnรฉralement les objets communicants (rรฉseaux de capteurs, mouvement Quantified Selfโ€ฆ), permet la multiplication des usages auprรจs de la recherche, du grand public, des institutions publiques ou des entreprises.
Au-delร  de lโ€™aspect technique et industriel, la programmation informatique รฉvolue (Knuth, 1969) et les langages dรฉveloppรฉs donnent la possibilitรฉ dโ€™implรฉmenter des algorithmes de plus en plus sophistiquรฉs, appliquรฉs par des programmes. En 1970, Xerox PARC (Palo Alto Research Center) est fondรฉ en Californie par Jacob Goldman et Robert Taylor. Le premier est physicien, travaillant pour Xerox, qui fabrique ร  lโ€™รฉpoque des imprimantes et craint la concurrence japonaise. Le second, Robert Taylor, est directeur du Bureau des techniques de traitement de l’information de lโ€™ARPA au Pentagone, responsable du projet ARPAnet (Taylor & Licklider, 1968), lancรฉ dans le cadre du retard pris sur les soviรฉtiques dans lโ€™aรฉrospatial et prรฉcurseur dโ€™Internet. Xerox PARC a alors pour objectif dโ€™accรฉlรฉrer lโ€™innovation pour Xerox, et donne lieu, au cours de la dรฉcennie, ร  la mise en place de standards informatiques, comme lโ€™invention de lโ€™imprimante laser, la souris, la programmation orientรฉe objet, la conceptualisation de lโ€™ordinateur personnel (PC), lโ€™interface graphique utilisateur ou encore Ethernet et le calcul distribuรฉ. Ces avancรฉes, couplรฉes avec le dรฉveloppement de lโ€™ergonomie et des sciences cognitives, contribuent ร  la propagation des ordinateurs auprรจs dโ€™un public moins expert. A ces progrรจs sโ€™ajoute la mise ร  disposition dans le domaine public par le CERN,ย  en 1993, du logiciel World Wide Web, crรฉรฉ quatre annรฉes plus tรดt par le scientifique britannique Tim Berners-Lee. En sโ€™appuyant sur lโ€™effet rรฉseau (Bomsel, 2007), commun dans les tรฉlรฉcommunications, Internet atteint rapidement les ordinateurs personnels, et permet lโ€™explosion de lโ€™univers des objets connectรฉs (IOT, Internet Of Things). Il participe ainsi ร  lโ€™augmentation du flux informationnel, effaรงant (Bรฉra & Mรฉchoulan, 1999) les spรฉcificitรฉs des notions de ยซ donnรฉe ยป, ยซ information ยป ou ยซ communication ยป, et nourrissant lโ€™avรจnement de la sociรฉtรฉ de lโ€™information (Duff, 2000; Gillies & Cailliau, 2000).
Lโ€™un des paradigmes nouveaux en informatique, mentionnรฉ plus haut, est le calcul distribuรฉ. Il fonde une branche de recherche des sciences mathรฉmatiques et informatiques. De nombreux projets permettent des avancรฉes dans ce sens, notamment des projets utilisant la bande passante inutilisรฉe des ordinateurs personnels connectรฉs. A Berkeley, Seti@home, projet utilisant des ordinateurs reliรฉs ร  internet pour la recherche dโ€™une intelligence extraterrestre en analysant une quantitรฉ de signaux impossible ร  traiter jusquโ€™alors, est rendu public en 1999 et prouve, entre autres et pour commencer, la fiabilitรฉ du calcul distribuรฉ. Le calcul distribuรฉ est utilisรฉ en mathรฉmatiques ร  partir de 1996 pour divers projets scientifiques marquรฉs par une limite infinie de solutions comme GIMPS (recherche de nombres premiers) ou distributed.net (recherche sur le chiffrement et les rรจgles de Gollomb), ou bien dans la branche cryptologie. En informatique, la recherche sur le parallรฉlisme se dรฉveloppe avec lโ€™รฉtude de langages comme le ฯ€-calcul de Milner, pour fusionner avec le domaine de calcul distribuรฉ grรขce au dรฉploiement dโ€™Internet. Ces technologies sont utilisรฉes en science pour les supercalculateurs comme Roadrunner avec une application ร  des domaines trรจs variรฉs, et sโ€™imposent en paradigme dominant dรจs le dรฉbut du millรฉnaire grรขce ร  la dรฉcroissance du coรปt de matรฉriel permettant la construction des systรจmes ร  multiprocesseurs, mais aussi grรขce aux progrรจs dans lโ€™intรฉgration ร  trรจs grande รฉchelle et lโ€™augmentation de la vitesse de traitement des ordinateurs.
Dโ€™autres progrรจs technologiques marquent ce dรฉbut du siรจcle, dont certains sont rรฉguliรจrement citรฉs comme associรฉs au phรฉnomรจne Big Data (Varian, 2014). Tout dโ€™abord, le modรจle de programmation MapReduce distribuรฉ, dรฉveloppรฉ en 2004 par Google (Dean & Ghemawat, 2004), puis brevetรฉ en 2010 (Dean & Ghemawat, 2010), permet dโ€™accรฉder et de manipuler les donnรฉes dans des structures de donnรฉes volumineuses, comme BigTable, table de donnรฉes prรฉsente dans le systรจme GoogleFS. Sur ce parton dโ€™architecture sโ€™appuient des frameworks comme Hadoop, crรฉรฉ en 2009 par Doug Cutting et rรฉcupรฉrรฉ par Yahoo avec son crรฉateur. Le modรจle MapReduce est jugรฉ prometteur (Ranger et al., 2007), la technologie Hadoop, en open source, est largement reprise dans les logiciels comme Oracle, Microsoft, IBM ou EMC, et donne lieu ร  de nouveaux dรฉveloppements, tels que Spark qui connait un succรจs croissant en 2015. Ensuite, le Cloud, comme moyen dโ€™exploitation de la puissance de calcul ou de stockage distance ร  travers internet, fait son apparition progressivement (ASP, mails, CRM) et le terme se popularise dรจs 2006 grรขce ร  lโ€™introduction de lโ€™Elastic Compute Cloud par Amazon.com. Par ailleurs, les outils de Business Intelligence, qui comprennent gรฉnรฉralement des bases de donnรฉes relationnelles extraites par des ETL pour รชtre chargรฉes dans un Data Warehouse structurรฉ, puis requรชtรฉes pour des besoins de reporting et de prise de dรฉcision, sโ€™adaptent ร  lโ€™apparition des systรจmes de stockage qui utilisent des bases de donnรฉes orientรฉes objet, grรขce lโ€™รฉvolution des langages de traitement de lโ€™information comme le NoSQL (Not Only SQL).
En rรฉaction, les fournisseurs de bases de donnรฉes relationnelles sโ€™ajustent avec des structures horizontales utilisant les langages NewSQL, comme MySQL. Ces progrรจs guident la constitution du concept de Data Lake, outil de stockage de donnรฉes dans leur format natif, qui, contrairement ร  un Data Warehouse classique, sโ€™affranchit du besoin de structuration amont (voir Annexe 2 – Data Lakes et Informatique Dรฉcisionnelle). Enfin, les outils de Data Visualisation รฉvoluent (Tableau, Target…) pour permettre la reprรฉsentation de donnรฉes plus volumineuses de faรงon ergonomique. Ces รฉvolutions constituent le socle technologique des opportunitรฉs liรฉes au phรฉnomรจne Big Data en 2015.
Il semble complexe de trancher entre les tenants du principe que la technologie ait รฉtรฉ dรฉveloppรฉe en consรฉquence des besoins militaires, gouvernementaux, scientifiques ou individuels (Edmunds & Morris, 2000), et les dรฉfenseurs de lโ€™idรฉe que les possibilitรฉs offertes par le progrรจs technologique aient crรฉe un vide et tirรฉ lโ€™explosion des donnรฉes (Tjomsland, 1980). De mรชme, le dรฉbat entre lโ€™explosion dโ€™information comme continuitรฉ des progrรจs passรฉs (Barnes, 2013) ou comme rรฉvolution (Gillies & Cailliau, 2000; Mayer-Schรถnberger & Cukier, 2013; McAfee & Brynjolfsson, 2012) reste ouvert. Les efforts de standardisation sur la mesure de lโ€™information (Coffman & Odlyzko, 1998; Dienes, 1994; Pool, 1984; Varian & Lyman, 2003) butent sur lโ€™absence de consensus autour de la dรฉfinition de celle-ci (Hilbert, 2012). Pourtant, les points de vue sโ€™accordent sur les difficultรฉs ร  absorber cette information, et la nรฉcessitรฉ dโ€™avoir recours ร  des machines pour prรฉserver la possibilitรฉ de dรฉcouvrir de nouvelles connaissances dans les donnรฉes (Denning, 1990; Lesk, 1997) ou bien simplement pour visualiser (Cox & Ellsworth, 1997a) de faรงon digeste lโ€™information existante. Les fruits de la convergence des รฉcoles en statistiques et les derniers progrรจs en informatique peuvent alors apporter des rรฉponses ร  lโ€™enjeu de lโ€™explosion des donnรฉes.

Le ยซ Big Data ยป : des origines du terme au phรฉnomรจne sociotechnique

Le terme ยซ Big Data ยป semble รฉclore dans la littรฉrature scientifique en informatique, en mai 1997 dans la publication ยซ Managing big data for scientific visualization ยป (Cox & Ellsworth, 1997b). Les deux auteurs de lโ€™article sont alors chercheurs en infographie ร  NASA Ames Research Center, centre de recherche ร  vocation militaire et civile pour lโ€™aviation amรฉricaine, et leurs publications prรฉcรฉdentes ciblent le rendu par la programmation parallรจle (parallel rendering, ou distributed rendering). Lโ€™article en question soulรจve le concept de Big Data en tant que problรจme en cours de rรฉsolution par les applications commerciales classiques, comme les systรจmes de rรฉservation des compagnies aรฉriennes, et par les applications plus rรฉcentes, comme le stockage et la fรฉdรฉration de bases de donnรฉes. Ce problรจme รฉtant moins apprรฉhendรฉ par lโ€™ingรฉnierie et la visualisation scientifique, lโ€™article fournit des explications en gestion de donnรฉes, ร  partir notamment de lโ€™รฉtude sur la visualisation dโ€™รฉcoulement de fluides. Les auteurs continueront ร  aborder le sujet Big Data sous lโ€™angle de la visualisation des donnรฉes (Bryson et al., 1999), mais lโ€™apport majeur pour la dรฉfinition de ยซ Big Data ยป de ce premier article, qui sโ€™inscrit dans un dรฉbat ร  la NASA sur lโ€™intรฉrรชt de lโ€™automatisation ou de lโ€™interaction (Kenwright, 1999) face au Big Data, est la premiรจre utilisation du terme associรฉ ร  une dรฉfinition qui se prรฉcise. Il sโ€™agit de lโ€™accumulation de deux problรจmes distincts : ยซ Big Data Collections ยป et ยซ Big Data Objects ยป. Le premier correspond ร  lโ€™agrรฉgation dโ€™un grand nombre de bases de donnรฉes en provenance de plusieurs sources, souvent pluridisciplinaires, et gรฉnรฉralement distribuรฉs sur des sites physiques et types de rรฉfรฉrentiels diffรฉrents. Le second indique un ensemble de donnรฉes trop volumineux pour รชtre traitรฉ par des algorithmes et logiciels standards sur le matรฉriel disponible. ยซ Big data objects ยป sont particuliรจrement problรฉmatiques lorsquโ€™ils sont gรฉnรฉrรฉs par la mรฉthode de simulation de phรฉnomรจne physique dans divers domaines scientifiques, comprenant la dynamique des fluides, lโ€™analyse structurelle, la modรฉlisation mรฉtรฉo ou lโ€™astrophysique. La combinaison de ces deux problรจmes est alors de plus en plus rรฉpandue, notamment avec lโ€™approche scientifique double alliant lโ€™expรฉrimentation et la simulation. Big Data, en tant que mรฉthode combinatoire de recherche utilisant lโ€™informatique, est par ailleurs prรฉsentรฉe dans des publications scientifiques dans dโ€™autres domaines, comme la gรฉnomique (Lenski, 2002).
La seconde apparition du terme ยซ Big Data ยป, sans lien traรงable avec la premiรจre, a lieu en statistiques dans la prรฉface du livre ยซ Predictive Data Mining ยป (Weiss & Indurkhya, 1998) de Page 24 sur 419 Weiss et Indurkhya en 1998 lorsquโ€™ils dรฉcrivent le volume de donnรฉes accumulรฉes dans des entrepรดts centralisรฉs de stockage de donnรฉes. Cette masse de donnรฉes reprรฉsente alors une opportunitรฉ thรฉorique avec un renforcement des conclusions, mais aussi une difficultรฉ pratique pour ses applications de Data Mining, les techniques duquel sont traitรฉes dans le livre. Il sโ€™agit de lโ€™extraction, de la transformation et de lโ€™organisation de donnรฉes brutes en vue dโ€™effectuer des recherches multidimensionnelles pour des solutions prรฉdictives. Big Data nโ€™est pas traitรฉ en tant que concept, mais comme la premiรจre caractรฉristique du Data Mining, la seconde รฉtant le nombre de dimensions, sujet principal du livre. Plusieurs publications en statistiques se rรฉfรจrent ร  cette dรฉfinition, comme en 2001 le livre ยซ Data Mining for design and Manufacturing : methods and applications ยป (Braha, 2001), oรน, dans un chapitre rรฉdigรฉ avec deux ingรฉnieurs industriels, Dan Braha prรฉcise les caractรฉristiques du Big Data (p.236 : ยซ many variables, many values, and many records ยป), composante du Data Mining englobant et le nombre dโ€™observations, et leur richesse en termes de dimensions. Cette publication met en รฉvidence le changement dans lโ€™approche scientifique : les techniques de Data Mining dans un contexte Big Data constituent alors une clรฉ permettant de passer dโ€™un modรจle de recherche classique guidรฉ par les hypothรจses ร  une approche nouvelle basรฉe sur la donnรฉe.
La dรฉfinition de Big Data comme accumulation de donnรฉes stockรฉes dรฉcrite par Weiss et Indurkhya est par ailleurs reprise en science informatique aprรจs lโ€™intervention de John Mashey en confรฉrence annuelle ร  USENIX en 1999. Il prรฉsente la notion dโ€™Infrastress, due au Big Data (accroissement accรฉlรฉrรฉe du stockage) ainsi quโ€™ร  la croissance de lโ€™attente des utilisateurs du Net en termes de type de donnรฉes diffรฉrentes et complexes. Notons que ces deux facteurs sont bien distincts, mais leur reprรฉsentation confondante conduit le lecteur ร  envisager le Big Data comme un dรฉluge dโ€™information tout court auquel fait face le progrรจs technique actuellement. La recherche dans la base de donnรฉes ACM (Association for Computing Machinery digital library) du terme ยซ Big Data ยป indique par ailleurs que les premiรจres utilisations du terme par dโ€™autres chercheurs dans le domaine SI ont lieu suite ร  cette confรฉrence de 1999, en particulier dans la recherche sur le World Wide Web (Gschwind & Hauswirth, 1999) ou en gestion de systรจmes de fichiers (Randolph Y. Wang et al., 1999).
En 2000, le terme ยซ Big Data ยป apparait accompagnรฉ dโ€™une dรฉfinition nouvelle dans la publication en statistiques et รฉconomรฉtrie de Francis X. Diebold ยซ Big Data Dynamic Factor Models (DFM) for Macroeconomic Measurement and Forecasting ยป (Diebold, 2012) et dรฉsigne un phรฉnomรจne se rรฉfรฉrant ร  ยซ lโ€™explosion en quantitรฉ (et parfois qualitรฉ) de donnรฉes disponibles et potentiellement pertinentes ยป. Lโ€™objectif du terme utilisรฉ consiste alors ร  marquer le contraste entre lโ€™ancien et le nouvel environnements รฉconomรฉtriques DFM dรฉcrits par Reichlin et Watson, mais aussi mettre en รฉvidence cette nouvelle caractรฉristique commune ร  un ensemble de domaines de recherche plus large que lโ€™รฉconomรฉtrie. En effet, le Big Data est un phรฉnomรจne auquel est confrontรฉe et dont bรฉnรฉficie la recherche scientifique en physique, biologie et sciences sociales. Ce phรฉnomรจne nouveau est induit par des avancรฉes technologiques significatives, touchant dโ€™une part ร  la crรฉation, et dโ€™autre part au stockage de donnรฉes.
Enfin, le terme ยซ Big Data ยป fait son apparition dans le marketing en 2005 (Ratner, 2004), oรน la nouveautรฉ est liรฉ ร  lโ€™entrรฉe dans le domaine, jusquโ€™alors basรฉ sur la statistique classique, de lโ€™architecture orientรฉe รฉvรจnement, ou EDA (Event-Driven Architecture). Celle-ci est permise pour un grand volume de donnรฉes par la possession dโ€™ordinateurs personnels et inverse la relation fournisseur-client classique grรขce ร  lโ€™รฉmission par un service dโ€™un รฉvรจnement auquel le client doit rรฉpondre. Ratner prรฉcise quโ€™il reprend le concept de ยซ Big Data ยป de Wiess et Indurkhya tout en appuyant dโ€™autres caractรฉristiques, ร  savoir son opposition avec ยซ Small Data ยป, reprรฉsentable sous forme de table de lignes (observations ou individus) et de colonnes (variables ou paramรจtres) pour un รฉchantillon atteignant rarement 200 lignes pour une poignรฉe de colonnes, caractรฉrisรฉe par sa ยซ propretรฉ ยป et sa complรฉtude. Lโ€™ajout de la notion dโ€™รฉvรจnement extรฉrieur, la multiplication des tables et lโ€™existence de donnรฉes secondaires (captรฉes en parallรจle de celles qui devaient servir un objectif prรฉdรฉfini) poussent ร  revoir les techniques de lโ€™รฉchantillonnage et les mรฉthodes de calcul de rรฉpartition, ce qui constitue selon lui le phรฉnomรจne Big Data.
Le terme se structure progressivement autour dโ€™un ensemble de concepts issus des paradigmes informatiques et statistiques pour รชtre transposรฉs en รฉconomรฉtrie et en marketing, et globalement dans un jargon plus commun au service du Data Management moderne. En particulier Doug Laney rรฉdige en 2001 une note de recherche de Gartner, ร  lโ€™รฉpoque META Group (Laney, 2001) oรน il associe au Big Data trois dimensions : ยซ 3D Data Management : Controlling Data Volume, Velocity, and Variety ยป. Aucune limite quantitative nโ€™est alors prรฉcisรฉe pour que les dimensions soient propres au Big Data, cependant Laney annonce la nรฉcessitรฉ pour les entreprises, de e-commerce notamment, de contrรดler ces facteurs dont lโ€™ampleur croit rapidement, et donne des solutions concrรจtes afin de les maรฎtriser. Gartner affiche alors cette dรฉfinition du terme Big Data : ยซ Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making ยป.
Ces dimensions sont rapidement reprises sous lโ€™abrรฉviation des ยซ 3V ยป, et enrichies sans modรฉration par des ยซ V ยป supplรฉmentaires, comme la ยซ Valeur ยป, la ยซ Vulnรฉrabilitรฉ ยป, mais aussi la ยซ Validitรฉ ยป, la ยซ Versatilitรฉ ยป, la ยซ Visibilitรฉ ยป ou la ยซ Vรฉracitรฉ ยป, voire dโ€™autres dimensions encore moins inspirรฉes, comme la ยซ Complexitรฉ ยป. Les grands acteurs du marchรฉ de lโ€™informatique, comme IBM, Microsoft, SAS et leurs observateurs donnent chacun leur propre dรฉfinition de Big Data, mettant gรฉnรฉralement en valeur lโ€™opportunitรฉ que le Big Data reprรฉsente pour un client. La communautรฉ de professionnels Opentracker recense ainsi plus dโ€™une trentaine de dรฉfinitions du terme1. Pour rรฉsumer, il sโ€™agit soit dโ€™outils et de processus permettant ร  une organisation de capturer, crรฉer, traiter et gรฉrer une masse de donnรฉes importante, soit dโ€™un ensemble de donnรฉes qui devient tellement volumineux quโ€™il en devient difficile ร  travailler avec des outils classiques de gestion de bases de donnรฉes ou de gestion de lโ€™information. Malgrรฉ lโ€™absence de consensus apparent sur lโ€™objet pointรฉ par le terme, lโ€™intention commune dans lโ€™arรจne commerciale publique est de dรฉsigner une รฉvolution technologique actuelle, basculant les entreprises vers des solutions dโ€™une nouvelle gรฉnรฉration.
Ce sens est limitรฉ par son manque de spรฉcificitรฉ et de limites de lโ€™extension du concept. En effet, une dรฉfinition similaire รฉtait dโ€™ores et dรฉjร  attribuรฉe (Senge, 1990) ร  lโ€™information en entreprise dans les annรฉes 90, et rien dans la dรฉfinition ne fait rรฉfรฉrence ร  la nature des outils classiques, ni ne quantifie les seuils. Enfin, le concept mรชme dโ€™ยซ ensemble des donnรฉes ยป est discutable. Pourtant, cette dรฉfinition des ยซ 3V ยป reste actuellement courante, et sera saluรฉe par Francis X. Diebold lorsquโ€™il reviendra sur son terme en 2012 (Diebold, 2012). Il sโ€™affranchit alors de toute dรฉfinition quantitative, propose de considรฉrer le Big Data comme un phรฉnomรจne รฉvolutif, et lโ€™รฉlรจve au niveau dโ€™une discipline รฉmergeante, intรฉgrant des concepts tels que le Cloud Computing ou les algorithmes massivement parallรจles. Ces concepts ne sont pas, selon lui, couverts par les domaines de science existants seuls, comme la statistique ou lโ€™informatique. Diebold sโ€™attribue ร  cette occasion le mรฉrite de la premiรจre dรฉfinition du terme en citant un ensemble dโ€™apparitions du terme dans des publications acadรฉmiques et non acadรฉmiques.
OpenTracker est la version Open Source des outils de gestion de fichiers et de web analytics, animรฉe depuis 2001 par des webmasters et des professionnels de marketing qui les utilise. https://www.opentracker.net/article/definitions-big-data/
Lโ€™un des efforts de formulation les plus intรฉressants au sein de la communautรฉ scientifique (Boyd & Crawford, 2012) consiste ร  dรฉfinir le Big Data comme ยซ un phรฉnomรจne culturel, technologique et scientifique qui repose sur lโ€™interaction entre :
La technologie : maximisation de la puissance de calcul et de la prรฉcision algorithmique dans le recueil, lโ€™analyse, la liaison et la comparaison des grands ensembles de donnรฉes
Lโ€™analyse : reprรฉsentation ร  partir de grands ensembles de donnรฉes pour identifier des tendances (ยซ patterns ยป) afin de rรฉaliser des dรฉclarations รฉconomiques, sociales, techniques et juridiques
La mythologie : croyance largement rรฉpandue que de grands ensembles de donnรฉes offrent une forme supรฉrieure de l’intelligence et des connaissances qui peuvent gรฉnรฉrer des idรฉes (ยซ insights ยป) qui รฉtaient auparavant impossibles, avec une aura de vรฉritรฉ, d’objectivitรฉ et d’exactitude ยป Lโ€™intรฉrรชt de cette dรฉfinition est de mettre en valeur non pas les caractรฉristiques des donnรฉes (les 3V ยป, notions relatives et difficiles ร  cerner), mais bien les processus associรฉs au traitement des donnรฉes, c’est-ร -dire lโ€™optimisation permise par une technologie et les capacitรฉs de reprรฉsentation facilitant une analyse pour une prise de dรฉcision. Ces deux caractรฉristiques ne semblent pas pourtant pointer une nouveautรฉ particuliรจre en dehors des progrรจs au niveau des outils et processus associรฉs. Cependant, grรขce ร  la troisiรจme caractรฉristique, cette dรฉfinition embrasse la prise de conscience et le buzz autour du phรฉnomรจne, tout en les mettant en perspective de faรงon critique. Dans la suite de cette thรจse, le Big Data portera le sens de cette dรฉfinition, en considรฉrant le Big Data comme un phรฉnomรจne sociotechnique dont les avantages rรฉels devraient รชtre critiquรฉs et examinรฉs avec attention.

Le rapport de stage ou le pfe est un document dโ€™analyse, de synthรจse et dโ€™รฉvaluation de votre apprentissage, cโ€™est pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโ€™รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties dโ€™un projet de fin dโ€™รฉtude.

Table des matiรจres

Introduction du contexte
1 Lโ€™homme et la donnรฉe : un historique multidisciplinaire
1.1 La donnรฉe, une affaire dโ€™Etat millรฉnaire
1.2 Les progrรจs technologiques et informatiques
1.3 Le ยซ Big Data ยป : des origines du terme au phรฉnomรจne sociotechnique
2 Les enjeux Big Data pour les communautรฉs dโ€™acteurs
2.1 Les pouvoirs publics au service de la recherche et de lโ€™Ecosystรจme Big Data
2.2 Le buzz face au grand public et aux entreprises
3 Une prise de position des SIC au coeur du phรฉnomรจne Big Data
3.1 Dรฉbat รฉpistรฉmologique
3.2 Spรฉcificitรฉs de lโ€™angle de vue
Premiรจre partie : Problรฉmatique et cadre conceptuel
1 Problรฉmatique
1.1 Les processus propres aux dispositifs projet data sont-ils efficients ?
1.2 Quelle est la valeur gรฉnรฉrรฉe par ces projets ?
1.3 Quelle est la nature de la mรฉdiation humaine dans les projets de Data Science ?
2 Plan de thรจse
3 Cadre conceptuel
3.1 Processus du projet data
3.1.1 Projet, gestion de projet et processus
3.1.2 Modรฉlisation de processus en Data Science
3.1.3 Mรฉthodes de prise en compte de la technologie dans le processus data
3.1.4 Synthรจse des limites des modรจles actuels et pistes de recherche
3.2 Indicateurs de valeur
3.2.1 Entreprise, stratรฉgie, savoir-faire et usages
3.2.2 Mesure de la performance et prise de dรฉcision
3.2.3 Valeur de lโ€™information et de la donnรฉe
3.2.3.1 Le paradoxe de la valeur รฉconomique de lโ€™information
3.2.3.2 Chaine de valeur de la donnรฉe
3.2.3.3 Valeur des usages issus des progrรจs sur la chaine des donnรฉes
3.3 Qualitรฉ des donnรฉes
3.3.1 Des approches opรฉrationnelles diffรฉrents selon les disciplines
3.3.1.1 Le besoin de qualitรฉ pour les Sciences de Gestion
3.3.1.2 La rรฉponse de lโ€™Informatique : des indicateurs de qualitรฉ gรฉnรฉriques
3.3.1.3 Les SIC : une approche de la qualitรฉ des donnรฉes orientรฉe sur le sens
3.3.2 Enjeux de gouvernance ร  lโ€™รฉchelle de lโ€™entreprise
3.3.3 Lโ€™algorithme, un nouveau type de modรจle de donnรฉes ร  qualifier
3.4 Mรฉdiation Homme-Donnรฉes et co-construction de sens
3.4.1 Acteurs et cadre de compรฉtences mobilisรฉes
3.4.1.1 Intelligence Economique et Knowledge Management, en retrait
3.4.1.2 Mรฉdiateurs humains et techniques
3.4.1.3 Data Scientists : un nouvel รฉventail de compรฉtences encore instable
3.4.2 Interactions au sein dโ€™un projet data
Deuxiรจme partie : Terrains et Mรฉthodes
1 Choix du terrain
2 Approche mรฉthodologique
2.1 Recherche-action
2.2 Posture du chercheur
2.3 Etude de cas multiples
2.4 Stratรฉgie dโ€™observation
2.4.1 Un protocole construit et sous contraintes
2.4.2 Conception de lโ€™รฉchantillon dโ€™รฉtudes de cas
2.4.3 Recueil dโ€™observations et modรฉlisation itรฉrative de rรฉsultats
Troisiรจme partie : Rรฉsultats
1 Exposรฉ des รฉtudes de cas
1.1 Synthรจse des รฉtudes de cas
1.2 Prรฉ-expรฉrimentation
1.2.1 Cas A : Dispositif tรฉlรฉmatique ยซ urgence ยป
1.2.1.1 Contexte et enjeux
1.2.1.2 Synthรจse des rรฉsultats
1.2.1.3 Observations clรฉs
1.2.2 Cas B : Cancer du sein triple nรฉgatif
1.2.2.1 Contexte et enjeux
1.2.2.2 Synthรจse des rรฉsultats
1.2.2.3 Observations clรฉs
1.2.3 Cas C : Placement Publicitaire
1.2.3.1 Contexte et enjeux
1.2.3.2 Synthรจse des rรฉsultats
1.2.3.3 Observations clรฉs
1.3 Cas rรฉalisรฉs et dรฉtaillรฉs
1.3.1 Cas 1 : Attrition en assurance santรฉ
1.3.1.1 Contexte et enjeux
1.3.1.2 Synthรจse des rรฉsultats
1.3.1.3 Observations clรฉs
1.3.1.4 Compte rendu du projet
1.3.2 Cas 2 : Prรฉvision dโ€™activitรฉ
1.3.2.1 Contexte et enjeux
1.3.2.2 Synthรจse des rรฉsultats
1.3.2.3 Observations clรฉs
1.3.2.4 Compte rendu du projet
1.3.3 Cas 3 : Prรฉvention santรฉ prรฉvoyance
1.3.3.1 Contexte et enjeux
1.3.3.2 Synthรจse des rรฉsultats
1.3.3.3 Observations clรฉs
1.3.3.4 Compte rendu du projet
1.3.4 Cas 4 : Contrรดles de non-conformitรฉ
1.3.4.1 Contexte et enjeux
1.3.4.2 Synthรจse des rรฉsultats
1.3.4.3 Observations clรฉs
1.3.4.4 Compte rendu du projet
1.4 Cas rรฉalisรฉs non dรฉtaillรฉs
1.4.1 Cas 5 : Sinistres lourds en dommage aux biens
1.4.1.1 Contexte et enjeux
1.4.1.2 Synthรจse des rรฉsultats
1.4.1.3 Observations clรฉs
1.4.2 Cas 6 : Prรฉdiction des prix des agrumes
1.4.2.1 Contexte et enjeux
1.4.2.2 Synthรจse des rรฉsultats
1.4.2.3 Observations clรฉs
1.4.3 Cas 7 : Multi-รฉquipement
1.4.3.1 Contexte et enjeux
1.4.3.2 Synthรจse des rรฉsultats
1.4.3.3 Observations clรฉs
1.5 Etat des lieux des observations clรฉs
2 Modรจle de dispositif projet Data Science et ses dimensions dรฉgagรฉes
2.1 Modรจle CRISP_DM et รฉtudes de cas : analyse comparative
2.1.1 Critique des phases, des tรขches et des rรฉsultats
2.1.1.1 Prise en compte tardive des usages
2.1.1.2 Facilitation insuffisante de lโ€™interprรฉtation des rรฉsultats
2.1.1.3 Insuffisance de la tรขche de sรฉlection des donnรฉes
2.1.2 Critique des dรฉpendances et de la cyclicitรฉ
2.2 Proposition de modรจle de dispositif de projet data : Brizo_DS
2.2.1 Orientation sur usage
2.2.1.1 Nouveautรฉ des usages
2.2.1.2 Usages directs et indirects
2.2.1.3 Lโ€™interaction comme vecteur de convergence sur les usages
2.2.2 Indicateurs clรฉs : bรฉnรฉfices, ressources et incertitudes
2.2.2.1 Bรฉnรฉfices
2.2.2.2 Ressources
2.2.2.3 Incertitudes
2.2.2.4 Cadre dโ€™รฉvaluation
2.2.3 Processus de rรฉduction dโ€™incertitudes
2.2.3.1 Rรฉduction dโ€™incertitudes analytiques
2.2.3.1.1 Livrables intermรฉdiaires de la production analytique
2.2.3.1.2 Chemin de traitement des donnรฉes et gestion des versions
2.2.3.2 Rรฉduction dโ€™incertitudes mรฉtier
2.2.3.3 Dynamique de rรฉรฉvaluation des incertitudes projet
2.2.3.4 Tactiques dโ€™allocation de ressources
2.2.3.5 Suite et รฉlargissement : vers une gestion de portefeuille de projets data
2.3 Qualitรฉ des donnรฉes
2.3.1 Databook : documentation dynamique de la qualification des donnรฉes
2.3.2 Gouvernance des donnรฉes et mรฉtriques propres aux algorithmes
2.4 Dispositif de Mรฉdiation Homme-Donnรฉes
3 Discussion des limites de ces travaux de recherche
3.1 Spรฉcificitรฉs du terrain chez Quinten
3.2 Limites de la recherche action
3.3 Un marchรฉ non stabilisรฉ
Conclusions et perspectives de recherche
1 Un nouveau modรจle de dispositif ยซ projet data ยป : Brizo_DS
2 La valeur des projets data
2.1 La valeur de la rรฉduction dโ€™incertitudes
2.2 Databook : une mรฉmoire de la dynamique de construction des algorithmes
3 Mรฉdiation Homme-Donnรฉes
4 Pistes de recherche
Bibliographie
Annexes

Tรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *