Tรฉlรฉcharger le fichier pdf d’un mรฉmoire de fin d’รฉtudes
Les progrรจs technologiques et informatiques
Cependant les avancรฉes en statistiques seules ne permettent pas de rรฉpondre aux enjeux liรฉs ร lโexplosion des donnรฉes, qui nรฉcessitent des solutions technologiques appropriรฉes au stockage et au traitement de lโinformation. Alors que les cartes perforรฉes montrent leurs limites รฉvidentes et que lโordinateur thรฉorique est dรฉjร imaginรฉ par lโinventeur Charles Babbage, IBM sโattaque en 1937 au projet ASCC, dit Harvard Mark I. Conรงu par Howard Hathaway Aiken, ce calculateur รฉlectromรฉcanique nโest pas dotรฉ de la possibilitรฉ de programmation, et fonctionne avec des cartes perforรฉes quโil est nรฉcessaire de remettre en entrรฉe manuellement en cas de boucle ยป conditionnelle. En parallรจle, le Z3, premiรจre machine programmable automatique, est crรฉรฉ entre 1938 et 1941 en Allemagne par Konrad Zuse. La conception des deux premiers ordinateurs entiรจrement รฉlectroniques dรฉbute en 1943. Les Etats-Unis lancent le dรฉveloppement de lโENIAC, et la Grande Bretagne celui du Colossus Mark I. Ce dernier est conรงu pour dรฉchiffrer le code Lorenz, utilisรฉ par les Allemands, tout comme le code Enigma, mais seulement pour de rares communications entre hauts dirigeants allemands. Le dรฉveloppement de ces ordinateurs sโest largement appuyรฉ sur les travaux de Turing et de Shannon, et intรจgrent le calcul binaire. Le dรฉveloppement futur des ordinateurs ร travers lโintroduction de transistors dans les annรฉes 50โ sโappuie sur ce systรจme binaire. Dโautres solutions technologiques, commeย la compression (Marron & de Maine, 1967) ou VLSI, technologie de circuit intรฉgrรฉ permettant la fabrication de puces comprenant des millions de transistors, commencent ร faire leur apparition. Lorsque sont conรงues les puces รฉlectroniques, Moore, directeur de recherche et de dรฉveloppement chez Fairchild Semiconductor et futur co-fondateur de Intel en 1968, formule la conjecture, dite la loi de Moore (Moore, 1965), qui anticipe un doublement de la capacitรฉ des composants รฉlectroniques tous les 18 mois. Sa conjoncture se vรฉrifie (Fanet, 2008; Schaller, 1997) depuis sa formulation, en traversant la pรฉriode de dรฉveloppement des circuits intรฉgrรฉs lancรฉs par Intel : tous les 18 mois, le nombre de transistors qui peuvent รชtre installรฉs sur une puce double, avec une baisse des coรปts des microprocesseurs, liรฉe aux progrรจs de la miniaturisation, au traitement collectif de silicium et au parallรฉlisme. Cependant, le manque de fondements de cette conjecture est largement soulignรฉ (Kish, 2002; Meindl, 2003), que ce soit en termes thรฉoriques, pratiques ou physiques, en particulier en se basant sur ses limites de consommation รฉnergรฉtique ou de taille de support en silicone, vouรฉ ร รชtre remplacรฉ grรขce au dรฉveloppement des nanotechnologies. En attendant, la baisse des coรปts de production des ordinateurs et autres dispositifs dรฉveloppรฉs, notamment la tรฉlรฉphonie mobile, et plus gรฉnรฉralement les objets communicants (rรฉseaux de capteurs, mouvement Quantified Selfโฆ), permet la multiplication des usages auprรจs de la recherche, du grand public, des institutions publiques ou des entreprises.
Au-delร de lโaspect technique et industriel, la programmation informatique รฉvolue (Knuth, 1969) et les langages dรฉveloppรฉs donnent la possibilitรฉ dโimplรฉmenter des algorithmes de plus en plus sophistiquรฉs, appliquรฉs par des programmes. En 1970, Xerox PARC (Palo Alto Research Center) est fondรฉ en Californie par Jacob Goldman et Robert Taylor. Le premier est physicien, travaillant pour Xerox, qui fabrique ร lโรฉpoque des imprimantes et craint la concurrence japonaise. Le second, Robert Taylor, est directeur du Bureau des techniques de traitement de l’information de lโARPA au Pentagone, responsable du projet ARPAnet (Taylor & Licklider, 1968), lancรฉ dans le cadre du retard pris sur les soviรฉtiques dans lโaรฉrospatial et prรฉcurseur dโInternet. Xerox PARC a alors pour objectif dโaccรฉlรฉrer lโinnovation pour Xerox, et donne lieu, au cours de la dรฉcennie, ร la mise en place de standards informatiques, comme lโinvention de lโimprimante laser, la souris, la programmation orientรฉe objet, la conceptualisation de lโordinateur personnel (PC), lโinterface graphique utilisateur ou encore Ethernet et le calcul distribuรฉ. Ces avancรฉes, couplรฉes avec le dรฉveloppement de lโergonomie et des sciences cognitives, contribuent ร la propagation des ordinateurs auprรจs dโun public moins expert. A ces progrรจs sโajoute la mise ร disposition dans le domaine public par le CERN,ย en 1993, du logiciel World Wide Web, crรฉรฉ quatre annรฉes plus tรดt par le scientifique britannique Tim Berners-Lee. En sโappuyant sur lโeffet rรฉseau (Bomsel, 2007), commun dans les tรฉlรฉcommunications, Internet atteint rapidement les ordinateurs personnels, et permet lโexplosion de lโunivers des objets connectรฉs (IOT, Internet Of Things). Il participe ainsi ร lโaugmentation du flux informationnel, effaรงant (Bรฉra & Mรฉchoulan, 1999) les spรฉcificitรฉs des notions de ยซ donnรฉe ยป, ยซ information ยป ou ยซ communication ยป, et nourrissant lโavรจnement de la sociรฉtรฉ de lโinformation (Duff, 2000; Gillies & Cailliau, 2000).
Lโun des paradigmes nouveaux en informatique, mentionnรฉ plus haut, est le calcul distribuรฉ. Il fonde une branche de recherche des sciences mathรฉmatiques et informatiques. De nombreux projets permettent des avancรฉes dans ce sens, notamment des projets utilisant la bande passante inutilisรฉe des ordinateurs personnels connectรฉs. A Berkeley, Seti@home, projet utilisant des ordinateurs reliรฉs ร internet pour la recherche dโune intelligence extraterrestre en analysant une quantitรฉ de signaux impossible ร traiter jusquโalors, est rendu public en 1999 et prouve, entre autres et pour commencer, la fiabilitรฉ du calcul distribuรฉ. Le calcul distribuรฉ est utilisรฉ en mathรฉmatiques ร partir de 1996 pour divers projets scientifiques marquรฉs par une limite infinie de solutions comme GIMPS (recherche de nombres premiers) ou distributed.net (recherche sur le chiffrement et les rรจgles de Gollomb), ou bien dans la branche cryptologie. En informatique, la recherche sur le parallรฉlisme se dรฉveloppe avec lโรฉtude de langages comme le ฯ-calcul de Milner, pour fusionner avec le domaine de calcul distribuรฉ grรขce au dรฉploiement dโInternet. Ces technologies sont utilisรฉes en science pour les supercalculateurs comme Roadrunner avec une application ร des domaines trรจs variรฉs, et sโimposent en paradigme dominant dรจs le dรฉbut du millรฉnaire grรขce ร la dรฉcroissance du coรปt de matรฉriel permettant la construction des systรจmes ร multiprocesseurs, mais aussi grรขce aux progrรจs dans lโintรฉgration ร trรจs grande รฉchelle et lโaugmentation de la vitesse de traitement des ordinateurs.
Dโautres progrรจs technologiques marquent ce dรฉbut du siรจcle, dont certains sont rรฉguliรจrement citรฉs comme associรฉs au phรฉnomรจne Big Data (Varian, 2014). Tout dโabord, le modรจle de programmation MapReduce distribuรฉ, dรฉveloppรฉ en 2004 par Google (Dean & Ghemawat, 2004), puis brevetรฉ en 2010 (Dean & Ghemawat, 2010), permet dโaccรฉder et de manipuler les donnรฉes dans des structures de donnรฉes volumineuses, comme BigTable, table de donnรฉes prรฉsente dans le systรจme GoogleFS. Sur ce parton dโarchitecture sโappuient des frameworks comme Hadoop, crรฉรฉ en 2009 par Doug Cutting et rรฉcupรฉrรฉ par Yahoo avec son crรฉateur. Le modรจle MapReduce est jugรฉ prometteur (Ranger et al., 2007), la technologie Hadoop, en open source, est largement reprise dans les logiciels comme Oracle, Microsoft, IBM ou EMC, et donne lieu ร de nouveaux dรฉveloppements, tels que Spark qui connait un succรจs croissant en 2015. Ensuite, le Cloud, comme moyen dโexploitation de la puissance de calcul ou de stockage distance ร travers internet, fait son apparition progressivement (ASP, mails, CRM) et le terme se popularise dรจs 2006 grรขce ร lโintroduction de lโElastic Compute Cloud par Amazon.com. Par ailleurs, les outils de Business Intelligence, qui comprennent gรฉnรฉralement des bases de donnรฉes relationnelles extraites par des ETL pour รชtre chargรฉes dans un Data Warehouse structurรฉ, puis requรชtรฉes pour des besoins de reporting et de prise de dรฉcision, sโadaptent ร lโapparition des systรจmes de stockage qui utilisent des bases de donnรฉes orientรฉes objet, grรขce lโรฉvolution des langages de traitement de lโinformation comme le NoSQL (Not Only SQL).
En rรฉaction, les fournisseurs de bases de donnรฉes relationnelles sโajustent avec des structures horizontales utilisant les langages NewSQL, comme MySQL. Ces progrรจs guident la constitution du concept de Data Lake, outil de stockage de donnรฉes dans leur format natif, qui, contrairement ร un Data Warehouse classique, sโaffranchit du besoin de structuration amont (voir Annexe 2 – Data Lakes et Informatique Dรฉcisionnelle). Enfin, les outils de Data Visualisation รฉvoluent (Tableau, Target…) pour permettre la reprรฉsentation de donnรฉes plus volumineuses de faรงon ergonomique. Ces รฉvolutions constituent le socle technologique des opportunitรฉs liรฉes au phรฉnomรจne Big Data en 2015.
Il semble complexe de trancher entre les tenants du principe que la technologie ait รฉtรฉ dรฉveloppรฉe en consรฉquence des besoins militaires, gouvernementaux, scientifiques ou individuels (Edmunds & Morris, 2000), et les dรฉfenseurs de lโidรฉe que les possibilitรฉs offertes par le progrรจs technologique aient crรฉe un vide et tirรฉ lโexplosion des donnรฉes (Tjomsland, 1980). De mรชme, le dรฉbat entre lโexplosion dโinformation comme continuitรฉ des progrรจs passรฉs (Barnes, 2013) ou comme rรฉvolution (Gillies & Cailliau, 2000; Mayer-Schรถnberger & Cukier, 2013; McAfee & Brynjolfsson, 2012) reste ouvert. Les efforts de standardisation sur la mesure de lโinformation (Coffman & Odlyzko, 1998; Dienes, 1994; Pool, 1984; Varian & Lyman, 2003) butent sur lโabsence de consensus autour de la dรฉfinition de celle-ci (Hilbert, 2012). Pourtant, les points de vue sโaccordent sur les difficultรฉs ร absorber cette information, et la nรฉcessitรฉ dโavoir recours ร des machines pour prรฉserver la possibilitรฉ de dรฉcouvrir de nouvelles connaissances dans les donnรฉes (Denning, 1990; Lesk, 1997) ou bien simplement pour visualiser (Cox & Ellsworth, 1997a) de faรงon digeste lโinformation existante. Les fruits de la convergence des รฉcoles en statistiques et les derniers progrรจs en informatique peuvent alors apporter des rรฉponses ร lโenjeu de lโexplosion des donnรฉes.
Le ยซ Big Data ยป : des origines du terme au phรฉnomรจne sociotechnique
Le terme ยซ Big Data ยป semble รฉclore dans la littรฉrature scientifique en informatique, en mai 1997 dans la publication ยซ Managing big data for scientific visualization ยป (Cox & Ellsworth, 1997b). Les deux auteurs de lโarticle sont alors chercheurs en infographie ร NASA Ames Research Center, centre de recherche ร vocation militaire et civile pour lโaviation amรฉricaine, et leurs publications prรฉcรฉdentes ciblent le rendu par la programmation parallรจle (parallel rendering, ou distributed rendering). Lโarticle en question soulรจve le concept de Big Data en tant que problรจme en cours de rรฉsolution par les applications commerciales classiques, comme les systรจmes de rรฉservation des compagnies aรฉriennes, et par les applications plus rรฉcentes, comme le stockage et la fรฉdรฉration de bases de donnรฉes. Ce problรจme รฉtant moins apprรฉhendรฉ par lโingรฉnierie et la visualisation scientifique, lโarticle fournit des explications en gestion de donnรฉes, ร partir notamment de lโรฉtude sur la visualisation dโรฉcoulement de fluides. Les auteurs continueront ร aborder le sujet Big Data sous lโangle de la visualisation des donnรฉes (Bryson et al., 1999), mais lโapport majeur pour la dรฉfinition de ยซ Big Data ยป de ce premier article, qui sโinscrit dans un dรฉbat ร la NASA sur lโintรฉrรชt de lโautomatisation ou de lโinteraction (Kenwright, 1999) face au Big Data, est la premiรจre utilisation du terme associรฉ ร une dรฉfinition qui se prรฉcise. Il sโagit de lโaccumulation de deux problรจmes distincts : ยซ Big Data Collections ยป et ยซ Big Data Objects ยป. Le premier correspond ร lโagrรฉgation dโun grand nombre de bases de donnรฉes en provenance de plusieurs sources, souvent pluridisciplinaires, et gรฉnรฉralement distribuรฉs sur des sites physiques et types de rรฉfรฉrentiels diffรฉrents. Le second indique un ensemble de donnรฉes trop volumineux pour รชtre traitรฉ par des algorithmes et logiciels standards sur le matรฉriel disponible. ยซ Big data objects ยป sont particuliรจrement problรฉmatiques lorsquโils sont gรฉnรฉrรฉs par la mรฉthode de simulation de phรฉnomรจne physique dans divers domaines scientifiques, comprenant la dynamique des fluides, lโanalyse structurelle, la modรฉlisation mรฉtรฉo ou lโastrophysique. La combinaison de ces deux problรจmes est alors de plus en plus rรฉpandue, notamment avec lโapproche scientifique double alliant lโexpรฉrimentation et la simulation. Big Data, en tant que mรฉthode combinatoire de recherche utilisant lโinformatique, est par ailleurs prรฉsentรฉe dans des publications scientifiques dans dโautres domaines, comme la gรฉnomique (Lenski, 2002).
La seconde apparition du terme ยซ Big Data ยป, sans lien traรงable avec la premiรจre, a lieu en statistiques dans la prรฉface du livre ยซ Predictive Data Mining ยป (Weiss & Indurkhya, 1998) de Page 24 sur 419 Weiss et Indurkhya en 1998 lorsquโils dรฉcrivent le volume de donnรฉes accumulรฉes dans des entrepรดts centralisรฉs de stockage de donnรฉes. Cette masse de donnรฉes reprรฉsente alors une opportunitรฉ thรฉorique avec un renforcement des conclusions, mais aussi une difficultรฉ pratique pour ses applications de Data Mining, les techniques duquel sont traitรฉes dans le livre. Il sโagit de lโextraction, de la transformation et de lโorganisation de donnรฉes brutes en vue dโeffectuer des recherches multidimensionnelles pour des solutions prรฉdictives. Big Data nโest pas traitรฉ en tant que concept, mais comme la premiรจre caractรฉristique du Data Mining, la seconde รฉtant le nombre de dimensions, sujet principal du livre. Plusieurs publications en statistiques se rรฉfรจrent ร cette dรฉfinition, comme en 2001 le livre ยซ Data Mining for design and Manufacturing : methods and applications ยป (Braha, 2001), oรน, dans un chapitre rรฉdigรฉ avec deux ingรฉnieurs industriels, Dan Braha prรฉcise les caractรฉristiques du Big Data (p.236 : ยซ many variables, many values, and many records ยป), composante du Data Mining englobant et le nombre dโobservations, et leur richesse en termes de dimensions. Cette publication met en รฉvidence le changement dans lโapproche scientifique : les techniques de Data Mining dans un contexte Big Data constituent alors une clรฉ permettant de passer dโun modรจle de recherche classique guidรฉ par les hypothรจses ร une approche nouvelle basรฉe sur la donnรฉe.
La dรฉfinition de Big Data comme accumulation de donnรฉes stockรฉes dรฉcrite par Weiss et Indurkhya est par ailleurs reprise en science informatique aprรจs lโintervention de John Mashey en confรฉrence annuelle ร USENIX en 1999. Il prรฉsente la notion dโInfrastress, due au Big Data (accroissement accรฉlรฉrรฉe du stockage) ainsi quโร la croissance de lโattente des utilisateurs du Net en termes de type de donnรฉes diffรฉrentes et complexes. Notons que ces deux facteurs sont bien distincts, mais leur reprรฉsentation confondante conduit le lecteur ร envisager le Big Data comme un dรฉluge dโinformation tout court auquel fait face le progrรจs technique actuellement. La recherche dans la base de donnรฉes ACM (Association for Computing Machinery digital library) du terme ยซ Big Data ยป indique par ailleurs que les premiรจres utilisations du terme par dโautres chercheurs dans le domaine SI ont lieu suite ร cette confรฉrence de 1999, en particulier dans la recherche sur le World Wide Web (Gschwind & Hauswirth, 1999) ou en gestion de systรจmes de fichiers (Randolph Y. Wang et al., 1999).
En 2000, le terme ยซ Big Data ยป apparait accompagnรฉ dโune dรฉfinition nouvelle dans la publication en statistiques et รฉconomรฉtrie de Francis X. Diebold ยซ Big Data Dynamic Factor Models (DFM) for Macroeconomic Measurement and Forecasting ยป (Diebold, 2012) et dรฉsigne un phรฉnomรจne se rรฉfรฉrant ร ยซ lโexplosion en quantitรฉ (et parfois qualitรฉ) de donnรฉes disponibles et potentiellement pertinentes ยป. Lโobjectif du terme utilisรฉ consiste alors ร marquer le contraste entre lโancien et le nouvel environnements รฉconomรฉtriques DFM dรฉcrits par Reichlin et Watson, mais aussi mettre en รฉvidence cette nouvelle caractรฉristique commune ร un ensemble de domaines de recherche plus large que lโรฉconomรฉtrie. En effet, le Big Data est un phรฉnomรจne auquel est confrontรฉe et dont bรฉnรฉficie la recherche scientifique en physique, biologie et sciences sociales. Ce phรฉnomรจne nouveau est induit par des avancรฉes technologiques significatives, touchant dโune part ร la crรฉation, et dโautre part au stockage de donnรฉes.
Enfin, le terme ยซ Big Data ยป fait son apparition dans le marketing en 2005 (Ratner, 2004), oรน la nouveautรฉ est liรฉ ร lโentrรฉe dans le domaine, jusquโalors basรฉ sur la statistique classique, de lโarchitecture orientรฉe รฉvรจnement, ou EDA (Event-Driven Architecture). Celle-ci est permise pour un grand volume de donnรฉes par la possession dโordinateurs personnels et inverse la relation fournisseur-client classique grรขce ร lโรฉmission par un service dโun รฉvรจnement auquel le client doit rรฉpondre. Ratner prรฉcise quโil reprend le concept de ยซ Big Data ยป de Wiess et Indurkhya tout en appuyant dโautres caractรฉristiques, ร savoir son opposition avec ยซ Small Data ยป, reprรฉsentable sous forme de table de lignes (observations ou individus) et de colonnes (variables ou paramรจtres) pour un รฉchantillon atteignant rarement 200 lignes pour une poignรฉe de colonnes, caractรฉrisรฉe par sa ยซ propretรฉ ยป et sa complรฉtude. Lโajout de la notion dโรฉvรจnement extรฉrieur, la multiplication des tables et lโexistence de donnรฉes secondaires (captรฉes en parallรจle de celles qui devaient servir un objectif prรฉdรฉfini) poussent ร revoir les techniques de lโรฉchantillonnage et les mรฉthodes de calcul de rรฉpartition, ce qui constitue selon lui le phรฉnomรจne Big Data.
Le terme se structure progressivement autour dโun ensemble de concepts issus des paradigmes informatiques et statistiques pour รชtre transposรฉs en รฉconomรฉtrie et en marketing, et globalement dans un jargon plus commun au service du Data Management moderne. En particulier Doug Laney rรฉdige en 2001 une note de recherche de Gartner, ร lโรฉpoque META Group (Laney, 2001) oรน il associe au Big Data trois dimensions : ยซ 3D Data Management : Controlling Data Volume, Velocity, and Variety ยป. Aucune limite quantitative nโest alors prรฉcisรฉe pour que les dimensions soient propres au Big Data, cependant Laney annonce la nรฉcessitรฉ pour les entreprises, de e-commerce notamment, de contrรดler ces facteurs dont lโampleur croit rapidement, et donne des solutions concrรจtes afin de les maรฎtriser. Gartner affiche alors cette dรฉfinition du terme Big Data : ยซ Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making ยป.
Ces dimensions sont rapidement reprises sous lโabrรฉviation des ยซ 3V ยป, et enrichies sans modรฉration par des ยซ V ยป supplรฉmentaires, comme la ยซ Valeur ยป, la ยซ Vulnรฉrabilitรฉ ยป, mais aussi la ยซ Validitรฉ ยป, la ยซ Versatilitรฉ ยป, la ยซ Visibilitรฉ ยป ou la ยซ Vรฉracitรฉ ยป, voire dโautres dimensions encore moins inspirรฉes, comme la ยซ Complexitรฉ ยป. Les grands acteurs du marchรฉ de lโinformatique, comme IBM, Microsoft, SAS et leurs observateurs donnent chacun leur propre dรฉfinition de Big Data, mettant gรฉnรฉralement en valeur lโopportunitรฉ que le Big Data reprรฉsente pour un client. La communautรฉ de professionnels Opentracker recense ainsi plus dโune trentaine de dรฉfinitions du terme1. Pour rรฉsumer, il sโagit soit dโoutils et de processus permettant ร une organisation de capturer, crรฉer, traiter et gรฉrer une masse de donnรฉes importante, soit dโun ensemble de donnรฉes qui devient tellement volumineux quโil en devient difficile ร travailler avec des outils classiques de gestion de bases de donnรฉes ou de gestion de lโinformation. Malgrรฉ lโabsence de consensus apparent sur lโobjet pointรฉ par le terme, lโintention commune dans lโarรจne commerciale publique est de dรฉsigner une รฉvolution technologique actuelle, basculant les entreprises vers des solutions dโune nouvelle gรฉnรฉration.
Ce sens est limitรฉ par son manque de spรฉcificitรฉ et de limites de lโextension du concept. En effet, une dรฉfinition similaire รฉtait dโores et dรฉjร attribuรฉe (Senge, 1990) ร lโinformation en entreprise dans les annรฉes 90, et rien dans la dรฉfinition ne fait rรฉfรฉrence ร la nature des outils classiques, ni ne quantifie les seuils. Enfin, le concept mรชme dโยซ ensemble des donnรฉes ยป est discutable. Pourtant, cette dรฉfinition des ยซ 3V ยป reste actuellement courante, et sera saluรฉe par Francis X. Diebold lorsquโil reviendra sur son terme en 2012 (Diebold, 2012). Il sโaffranchit alors de toute dรฉfinition quantitative, propose de considรฉrer le Big Data comme un phรฉnomรจne รฉvolutif, et lโรฉlรจve au niveau dโune discipline รฉmergeante, intรฉgrant des concepts tels que le Cloud Computing ou les algorithmes massivement parallรจles. Ces concepts ne sont pas, selon lui, couverts par les domaines de science existants seuls, comme la statistique ou lโinformatique. Diebold sโattribue ร cette occasion le mรฉrite de la premiรจre dรฉfinition du terme en citant un ensemble dโapparitions du terme dans des publications acadรฉmiques et non acadรฉmiques.
OpenTracker est la version Open Source des outils de gestion de fichiers et de web analytics, animรฉe depuis 2001 par des webmasters et des professionnels de marketing qui les utilise. https://www.opentracker.net/article/definitions-big-data/
Lโun des efforts de formulation les plus intรฉressants au sein de la communautรฉ scientifique (Boyd & Crawford, 2012) consiste ร dรฉfinir le Big Data comme ยซ un phรฉnomรจne culturel, technologique et scientifique qui repose sur lโinteraction entre :
La technologie : maximisation de la puissance de calcul et de la prรฉcision algorithmique dans le recueil, lโanalyse, la liaison et la comparaison des grands ensembles de donnรฉes
Lโanalyse : reprรฉsentation ร partir de grands ensembles de donnรฉes pour identifier des tendances (ยซ patterns ยป) afin de rรฉaliser des dรฉclarations รฉconomiques, sociales, techniques et juridiques
La mythologie : croyance largement rรฉpandue que de grands ensembles de donnรฉes offrent une forme supรฉrieure de l’intelligence et des connaissances qui peuvent gรฉnรฉrer des idรฉes (ยซ insights ยป) qui รฉtaient auparavant impossibles, avec une aura de vรฉritรฉ, d’objectivitรฉ et d’exactitude ยป Lโintรฉrรชt de cette dรฉfinition est de mettre en valeur non pas les caractรฉristiques des donnรฉes (les 3V ยป, notions relatives et difficiles ร cerner), mais bien les processus associรฉs au traitement des donnรฉes, c’est-ร -dire lโoptimisation permise par une technologie et les capacitรฉs de reprรฉsentation facilitant une analyse pour une prise de dรฉcision. Ces deux caractรฉristiques ne semblent pas pourtant pointer une nouveautรฉ particuliรจre en dehors des progrรจs au niveau des outils et processus associรฉs. Cependant, grรขce ร la troisiรจme caractรฉristique, cette dรฉfinition embrasse la prise de conscience et le buzz autour du phรฉnomรจne, tout en les mettant en perspective de faรงon critique. Dans la suite de cette thรจse, le Big Data portera le sens de cette dรฉfinition, en considรฉrant le Big Data comme un phรฉnomรจne sociotechnique dont les avantages rรฉels devraient รชtre critiquรฉs et examinรฉs avec attention.
Le rapport de stage ou le pfe est un document dโanalyse, de synthรจse et dโรฉvaluation de votre apprentissage, cโest pour cela chatpfe.com propose le tรฉlรฉchargement des modรจles complet de projet de fin dโรฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร avoir et savoir comment construire les parties dโun projet de fin dโรฉtude.
|
Table des matiรจres
Introduction du contexte
1 Lโhomme et la donnรฉe : un historique multidisciplinaire
1.1 La donnรฉe, une affaire dโEtat millรฉnaire
1.2 Les progrรจs technologiques et informatiques
1.3 Le ยซ Big Data ยป : des origines du terme au phรฉnomรจne sociotechnique
2 Les enjeux Big Data pour les communautรฉs dโacteurs
2.1 Les pouvoirs publics au service de la recherche et de lโEcosystรจme Big Data
2.2 Le buzz face au grand public et aux entreprises
3 Une prise de position des SIC au coeur du phรฉnomรจne Big Data
3.1 Dรฉbat รฉpistรฉmologique
3.2 Spรฉcificitรฉs de lโangle de vue
Premiรจre partie : Problรฉmatique et cadre conceptuel
1 Problรฉmatique
1.1 Les processus propres aux dispositifs projet data sont-ils efficients ?
1.2 Quelle est la valeur gรฉnรฉrรฉe par ces projets ?
1.3 Quelle est la nature de la mรฉdiation humaine dans les projets de Data Science ?
2 Plan de thรจse
3 Cadre conceptuel
3.1 Processus du projet data
3.1.1 Projet, gestion de projet et processus
3.1.2 Modรฉlisation de processus en Data Science
3.1.3 Mรฉthodes de prise en compte de la technologie dans le processus data
3.1.4 Synthรจse des limites des modรจles actuels et pistes de recherche
3.2 Indicateurs de valeur
3.2.1 Entreprise, stratรฉgie, savoir-faire et usages
3.2.2 Mesure de la performance et prise de dรฉcision
3.2.3 Valeur de lโinformation et de la donnรฉe
3.2.3.1 Le paradoxe de la valeur รฉconomique de lโinformation
3.2.3.2 Chaine de valeur de la donnรฉe
3.2.3.3 Valeur des usages issus des progrรจs sur la chaine des donnรฉes
3.3 Qualitรฉ des donnรฉes
3.3.1 Des approches opรฉrationnelles diffรฉrents selon les disciplines
3.3.1.1 Le besoin de qualitรฉ pour les Sciences de Gestion
3.3.1.2 La rรฉponse de lโInformatique : des indicateurs de qualitรฉ gรฉnรฉriques
3.3.1.3 Les SIC : une approche de la qualitรฉ des donnรฉes orientรฉe sur le sens
3.3.2 Enjeux de gouvernance ร lโรฉchelle de lโentreprise
3.3.3 Lโalgorithme, un nouveau type de modรจle de donnรฉes ร qualifier
3.4 Mรฉdiation Homme-Donnรฉes et co-construction de sens
3.4.1 Acteurs et cadre de compรฉtences mobilisรฉes
3.4.1.1 Intelligence Economique et Knowledge Management, en retrait
3.4.1.2 Mรฉdiateurs humains et techniques
3.4.1.3 Data Scientists : un nouvel รฉventail de compรฉtences encore instable
3.4.2 Interactions au sein dโun projet data
Deuxiรจme partie : Terrains et Mรฉthodes
1 Choix du terrain
2 Approche mรฉthodologique
2.1 Recherche-action
2.2 Posture du chercheur
2.3 Etude de cas multiples
2.4 Stratรฉgie dโobservation
2.4.1 Un protocole construit et sous contraintes
2.4.2 Conception de lโรฉchantillon dโรฉtudes de cas
2.4.3 Recueil dโobservations et modรฉlisation itรฉrative de rรฉsultats
Troisiรจme partie : Rรฉsultats
1 Exposรฉ des รฉtudes de cas
1.1 Synthรจse des รฉtudes de cas
1.2 Prรฉ-expรฉrimentation
1.2.1 Cas A : Dispositif tรฉlรฉmatique ยซ urgence ยป
1.2.1.1 Contexte et enjeux
1.2.1.2 Synthรจse des rรฉsultats
1.2.1.3 Observations clรฉs
1.2.2 Cas B : Cancer du sein triple nรฉgatif
1.2.2.1 Contexte et enjeux
1.2.2.2 Synthรจse des rรฉsultats
1.2.2.3 Observations clรฉs
1.2.3 Cas C : Placement Publicitaire
1.2.3.1 Contexte et enjeux
1.2.3.2 Synthรจse des rรฉsultats
1.2.3.3 Observations clรฉs
1.3 Cas rรฉalisรฉs et dรฉtaillรฉs
1.3.1 Cas 1 : Attrition en assurance santรฉ
1.3.1.1 Contexte et enjeux
1.3.1.2 Synthรจse des rรฉsultats
1.3.1.3 Observations clรฉs
1.3.1.4 Compte rendu du projet
1.3.2 Cas 2 : Prรฉvision dโactivitรฉ
1.3.2.1 Contexte et enjeux
1.3.2.2 Synthรจse des rรฉsultats
1.3.2.3 Observations clรฉs
1.3.2.4 Compte rendu du projet
1.3.3 Cas 3 : Prรฉvention santรฉ prรฉvoyance
1.3.3.1 Contexte et enjeux
1.3.3.2 Synthรจse des rรฉsultats
1.3.3.3 Observations clรฉs
1.3.3.4 Compte rendu du projet
1.3.4 Cas 4 : Contrรดles de non-conformitรฉ
1.3.4.1 Contexte et enjeux
1.3.4.2 Synthรจse des rรฉsultats
1.3.4.3 Observations clรฉs
1.3.4.4 Compte rendu du projet
1.4 Cas rรฉalisรฉs non dรฉtaillรฉs
1.4.1 Cas 5 : Sinistres lourds en dommage aux biens
1.4.1.1 Contexte et enjeux
1.4.1.2 Synthรจse des rรฉsultats
1.4.1.3 Observations clรฉs
1.4.2 Cas 6 : Prรฉdiction des prix des agrumes
1.4.2.1 Contexte et enjeux
1.4.2.2 Synthรจse des rรฉsultats
1.4.2.3 Observations clรฉs
1.4.3 Cas 7 : Multi-รฉquipement
1.4.3.1 Contexte et enjeux
1.4.3.2 Synthรจse des rรฉsultats
1.4.3.3 Observations clรฉs
1.5 Etat des lieux des observations clรฉs
2 Modรจle de dispositif projet Data Science et ses dimensions dรฉgagรฉes
2.1 Modรจle CRISP_DM et รฉtudes de cas : analyse comparative
2.1.1 Critique des phases, des tรขches et des rรฉsultats
2.1.1.1 Prise en compte tardive des usages
2.1.1.2 Facilitation insuffisante de lโinterprรฉtation des rรฉsultats
2.1.1.3 Insuffisance de la tรขche de sรฉlection des donnรฉes
2.1.2 Critique des dรฉpendances et de la cyclicitรฉ
2.2 Proposition de modรจle de dispositif de projet data : Brizo_DS
2.2.1 Orientation sur usage
2.2.1.1 Nouveautรฉ des usages
2.2.1.2 Usages directs et indirects
2.2.1.3 Lโinteraction comme vecteur de convergence sur les usages
2.2.2 Indicateurs clรฉs : bรฉnรฉfices, ressources et incertitudes
2.2.2.1 Bรฉnรฉfices
2.2.2.2 Ressources
2.2.2.3 Incertitudes
2.2.2.4 Cadre dโรฉvaluation
2.2.3 Processus de rรฉduction dโincertitudes
2.2.3.1 Rรฉduction dโincertitudes analytiques
2.2.3.1.1 Livrables intermรฉdiaires de la production analytique
2.2.3.1.2 Chemin de traitement des donnรฉes et gestion des versions
2.2.3.2 Rรฉduction dโincertitudes mรฉtier
2.2.3.3 Dynamique de rรฉรฉvaluation des incertitudes projet
2.2.3.4 Tactiques dโallocation de ressources
2.2.3.5 Suite et รฉlargissement : vers une gestion de portefeuille de projets data
2.3 Qualitรฉ des donnรฉes
2.3.1 Databook : documentation dynamique de la qualification des donnรฉes
2.3.2 Gouvernance des donnรฉes et mรฉtriques propres aux algorithmes
2.4 Dispositif de Mรฉdiation Homme-Donnรฉes
3 Discussion des limites de ces travaux de recherche
3.1 Spรฉcificitรฉs du terrain chez Quinten
3.2 Limites de la recherche action
3.3 Un marchรฉ non stabilisรฉ
Conclusions et perspectives de recherche
1 Un nouveau modรจle de dispositif ยซ projet data ยป : Brizo_DS
2 La valeur des projets data
2.1 La valeur de la rรฉduction dโincertitudes
2.2 Databook : une mรฉmoire de la dynamique de construction des algorithmes
3 Mรฉdiation Homme-Donnรฉes
4 Pistes de recherche
Bibliographie
Annexes
Tรฉlรฉcharger le rapport complet