Télécharger le fichier pdf d’un mémoire de fin d’études
Méthodes de prise en compte de la technologie dans le processus data
Le support technique mobilisé tout le long du processus data fait l’objet de nombreuses publications, et semble nécessiter une remise en ordre des grandes familles d’outils disponibles pour ce type de projet. D’une part, se développe un ensemble d’outils capables de capter, stocker et mettre à disposition des données brutes : il s’agit traditionnellement de Data Warehouses, Data Marts, et, sous l’impulsion du développement des technologies Big Data, des Data Lakes. D’autre part, la propagation de la Data Science s’accompagne du développement de plateformes de Data Science qui permettent de traiter les données recueillies, et notamment réaliser les étapes de structuration et de modélisation : ces plateformes incluent des algorithmes et leurs outils d’évaluation. La mise à disposition des résultats issus de cette exploration s’appuie, quant à elle, sur les interfaces de restitution, notamment les outils de Data Visualisation. Enfin, de nouveaux outils dédiés voient le jour dans le cadre de l’industrialisation de solutions métier embarquant des modèles algorithmiques automatisés : ces outils sont interfacés avec les données source en amont et alimentent, complètent ou remplacent les outils de prise en décision en aval. L’évocation de la phase de déploiement dans le processus d’exécution de projet data semble couvrir des éléments hétérogènes selon l’angle choisi par les chercheurs, voire être propre à l’offre de l’éditeur lorsqu’il s’agit de modèles développés par les entreprises comme IBM7. Ces offres technologiques commerciales sont complétées par l’Open Source qui nourrit largement les projets data, ce qui complexifie le choix des solutions technologiques et crée un manque de visibilité sur la place de la technologie dans le modèle projet global. Nous distinguerons plus particulièrement les solutions destinées à l’équipe projet pour l’exécution du projet data (apprentissages exploratoires), et les solutions applicatives opérationnelles (solution résultant du projet data destinée à soutenir un usage métier).
Deux écoles de développement de solutions applicatives opérationnelles se profilent : la première s’appuie sur les modèles en cascade, issus de l’ingénierie (Rohanizadeh & Moghadam, 2009), avec une anticipation des solutions en amont du projet et leur implémentation en aval, et la deuxième issue de la méthode agile (Abdel & El Sheikh, 2011). Lancées sous l’influence de la méthode RAD (Rapid Application Development) (Martin, 1991) et regroupées sous l’impulsion du manifeste pour le développement Agile des logiciels8 de 2001, les méthodes agiles mettent au coeur de la création d’applications le mode itératif, incrémental et adaptatif. Ces méthodes permettent de contrer l’une des limites principales du modèle en cascade, c’est-à-dire son absence de réactivité face aux incertitudes, liée à la rigidité de l’expression initiale des besoins. En revanche, ils présentent un risque fort en termes de qualité des résultats et de manque de documentation, qui ne constitue pas le mode de transmission privilégié : les échanges humains tiennent en effet une place prépondérante, avec partage de connaissances tacites ou explicites. Ces deux approches peuvent toutefois être mixées, ce qui donne des approches Data Science comme ASD-DM (Adaptive Software Development) (Alnoukari et al., 2008) ou Agile Knowledge Discovery in Databases Process Model (Nascimento & Oliveira, 2012). Ce dernier constitue plus précisément un processus de développement de solution applicative, inspiré des modèles de projet data traditionnels et l’OpenUP dont il emprunte les « disciplines » comme la conduite de changement et la gestion de projet. Cet emprunt ne semble pas constituer une innovation en soi, mais apporte les premiers éléments de convergence entre la modélisation de projets data, la méthode de développement d’applicatifs et les modèles de projet classiques. Le modèle accentue l’importance du rôle des utilisateurs sans donner de précisions sur les modalités de son exercice.
Si les méthodes agiles semblent faire le buzz outre-Atlantique, en particulier la méthode Scrum où un Product Owner représente l’intérêt des utilisateurs d’un applicatif à développer par une équipe menée par un « maître de mêlée » facilitateur des interactions, elles restent critiquées en France pour leur incomplétude et leur manque d’adéquation avec l’organisation complexe des entreprises (Khalil, 2011). Prônant l’auto-organisation des équipes, elles s’appliquent essentiellement à des équipes d’informaticiens, réduites en nombre et rapprochées dans un espace commun, et ne remplacent pas le besoin de méthodes classiques de gestion de projet. Par ailleurs, elles ne répondent pas suffisamment au besoin de mobiliser une équipe multi-compétente sur un projet data, qui n’est pas réduit au seul codage de la solution applicative.
Plusieurs tentatives récentes de rapprochement entre les processus projet classiques, les processus de développement itératif de solutions applicatives et les processus projets data, en particulier selon le modèle CRISP_DM, ont permis de générer des modèles assez complets et opérationnels. Par exemple, le modèle dit « Data Ring », crée par deux praticiens italiens et repris par des acteurs comme IFC (Caire et al., 2017; Camiciotti & Racca, 2015), établit une check liste opérationnelle des éléments à prendre en compte de façon itérative au cours d’un projet data, comprenant les objectifs, les outils, les compétences, les processus et la valeur. Le canevas du modèle a l’avantage d’être assez complet (bien que complexe à utiliser), et propose des pistes de réflexion sur la nature du livrable du projet data sous forme de 5 choix :
– Un processus automatisé (transformation de données d’entrée fiables en résultat)
– Un MVP (Minimum Viable Product, c’est-à-dire un concept de produit et de processus dont le résultat témoigne d’une valeur essentielle)
– Un Prototype (concept de produit avec un déploiement, une facilité d’utilisation et une fiabilité basiques)
– Un Produit (concept éprouvé, déployé de façon fiable, et ayant démontré la proposition de valeur)
– Une Production (produit systématiquement déployé et livré aux utilisateurs)
Le Data Ring (voir Figure 10) s’appuie sur une hypothèse de base qui consiste à admettre que les objectifs du projet ne soient pas toujours clairs, et que l’usage ne soit pas complètement anticipé. L’incomplétude potentielle de l’usage est alors contournée grâce à la recommandation de produire un MVP, puis de procéder de façon itérative pour le transformer en prototype. Toutefois, la méthode n’exclut pas non plus la découverte, à condition que celle-ci soit générée de façon structurée à travers un test d’hypothèses. Cette proposition de modèle a par ailleurs l’avantage de regrouper un spectre large d’améliorations apportées au modèle de référence, CRISP_DM, en donnant un outil de pilotage transversal qui rapproche le modèle de la gestion de projet classique. Le modèle omet cependant la génération de nouvelles connaissances et d’usages indirects, et n’évoque pas de capitalisation de savoirs particulière, ce qui maintient l’inconvénient d’un modèle autocentré.
Synthèse des limites des modèles actuels et pistes de recherche
La revue des modèles de projet permet d’identifier un ensemble de similitudes. Tout d’abord, les modèles pointent l’importance de l’interaction entre les utilisateurs et l’équipe projet data. Cette interaction est définie comme clé dans la phase amont du projet, sous forme de compréhension métier ou de définition de la stratégie et des objectifs du projet. Cependant, cette interaction semble présente à chaque étape du projet, et notamment au cours de l’évaluation des résultats construits de façon itérative. Les modalités de ces interactions ne sont que peu décrites, voire sont contradictoires selon les approches de la gestion de projet, notamment entre les modèles en cascade et le mode agile. Ensuite, aucun modèle ne semble relier la notion de découverte à un capital de connaissances préexistant ou généré au cours du projet, en particulier lorsque la génération de connaissances est exclue des modèles au profit de la construction de solutions applicatives. Enfin, les spécificités de la notion de valeur semblent floues : bien que certains modèles la mettent en perspective avec les méthodes d’évaluation classiques de gestion de projet, aucun de pointe de particularités d’évaluation de valeur propres aux projets data. Ces similitudes semblent liées à la difficulté à établir un cadre commun de génération de valeur à travers l’usage, dont les définitions divergent entre la génération de connaissances et le déploiement de solutions applicatives.
Face à cet état de l’art du concept de la modélisation de l’exécution de projets data, le modèle CRISP_DM, stable et le plus fréquemment utilisé comme modèle de référence à la fois pour la génération de connaissances (Provost & Fawcett, 2013a) et pour la conception de solutions métier (Caire et al., 2017; Camiciotti & Racca, 2015), est identifiée comme le plus approprié pour servir de référence à l’analyse des études de cas. Le vocabulaire mis à part, ce modèle CRISP_DM regroupe à la fois un socle pour une gestion de projet en cascade, et un cycle de vie itératif plus propre aux méthodes agiles, et ouvre l’éventail des possibilités à un ensemble de méthodes intermédiaires. Il permet alors de s’affranchir du choix des méthodes de gestion de projet pour mieux couvrir la richesse des finalités potentielles de ces projets et de se concentrer sur l’usage.
Au-delà de cette définition vaste d’usage, la prise en compte de la qualité des données semble mise à l’écart. Seul le modèle SMART inclut la préqualification des données dans la phase initiale, les autres modèles isolent cette tâche dans la phase de préparation des données pour l’alimentation des modèles. Or, la qualité des données semble non seulement relative, mais aussi dépendante de l’activité de l’entreprise en amont des projets, et de l’activité réalisée au cours du projet, ce qui nécessite une fois de plus d’envisager une capitalisation sur cet axe. Ces éléments pointent le manque d’ancrage des modèles de projets data, autocentrés, dans l’activité l’entreprise et dans son évolution à travers la transformation du capital de connaissances.
Etant donné ces limites des modèles actuels, et plus particulièrement du modèle de référence (CRISP_DM), une piste de recherche s’ouvre sur la construction d’un modèle global plus évolué, s’inscrivant dans une temporalité observable sur le terrain et faisant l’objet d’un enrichissement sur les 3 dimensions identifiées comme prioritaires à l’issue de la revue de la littérature : il s’agit des indicateurs de valeur, de la qualité des données, et de la médiation entre acteurs impliqués et données.
Indicateurs de valeur
Les indicateurs stratégiques constituent l’un des angles d’observation privilégiés des études de cas, étant donné qu’ils constituent l’une des finalités principales et directes des projets data au sens global : en effet, ces projets visent généralement une création de valeur quantifiable et l’amélioration de la performance de l’entreprise, or celles-ci sont reflétées par un ensemble d’indicateurs propres à chaque entreprise. Ayant écarté du terrain de recherche l’implémentation de nouveaux business modèles grâce au Big Data, les résultats des projets data ne se positionnent pas en remplacement des produits ou services existants : ils contribuent uniquement à perfectionner les avantages concurrentiels pour répondre à un enjeu stratégique. Cet avantage peut être traduit par des indicateurs de performance classiques, inscrivant les projets data dans une stratégie globale comme vecteur de performance causal, ce qui ne les distingue pas des arbitrages et projets habituels, et ne les place pas en rupture malgré l’innovation apportée. En revanche, de nouveaux paramètres apparaissent localement sous forme d’indicateurs de performance d’activité d’un métier restreint, de données d’entrée nouvelles et opérationnelles, de produits informationnels inédits, ou encore d’éléments de mesure de l’activité métier au service de sa performance. Si la complexité et les spécificités des systèmes d’évaluation de la performance en entreprise ne permettent pas d’établir des indicateurs précis et exhaustifs visés par ces projets, il reste utile et opérationnel d’identifier les catégories d’éléments impactés. L’hypothèse de création d’éléments de valeur est alors mise à l’épreuve à travers les études de cas pour tendre vers un modèle générique de génération de valeur. Cette analyse est réalisée à travers la mobilisation de l’approche systémique des organisations et la catégorisation des natures de valeur générée par les projets data, permettant une mise à plat de l’impact de projets data sur le fonctionnement d’une entreprise et visant la simplification de l’appropriation de la valeur.
Entreprise, stratégie, savoir-faire et usages
Une entreprise est une organisation qui désigne « l’ensemble de moyens structurés, constituant une unité de coordination, ayant des frontières identifiables, fonctionnant en continu, en vue d’atteindre un ensemble d’objectifs partagés par l’ensemble de ses membres » (Robbins & Judge, 2011). Basée sur l’approche dite biologique (Von Bertalanffy, 2012) de la théorie des organisations, la notion d’organisation fait l’objet de nombreux travaux de recherche depuis 1950. Autre notion issue de la recherche biologique, le holisme, défini à l’origine comme « la tendance dans la nature de former des ensembles (des « wholes ») qui sont plus grands que la somme de leurs parties au travers de l’évolution créative » (Smuts Hon J. C, 1927), est un élément important pour ces travaux : en effet, l’étude d’un sous-système, comme par exemple un centre fonctionnel isolé (marketing, contrôle de gestion…) ne parait pas suffisante pour décrire l’évolution globale d’une entreprise.
La notion d’organisation, abordée selon une analyse systémique, tient par ailleurs de l’approche cybernétique développée au cours de la seconde moitié du XXème siècle (Wiener, 1948). Un système peut alors être défini comme un « ensemble d’éléments en interaction dynamique organisé en fonction d’un but » (Rosnay, 1991), et l’organisation est alors considérée comme un système ouvert en interaction avec son environnement. Si l’analyse classique de l’organisation, cartésienne, cherchant à démontrer et à obtenir des certitudes, reste compatible et complémentaire avec l’analyse systémique (Guerra, 2007), cette dernière, visant la compréhension et la maîtrise sans chercher de certitudes, a deux avantages dans le cadre de ces travaux de recherche. D’une part, elle permet une simplification face à la complexité croissante des organisations actuelles, dans un contexte de mondialisation et d’intensification des échanges internes et externes en termes de flux transactionnels, énergétiques, physiques et informationnels. Et d’autre part, elle offre la possibilité de dégager des caractéristiques du phénomène étudié à travers le prisme de son impact sur des organisations délimitées dans un environnement, sans pour autant se restreindre à une analyse cartésienne de cet impact.
« La pensée systémique est une discipline […] qui permet d’étudier les interrelations plutôt que les éléments individuels, d’observer les processus de changements. Ce mode de raisonnement devient plus nécessaire que jamais car nous sommes dépassés par la complexité. Pour la première fois dans l’histoire de l’humanité, l’homme est capable de créer des quantités d’information plus grandes que ce qu’il peut absorber, de concevoir des relations d’interdépendances plus complexes que ce qu’il est capable de gérer, et d’accélérer le changement à un rythme que personne n’est capable de suivre » (Senge, 1990, p. 95). Cette définition du cadre conceptuel de l’approche systémique, formulée par Peter M. Senge en 1990, semble faire un clin d’oeil à la définition populaire du Big Data à l’heure du buzz, c’est-à-dire « l’ensemble de données qui devient tellement volumineux qu’il en devient difficile à travailler avec des outils classiques de gestion de bases de données ou de gestion de l’information »9.
Un système est défini par une frontière, une finalité, une évolution dans le temps et une organisation (Guerra, 2007). La première caractéristique implique une séparation entre le système et son environnement : le Big Data en tant que phénomène fait partie de l’environnement des systèmes étudiés, c’est-à-dire des entreprises, l’Ecosystème Big Data étant considéré comme un système en soi. Ces systèmes étudiés sont nécessairement ouverts, c’est-à-dire qu’il existe une interaction entre le système et les composantes de son environnement (flux financiers, technologiques, culturels…) (voir Figure 11). La deuxième caractéristique suppose l’intention d’atteindre un objectif fixé : il s’agit de la stratégie, et par conséquent des mesures de contrôle de la trajectoire stratégique définie, les métriques étant des outils de mesure de l’objectif et d’atteinte de cet objectif. La troisième caractéristique permet de cibler les systèmes étudiés grâce à la notion de temporalité : l’analyse de l’évolution implique l’existence du système dans le passé et d’une dynamique. Enfin, la dernière caractéristique renvoie à la notion d’organisation détaillée, soit la structure et les processus du système analysé.
Mesure de la performance et prise de décision
L’évolution des objectifs et de l’environnement des entreprises repousse le modèle taylorien-fordiste visant la production de masse, et montre les limites de modèles de contrôle de la productivité et de la rentabilité financière. La performance peut s’exprimer à ce jour en termes plus variés (délais, qualité, conformité…), et provient de la nécessité d’apprendre des erreurs passées. L’analyse de l’évolution de la notion de performance en entreprise conduit à la définition générale (ou plutôt un ensemble de caractéristiques) suivante (Lebas, 1995) : « la performance n’est pas une simple constatation, elle se construit. Elle est le résultat d’un processus de causalité. Elle est une indication d’un potentiel de résultats futurs. Elle se définit par un vecteur de paramètres reflétant le modèle de causalité dans l’espace et dans le temps. Elle n’a de sens que par rapport à une prise de décision. Elle est relative à un contexte choisi en fonction de la stratégie. Elle est spécifique à un utilisateur et à une stratégie. Elle correspond à un domaine d’action et à un horizon de temps. Elle résulte de la définition d’un champ de responsabilité et le définit en retour ».
La mesure de la performance consiste alors dans un premier temps à définir les objets de mesure, c’est-à-dire des points stratégiques, à leur associer des indicateurs de performance (KPI en anglais, Key Performance Indicator), puis à restituer l’évolution de ces indicateurs pour permettre la prise de décision. Les KPIs doivent être fidèles aux objectifs, rapidement chiffrables en cours d’exercice, additifs pour remonter dans l’organisation. Historiquement, ils peuvent être de 4 types : des quantités à produire ou à vendre, des recettes à réaliser, des dépenses correspondant aux moyens à consommer et un niveau de qualité à respecter. La mesure de la performance classique a été bouleversée par la diffusion des tableaux de bord prospectifs (Kaplan & Norton, 1996) (« balanced scorecard »), qui permet de synthétiser les KPIs à un instant donné, de mettre en relation les indicateurs financiers et non financiers, internes et externes. Les indicateurs financiers objectifs et facilement quantifiables et le résultat des efforts passés sont en effet doublés d’indicateurs (« enablers », ou « drivers ») des performances futures, subjectifs, ce qui relie la stratégie aux facteurs opérationnels. 4 axes d’indicateurs sont généralement représentés de façon « équilibrée » : finance, client, processus et apprentissage opérationnel, ce qui en fait l’un des outils théorisés des plus complets pour l’entreprise.
La conception des indicateurs est fondamentalement top-down, traduisant les orientations stratégiques en commençant par les résultats financiers. Or, des objectifs différents supposent que l’entreprise ne mesurera pas les mêmes processus selon la stratégie qu’elle s’est fixée. Ainsi, le tableau de bord prospectif permet de mettre le doigt sur des processus, donc des indicateurs, qui auraient été invisibles selon la démarche classique. Cette personnalisation des indicateurs ne passe pas à côté de la recherche de causalité qui relie les indicateurs, bien que la causalité entre certains facteurs opérationnels et les indicateurs stratégiques s’avère parfois difficile à prouver (Lippman & Rumelt, 1982), construisant un réseau de relations de cause à effets appelé « la carte stratégique ». Chaque indicateur résulte d’un modèle de calcul, défini a priori en fonction des objectifs de mesure, et basé sur un ensemble de données qui représentent une perception de la réalité terrain. Par ailleurs, en partant du principe qu’« un objet est déterminé par la marge d’erreur qui le sépare à un moment donné de l’objectif qu’il cherche à atteindre » (Rosenblueth et al., 1943), selon les objectifs et les priorités définis par la stratégie d’une entreprise, chaque indicateur n’aura pas le même impact sur la prise de décision.
Mais l’établissement des indicateurs pertinents n’est pas suffisant : il est nécessaire de fournir aux décideurs des outils de visualisation de ces indicateurs en tant qu’aide à la prise de décision. L’ergonomie de la présentation dite « Management Cockpit » (George, 2002), permettant une appropriation plus adaptée aux compétences cognitives des managers, l’intégration d’indicateurs non financiers au sein d’un tableau de bord prospectif (Kaplan & Norton, 1996), l’orientation Business Intelligence de la méthode GIMSI (Fernandez, 2000) ou la déclinaison d’indicateurs top-down par périmètre de responsabilité selon la méthode OVAR (Fiol et al., 2004) sont des méthodes qui aboutissent à la conception et à la mise en oeuvre d’un ensemble d’indicateurs de performance traduisant la stratégie d’une entreprise en leviers de pilotage. Ces méthodes, principalement basées sur une déclinaison descendante de la stratégie, s’opposent aux constructions valorisant le capital humain, plus bottom-up, de type Navigator Skandia (Wegmann, 2008). De façon plus réduite, un acteur de l’entreprise peut avoir accès à ses propres outils de visualisation d’informations utiles à son périmètre de prise de décision défini dans le cadre de la stratégie de l’organisation. Ces outils peuvent alors descendre à la maille la plus fine des indicateurs, y compris aux données brutes si la nature de cette donnée brute est interprétée comme un driver de performance.
En théorie, les outils évoqués (Business Intelligence, tableaux de bord, reportings, applicatifs métier dédiés…) sont opérationnels et comportent des Data Visualisations, destinées à fournir aux responsables les informations lisibles et confortablement utiles en termes de qualité, de temporalité et de pertinence afin d’actionner des leviers à leur disposition. En pratique, les entreprises ne sont pas à ce jour toutes équipées de ces outils, ou sont en attente de progrès informatiques sur ce sujet. En effet, une meilleure identification des facteurs de performance et une restitution efficiente des mesures de la performance permettrait d’apprendre plus rapidement, ce qui constitue un avantage concurrentiel. Or, l’un des problèmes majeurs des entreprises, qui ont tendance à complexifier leur organisation et leur système de production, est celui de la surabondance (Ackoff, 1967; Edmunds & Morris, 2000) de données. Une transformation des données en informations intelligibles et de confiance, utiles à la prise de décision managériale est alors indispensable, ce qui a lieu lors de la mise en place de ces outils et de leur utilisation récurrente. Leur conception comprend la sélection des informations en ligne avec les objectifs stratégiques, la sélection et le nettoyage des données, l’automatisation de la transformation des données, le contrôle de la cohérence des résultats, et la restitution ergonomique des informations permettant une interprétation aisée. Les progrès réalisés sur ces technologies visent essentiellement à équiper de plus en plus les différents preneurs de décision, et à dégager progressivement de plus en plus de temps aux décideurs pour le travail analytique des indicateurs restitués au lieu de les produire.
La limite de ces méthodes de définition de la mesure de la performance est un manque d’espace laissé pour l’évolution et l’émergence de nouveaux indicateurs dans la phase de déploiement du pilotage stratégique. D’autres approches sont proposées pour faire face au besoin d’intégrer les incertitudes liées à l’environnement de l’entreprise, comme l’adoption des systèmes en Open Source (Chau & Tam, 1997) pour répondre aux besoin d’innovation, ou bien des méthodes de création de programmes de KPIs efficients (Kaskinen, 2007). Ces méthodes prônent notamment plus de flexibilité en termes d’analyse descriptive et de reporting, ainsi que la mise en place de processus d’amélioration continue. L’évolution des tableaux de bord grâce à l’intégration de briques de type « Business Analytics » dans les outils de Business Intelligence classique (Fernandez, 2013) fait partie des progrès attendus dans ce sens. Au-delà des outils de Data Visualisation de nouvelle génération, ces outils permettent de faciliter l’accès à l’information et l’investigation humaine grâce à l’analyse des données passées, mais aussi l’identification de tendances futures, ou la génération de recommandations de décisions optimales, voire automatiques. Communément, trois familles d’analyses (Raiffa et al., 1988) sont identifiées : les analyses descriptives (comment et pourquoi a lieu un phénomène ?), normatives (que va-t-il se passer dans des conditions idéales et identiques), et prescriptives (que faire pour maximiser le phénomène, en conditions réelles). Ces dernières visent une évaluation de la valeur pragmatique, c’est-à-dire la capacité des analyses à aider les décideurs, ou alors à les remplacer dans la prise de décision. Cette catégorisation est reprise par Gartner en 2014 pour illustrer les apports potentiels des différentes approches analytiques pour la prise de décision, en remplaçant notamment le terme « normatif » par « prédictif », plus proche du champs lexique du phénomène Big Data (voir Figure 13).
Le paradoxe de la valeur économique de l’information
La valeur économique, au sens classique d’Adam Smith, distingue la valeur d’échange et la valeur d’usage. La valeur d’échange permet de définir un prix objectif résultant des conditions de production d’un bien ou d’un service : il s’agit d’un calcul des coûts des ressources mobilisées, comme la matière première, le travail ou encore le coût du capital, considérés comme plus ou moins prépondérants selon les courants de pensée. Elle sert de socle pour l’estimation d’une valeur de marché, c’est-à-dire la valeur matérielle d’un bien impactée par des facteurs d’offre et de demande entre agents informés sur la nature du bien. La valeur d’usage, quant à elle, consiste à estimer les avantages économiques futurs attendus de l’utilisation d’un actif. Elle est par définition dépendante des préférences d’un agent donné, dans un contexte précis. Ancienne et intuitive, elle a longtemps été considérée comme une valeur psychologique, et non pas économique, issue d’un processus d’évaluation subjectif du prix que l’agent serait prêt à payer, avant d’être remise au gout du jour par le courant marginaliste. L’utilité marginale est alors liée à la consommation d’une unité complémentaire de bien ou de service. Généralement, l’utilité marginale décroit avec le nombre de biens ou de services consommés, sauf dans certains cas comme des biens addictifs ou dans le cadre de l’effet réseau (Bomsel, 2007), cher au déploiement des télécoms, puis d’internet et des réseaux numériques.
Cependant, la valeur économique est difficilement applicable à l’information en tant que bien ou service pour lequel des acheteurs souhaitent payer un prix. Tout d’abord, il existe un déséquilibre entre son coût de production élevé (fixe) et son coût de reproduction quasi nul (marginal), ne diminuant pas sa valeur (Shapiro & Varian, 1998). Ensuite, l’appréciation de la valeur de l’information est postérieure à sa consommation, ce qui empêche un alignement entre le prix, au sens de valeur de marché, et la valeur de l’information. Enfin, l’utilisation de l’information ne la « consomme » pas, elle est dans ce sens inépuisable, tout en étant très volatile, en particulier dans le cadre d’une prise de décision. En effet, les délais entre un évènement, l’acquisition d’information sur l’évènement et la prise de décision face à cet évènement, elle-même dépendante du temps d’activation des leviers possibles, peuvent faire varier drastiquement l’utilité de l’information en question.
Valeur des usages issus des progrès sur la chaine des données
Si la valeur d’usage semble généralement la plus mise en avant11 pour aborder la création de valeur en bout de chaîne de traitement des données, la génération d’une valeur économique plus complexe, au-delà de l’effet restreint sur la prise de la décision, n’est pas absente des débats. Salaün propose, par exemple, de distinguer l’information (contenu) et le « document » (contenu, forme et relation) qui l’englobe (Salaün et al., 2011). En effet, « la valeur [de l’information] est la perception et le jugement qu’un acteur donné a en tête au moment d’un choix à faire (achat, investissement…). Elle le conduit à décider d’acheter ou non, ou encore de préférer telle solution à telle autre. La valeur, construction mentale de l’acteur-décideur, est contextuelle, conjecturelle (spéculation sur les avantages et les inconvénients) et surtout subjective (propre à l’acteur sujet décideur). Cette valeur « décisionnelle » est une mise en relation entre un certain nombre d’avantages (services rendus, impacts espérés…) et des efforts à faire, de l’argent ou du temps à dépenser. ». Le document, quant à lui, s’inscrit dans une logique de production et de marché. Salaün explore l’articulation entre la valeur d’usage de l’information et la valeur économique classique du document à travers l’évolution des modèles économiques de l’industrie de l’information et de la confrontation entre le droit d’auteur européen et le droit à l’information anglo-saxon. Il propose des dimensions de valeur au-delà du simple accès à l’information sous forme de pistes, comme une mise à disposition plus efficiente des documents (synthèses, interfaces plus intuitives, implication plus directe d’acteurs multiples et leur formation…), une augmentation de la qualité des contenus (richesse, critique des sources, éditorialisation plus intelligente…), une personnalisation de l’usage de l’information (intégration dans des projets personnels, géolocalisation…), ou encore la dynamisation informationnelle. Toutes ces pistes impactent potentiellement les business modèles liés à la production et au marché du document. Les pistes de génération de valeur évoquées à travers l’évolution de la chaîne de valeur de la donnée renvoient ainsi bien à valeur du « document », qui comprend non seulement le contenu, mais aussi sa forme et sa relation, c’est-à-dire ses modalités anthropologiques, intellectuelles et sociales (Salaün, 2007).
Une autre version de proposition de valeur, ambitieuse et annoncée comme révolutionnaire, est offerte par Cukier et Mayer-Schönberger en 2013. Il s’agit d’une catégorisation de « valeurs des données » : si le terme est ici un abus de langage qui télescope la chaîne de traitement de la donnée, il fait essentiellement référence à la façon de mesurer la valeur à travers des usages directs, mais surtout indirects (Mayer-Schönberger & Cukier, 2013) :
– La valeur d’option : création d’un véritable marché de la connaissance autour d’usages secondaires, telle la face immergée de l’iceberg, à forts enjeux de standardisation dont se sont emparées les sociétés les plus innovantes dans l’Ecosystème Big Data (par exemple, collecte et traitement prédictif de données sur les véhicules connectés de Honda par IBM pour prévoir les meilleures périodes de recharge et les lieux pour construire les stations de recharge)
|
Table des matières
Liste des annexes
Préambule
Introduction du contexte
1 L’homme et la donnée : un historique multidisciplinaire
2 Les enjeux Big Data pour les communautés d’acteurs
3 Une prise de position des SIC au coeur du phénomène Big Data
Première partie : Problématique et cadre conceptuel
1 Problématique
2 Plan de thèse
3 Cadre conceptuel
Deuxième partie : Terrains et Méthodes
1 Choix du terrain
2 Approche méthodologique
Troisième partie : Résultats
1 Exposé des études de cas
2 Modèle de dispositif projet Data Science et ses dimensions dégagées
3 Discussion des limites de ces travaux de recherche
Conclusions et perspectives de recherche
1 Un nouveau modèle de dispositif « projet data » : Brizo_DS
2 La valeur des projets data
3 Médiation Homme-Données
4 Pistes de recherche
Bibliographie
Télécharger le rapport complet