Télécharger le fichier pdf d’un mémoire de fin d’études
Le concept général de « donnée » : un concept fuyant
Étymologie
En français comme en anglais, le terme « donnée » (ou « datum ») vient du verbe latin dare (donner). « Datum » est la forme neutre du participe passé de ce verbe et signifie littéralement « ce qui a été donné ». « Data » est la forme au pluriel. L’anglais a donc repris l’orthographe exacte du terme d’origine. Dans un article fondé sur une analyse de corpus de textes, Daniel Rosenberg (2013) étudie l’introduction du mot « data » dans la langue anglaise. Bien que spécifique à l’histoire anglo-saxonne (il n’existe pas, à ce jour, d’étude similaire sur le terme français de « donnée »), l’analyse de Rosenberg n’en demeure pas moins intéressante pour comprendre le sens du mot « donnée » dans son acception actuelle. En anglais, « datum » désigne quelque chose qui est tenu pour acquis (qui est « donné ») dans une démonstration. Autrement dit, il s’agit du postulat de départ sur lequel repose un raisonnement. Rosenberg confronte ce terme à celui de « fait » (fact). Le mot « fact » a pour origine le participe passé du verbe latin facere (faire). Il signifie donc littéralement : « ce qui a été fait », ce qui s’est produit ou ce qui existe. Ainsi, par définition, les faits seraient ontologiques (ils sont réels donc vrais) et les données rhétoriques (car liées au discours). Rosenberg constate à partir de son corpus de textes qu’effectivement l’occurrence du terme « datum » n’est jamais reliée à des considérations de vérité ontologique. « Quand on prouve qu’un fait est faux, il cesse d’être un fait. Une donnée fausse, en revanche, n’en demeure pas moins une donnée »20. Aujourd’hui encore il n’y a pas de lien obligé entre donnée et vérité. Le terme « donnée » a gardé sa dimension rhétorique de postulat dans une démonstration. Selon Rosenberg, c’est cette dimension rhétorique qui a rendu le terme si prégnant dans notre monde d’aujourd’hui, où la communication occupe une place centrale.
Donnée, Information, Connaissance
Les données sont souvent associées au triptyque « donnée, information, connaissance ». Le philosophe Sven Ove Hansson (2002) décrit l’articulation entre ces trois notions à partir de l’exemple d’un ouvrage de sociologie :
« Les données diffèrent de l’information en ce qu’elles n’ont pas à se présenter sous une forme qui se prête à l’assimilation. Si au lieu de l’ouvrage [de sociologie que je suis en train de lire], j’avais sur mon bureau les dix mille questionnaires sur lesquels il repose, j’aurais des données au lieu d’information. En résumé, il faut que des données soient assimilables pour pouvoir constituer de l’information et qu’elles soient assimilées pour pouvoir constituer du savoir. »
En sciences de l’information, Chaim Zins (2007) distingue « donnée », « information » et « connaissance », en s’appuyant sur le concept de connaissance propositionnelle. Théorisée par la philosophie, la connaissance propositionnelle est la pensée ou l’expression de ce qu’une personne pense qu’elle sait (Bernecker et Dretske 2000). Elle prend habituellement la forme de « il sait que + proposition ». Elle se distingue du « savoir-faire » (capacité à réussir une action) et de la « connaissance directe » (fait de connaître une personne, un lieu ou une chose).
La connaissance propositionnelle peut provenir :
•De la compréhension intuitive d’un phénomène (non-inferential knowledge) ;
•D’un raisonnement inductif ou déductif (inferential knowledge).
Dans la sphère académique, par exemple, les connaissances publiées dans les ouvrages et les articles scientifiques sont le fruit de raisonnements inductifs ou déductifs.
C’est sur ce type de connaissance propositionnelle, issue du raisonnement, que Chaim Zins fonde sa définition de la donnée. Selon lui, la donnée a deux modes d’existence : elle existe dans la sphère subjective et dans la sphère objective. La « connaissance subjective » renvoie à la connaissance du sujet (c’est-à-dire à la connaissance de l’individu qui sait). Elle se limite au for intérieur de l’individu. La « connaissance objective » (ou « connaissance collective ») 35
Première partie – Qu’est-ce qu’une donnée de la recherche ?
équivaut, quant à elle, à la connaissance en tant qu’objet ou chose. Elle est présente dans le monde extérieur à l’individu : c’est par exemple un article publié dans une revue scientifique.
Zins distingue la donnée des concepts d’information et de connaissance, au sein de ces deux sphères subjective et collective.
Dans la sphère subjective :
•Les données sont des stimuli sensoriels (une perception empirique). Zins prend l’exemple d’une voiture qui démarre : le bruit que l’individu perçoit (celui du moteur) est un stimulus sensoriel, donc une donnée.
•L’information, quant à elle, est une connaissance empirique. Pour reprendre l’exemple précédent, la connaissance qu’une voiture démarre est une information. Zins considère l’information comme un type de connaissance, plutôt que comme un niveau intermédiaire entre la donnée et la connaissance.
•Enfin, la connaissance est une pensée que l’individu considère comme vraie.
Dans la sphère collective, données, informations et connaissances sont des artefacts humains, représentés par des signes empiriques (c’est-à-dire par des signes que chacun peut percevoir par le biais de ses sens). Ces signes peuvent prendre la forme d’inscriptions gravées, de formes peintes, de caractères imprimés, de signaux numériques, de rayons lumineux, d’ondes… Dans la sphère collective :
•Une donnée est un ensemble de signes représentant des stimuli sensoriels.
•Une information est un ensemble de signes représentant une connaissance empirique.
•Une connaissance est un ensemble de signes représentant le contenu d’une pensée que l’individu considère comme vrai.
Selon Zins, les données font donc partie du domaine de la connaissance. La définition qu’il en donne n’en demeure pas moins une proposition parmi d’autres, ayant lui-même recueilli une variété de définitions auprès d’un panel de 44 chercheurs en sciences de l’information.
Plus récemment, Evelyne Broudoux (2018) s’est attachée à observer l’articulation entre les concepts d’information, de donnée et de connaissance, telle que celle-ci est pensée dans le 36
Première partie – Qu’est-ce qu’une donnée de la recherche ?
domaine des sciences de l’information et de la communication. Elle s’appuie notamment sur les travaux de Luciano Floridi et de Marcia J. Bates. Dans sa Définition Générale de l’Information (GDI), Floridi présente la donnée comme une entité symbolique qui différencie l’information (Floridi 2005). Quant à Bates (2005), elle propose une approche par « motifs », dans laquelle :
•L’information 1 est un « motif d’organisation de matière et d’énergie » (l’information n’est pas le matériel lui-même mais un motif organisationnel) ;
•L’information 2 est un motif d’organisation de matière et d’énergie « auquel un être vivant accorde une signification » ;
•La connaissance est l’information 2 s’intégrant aux connaissances pré-existantes ;
•La donnée 1 est une partie d’un environnement informationnel accessible à un organisme qui est intégrée ou traitée par lui ;
•La donnée 2 est une information sélectionnée ou générée par un être humain pour des objectifs sociétaux.
Ces deux définitions (Floridi 2005 ; Bates 2005) présentent la donnée comme une entité indivisible, n’acquérant d’utilité que par son association dans un contexte de production d’informations. E. Broudoux constate cependant que la définition informatique de la donnée tend aujourd’hui à s’imposer comme étant porteuse de sens, conduisant à réinterroger ses rapports avec l’information.
« Données, informations et connaissances sont des concepts que l’on relie habituellement ensemble selon un principe d’intégration et de construction mais les données acquièrent leur territoire propre et sont susceptibles de traitement au même titre que les documents. » (Broudoux 2018, p.51)
Les données de recherche se définissent relativement à un contexte épistémologique
La difficulté à définir ce qu’est une donnée de recherche pourrait venir de cette dimension situationnelle inhérente à toute donnée. La diversité des définitions proposées par la littérature (et présentées en début de partie, p.25-34) montre combien il est complexe d’identifier ce que sont les données de recherche. Il semble impossible de les définir dans l’absolu.
Quand une entité devient-elle une donnée ?
C’est ce qu’a tenté d’illustrer Christine L. Borgman dans ses travaux. Elle montre, à partir d’études de cas réalisées dans diverses disciplines scientifiques (Borgman 2015), que les données de recherche englobent une myriade d’objets informationnels21. Leur nature varie en fonction de la discipline scientifique, de l’objectif de la recherche, de la méthodologie et de l’instrumentation utilisées…
Plus précisément, Borgman (2012, p.1062-1064) isole trois variables qui, selon elle, ont une influence sur la nature des données collectées.
•La finalité de la collecte de données (specificity of purpose) : la collecte de données a-t-elle lieu dans le cadre d’un projet de recherche particulier, avec une question de recherche particulière, ou bien s’agit-il d’observer un phénomène sur le long terme, en collectant des données de manière systématique ?
•L’étendue de la collecte de données (scope of data collection) : la collecte est-elle limitée aux données décrivant un événement ou un phénomène particulier ou bien vise-t-elle à rassembler des données sur un système dans son entier ?
•Le but de la recherche (goal of research) : la recherche vise-t-elle à étudier un terrain particulier (recherche empirique) ou bien essentiellement des lois, des principes, des concepts (recherche théorique) ?
Borgman spécifie que ces variables ne sont pas exhaustives et qu’elles peuvent être complémentaires. Pour mieux figurer les multiples formes que celles-ci peuvent prendre, elle les représente dans un repère à trois dimensions (figure 2). Chaque axe va du plus local et flexible au plus global et standardisé. Pour une recherche exploratoire, par exemple, un chercheur souhaitera plutôt collecter de petits jeux de données qui décrivent des évènements ou des phénomènes particuliers. A l’inverse, si le but de la recherche est de modéliser un système dans son ensemble, le chercheur aura besoin de rassembler une collection homogène d’importants volumes de données.
Une définition multidimensionnelle
Constatant, tout comme Borgman et Leonelli, le caractère relatif des données de la recherche, Schöpfel et al. (2017a) posent les bases d’une définition multidimensionnelle.
Quatre éléments composent cette base de définition (figure 3) :
•L’enregistrement
Une donnée de recherche est avant tout une entité informationnelle qui a été fixée sur un support matériel (physique ou numérique). Elle relève de ce que Chaim Zins appelle la « sphère objective de la connaissance »26.
•La nature factuelle des données
Les données peuvent être de natures extrêmement diverses, allant de la séquence d’un gène à des relevés pluviométriques, en passant par l’enregistrement audio d’un dialecte.
•Le lien avec la communauté scientifique
Les qualificatifs de données « brutes », « secondaires » ou « dérivées » mettent en évidence leur caractère dynamique. Les données sont des objets évolutifs, car elles sont au coeur même des processus de recherche. Le lien avec la communauté scientifique est donc fort. Le terme « communauté » est entendu par Schöpfel et al. comme un groupe partageant des valeurs, des concepts, des pratiques et des outils communs. Il existerait au sein de chaque communauté scientifique une forme de consensus autour de ce qui constitue une donnée de recherche pour la communauté.
•La finalité
Les données ont une fonction première au sein du processus scientifique : selon l’OCDE (entre autres), elles servent à valider les résultats de recherche ; pour Sabina Leonelli, elles sont une preuve potentielle d’une assertion scientifique. Elles peuvent également avoir des finalités secondaires, comme celles qui leur sont attribuées par le mouvement d’ouverture : à savoir informer les citoyens et les autorités publiques sur leur environnement, ou encore catalyser l’innovation.
Le cadre délimité par Schöpfel et al. imbrique donc concepts, typologies et éléments contextuels.
Recommandations de l’OCDE (2004)
Parallèlement au mouvement du libre accès, ont émergé des recommandations de l’Organisation de Coopération et de Développement Économiques (OCDE) concernant l’accès aux données de la recherche.
Déclaration sur l’accès aux données de la recherche publique
En 2004, le Comité de la politique scientifique et technologique de l’OCDE publie une déclaration, dans laquelle les gouvernements signataires s’engagent à « oeuvrer à l’établissement de régimes d’accès aux données numériques de la recherche financée sur fonds publics »36. Ces régimes d’accès s’appuient en premier lieu sur le principe d’ouverture. Quoique soucieux de « protéger [les] intérêts sociaux, scientifiques et commerciaux », les gouvernements signataires s’accordent sur le fait qu’« un accès ouvert aux données [permet] d’accroître la qualité et l’efficacité de la recherche et de l’innovation ».
Suite à cette déclaration, l’OCDE publie en 2007 des Principes et lignes directrices pour l’accès aux données de la recherche financée sur fonds publics37. Ceux-ci s’appuient toujours sur la notion centrale d’ouverture des données, définie comme « l’accès dans des conditions d’égalité de la communauté scientifique internationale, à un coût le plus bas possible ». C’est dans ce document également que l’OCDE définit pour la première fois ce qu’elle entend par « données de la recherche »38. A ce principe d’accessibilité des données sont associées des questions techniques (infrastructures d’accès), juridiques (respect des droits de propriété intellectuelle, protection de la vie privée, sécurité nationale) et économiques (les données scientifiques « recueillies en vue de commercialiser les résultats de la recherche » et celles « qui appartiennent à une entité du secteur privé » sont exclues des Principes et Lignes directrices).
Terrain et méthodologie
Un recensement des services de données par la Bibliothèque Scientifique Numérique
BSN10 est un groupe de travail sur les données de la recherche. Il constituait une des entités de l’ancienne Bibliothèque Scientifique Numérique, devenue aujourd’hui Comité pour la Science Ouverte179. Investi d’une mission de conseil auprès du Ministère de la recherche, le groupe était chargé de proposer des orientations en matière de gestion et d’ouverture des données de la recherche. Ses premiers travaux ont été d’ordre prospectif, visant à dresser un état des lieux du paysage français.
Le groupe s’est notamment intéressé aux services dédiés aux données de recherche, donnant lieu à la commande d’une cartographie nationale des services180. Initiée en 2015, celle-ci visait à :
•Mieux connaître les services de données existant en France ainsi que leurs modes d’organisation ;
•Identifier d’éventuelles lacunes et informer les acteurs politiques des secteurs où l’investissement de ressources pourrait être nécessaire.
La commande initiale était peu claire. Il a donc d’abord fallu définir le périmètre de la cartographie à réaliser. Les données de recherche sont une réalité complexe, dont le caractère se répercute sur les infrastructures qui leur sont liées. Le paysage des services de données s’est en effet révélé être un paysage hétérogène et peu visible. Des difficultés ont été rencontrées à plusieurs niveaux pour établir le périmètre de la cartographie.
•Premier niveau de difficulté, lié à la notion de donnée de recherche : les services de données utilisent-ils le terme de données de recherche ? Si non, faut-il tout de même inclure ces services dans la cartographie ?
•Deuxième niveau de difficulté, lié à la définition de ce qu’est un service de données : quelles sont ses missions ? Se limitent-elles à la diffusion des données ? Si oui, doit-on uniquement répertorier les services de type entrepôts de données ? Si non, quelles sont les autres fonctions possibles d’un service de données ?
•Troisième niveau difficulté, lié à l’expression « services de données nationaux » : dans quel sens doit-elle être entendue ? S’agit-il des services dont ont besoin les chercheurs qui travaillent en France ? S’agit-il des centres de données implantés en France ? Ou bien s’agit-il des centres de données ayant pour public cible (entre autres) les chercheurs de la recherche française ?
Avant d’entamer le travail de cartographie, ces différentes interrogations ont dû être tranchées.
•Les entités recensées ont été regroupées sous le terme générique de « services dédiés aux données de recherche », bien qu’elles-mêmes ne se dénomment pas ainsi. Par « service », on entend la fourniture de ressources humaines et/ou techniques pour gérer les données à une ou plusieurs étapes d’un projet de recherche. Dans « service », il y a l’idée d’accomplir une tâche pour autrui, ici dans le sens d’une ressource humaine ou technique, offerte aux chercheurs pour la gestion et l’ouverture des données.
•L’équipe projet181 a par ailleurs décidé que la cartographie s’appuierait sur le cycle de vie des données182 (figure 5) et qu’elle couvrirait, par conséquent, aussi bien les services de diffusion que les services de collecte, d’analyse et d’archivage des données.
Conception d’une grille d’analyse pour chaque type de service
Au cours de la troisième étape, une grille d’analyse a été conçue pour chacun des 9 types de service (annexe 3). L’objectif était de collecter des informations sur :
•L’identité du service (nom, date de création, adresse de contact…) ;
•Sa gestion (structure d’appartenance, tutelles, modèle économique, ressources humaines…) ;
•Ses caractéristiques fonctionnelles (conformité avec des standards et autres aspects techniques spécifiques à chaque type de service) ;
•Son utilisation (discipline et public cible, conditions d’accès, fréquence d’utilisation…).
Recensement et analyse des services
La quatrième étape a été l’analyse à proprement parler des services identifiés. Pour chacun, une recherche d’informations en ligne a été menée (sur le site web du service, dans des articles, rapports et communications). Des entretiens ont ensuite été réalisés avec les fournisseurs des services, afin d’obtenir des informations plus détaillées. Les renseignements collectés ont finalement été enregistrés dans la grille d’analyse.
la conception d’un répertoire en ligne, Cat OPIDoR
A l’issue de l’étude cartographique, il a été décidé de développer un répertoire en ligne, permettant de consulter les services recensés et d’en répertorier de nouveaux de manière collaborative.
Le paysage national des services de gestion et d’ouverture des données : constats
Les résultats présentés ici doivent être considérés comme un aperçu du paysage français des services de données. Ils ne représentent pas ce paysage dans sa totalité, mais seulement l’échantillon des services qui ont pu être répertoriés entre novembre 2015 et avril 2016, au cours de l’étude cartographique pour BSN10.
L’analyse qui suit tient compte uniquement des services de gestion et d’ouverture des données. Elle exclut les services d’acquisition et d’analyse de données, qui ont été répertoriés dans Cat OPIDoR sous les catégories « plateformes d’acquisition » et « plateformes de calcul ». L’objectif est de révéler les dispositifs qui sont mis à la disposition des communautés de recherche pour conserver et diffuser les données scientifiques, conformément aux exigences politiques196. Si l’on ne prend en compte que les services de gestion et d’ouverture des données, qui ont été identifiés et analysés entre novembre 2015 et avril 2016, on en répertorie 44 au total197. Ces 44 services sont fournis par 34 structures différentes. Une structure peut proposer plusieurs services. C’est le cas notamment de l’Inist-CNRS, qui a développé 5 services ayant trait à la gestion et l’ouverture des données. La majorité des structures (27 d’entre elles) proposent un seul service ; 6 autres structures couplent deux services.
Il convient de noter que les données d’analyse ne sont pas uniformes pour tous les services. Pour certains, les informations recueillies sont lacunaires. Cela s’explique de deux manières.
•Première raison : le mode de recensement. Les 44 services n’ont pas été analysés selon la même méthode. Durant les premiers mois du recensement, l’analyse reposait sur des entretiens menés avec les fournisseurs des services identifiés. Les informations obtenues étaient alors plus détaillées et plus riches que les seuls renseignements relevés sur le web. Par la suite, lorsque le recensement a été couplé à l’élaboration de Cat OPIDoR, les informations collectées ont été réduites aux champs descriptifs utilisés dans le catalogue, dans un souci d’efficacité et de rapidité. L’analyse ne passait alors plus par la conduite d’entretiens ; seules les informations disponibles en ligne étaient relevées.
•Seconde raison à l’inégalité des données d’analyse : le niveau de renseignement de l’interlocuteur et/ou le degré de précision des informations disponibles en ligne. Parfois l’information recherchée n’a tout simplement pas pu être trouvée, soit parce qu’elle ne figurait pas sur le site web du service, soit parce qu’elle n’était pas connue de l’interlocuteur avec qui l’entretien était mené.
Pour chaque résultat quantitatif, il sera donc précisé le nombre de services pour lesquels l’information est disponible.
|
Table des matières
Introduction
Première partie – Qu’est-ce qu’une donnée de la recherche ?
1. Des tentatives de définition
2. Vers une non définition
3. Conclusion
Deuxième partie – Les politiques publiques de gestion et d’ouverture des données de la recherche
1. Mouvements à l’origine des politiques de gestion et d’ouverture des données de la recherche
2. Influence de l’Open Data
3. Politiques et initiatives de l’Union européenne
4. Politiques et initiatives de l’État français
5. Conclusion
Troisième partie – Les services d’appui à la gestion et au partage des données de recherche
1. Terrain et méthodologie
2. Le paysage national des services de gestion et d’ouverture des données : constats114
3. Conclusion
Quatrième partie – Les données dans les pratiques de recherche
1. Terrain et méthodologie
2. Résultats et discussion
3. Conclusion
Cinquième partie – Adéquation entre les services de données et les pratiques des chercheurs
1. Enquête sur l’utilisation de services de données par les chercheurs
2. Utilisation par les chercheurs des services nés sous l’influence du mouvement d’ouverture des données
3. Utilisation des services disciplinaires par les chercheurs
Conclusion
Bibliographie
Télécharger le rapport complet