Guide d’archivage sur la qualité d’une donnée
Une donnée de qualité
L’OCDE mentionne que la valeur et l’utilité d’une donnée de recherche dépend de sa qualité et qu’il y a des normes de qualité à respecter, ou à élaborer si ces normes n’existent pas encore. Cependant, ces normes dépendent du domaine de recherche et il n’est pas envisageable d’avoir une norme de qualité universelle (OCDE 2007) :
« la valeur et l’utilité des données de recherche dépendent pour une large part de la qualité des données elles-mêmes »
« Il n’est cependant pas réaliste d’envisager des normes universelles de qualité des données car certains domaines de recherche exigent des normes plus rigoureuses ».
Le FNS parle de données suffisamment précises pour permettre leur réutilisation (FNS [sans date]). Dans sa politique institutionnelle sur la gestion des données de recherche (Université de Genève 2018), l’université de Genève, mentionne que « toute décision de préservation à long terme des données de recherche se fondera sur leur intérêt et leur qualité, ainsi que sur les possibilités de réutilisation », et qu’il est de la responsabilité du chercheur de veiller à la bonne qualité des données ainsi qu’à leur description complète, mais sans définir la notion de « qualité ».
Une donnée FAIR
La notion de réutilisation se retrouve dans les principes FAIR (Wilkinson et al. 2016). Ces principes définissent des caractéristiques permettant aux données d’être trouvées (Findable), accessibles (Accessible), interopérables (Interoperable), et réutilisables (Reusable) aussi bien par les machines que par les hommes (Wilkinson et al. 2016).
Pour la réutilisation, on trouve en autre les notions de description, de licence et de standard : une description riche : « meta(data) are richly described with a plurality of accurate and relevant attributes », « (meta)data are associated with detailed provenance »
une licence adéquate : « (méta)data are released with a clear and accessible data usage licence » un standard : « (meta)data meet domain-relevant community standards ».
Une description riche
Concernant la richesse de la description, le UK Data Archive a élaboré un document de bonnes pratiques sur la gestion et le partage des données, qui liste les informations à fournir pour bien documenter une donnée (Van den Eynden 2011). Cette liste, suffisamment générale pour pouvoir s’appliquer à tout type de donnée indépendamment du domaine de recherche, contient des informations sur :
Le contexte de la collecte des données : objectifs et hypothèses du projet de recherche
Les méthodes de collecte des données : échantillonnage, procédure et protocole appliqués, appareillage et logiciel utilisés, date et lieu de la collecte
Les liens entre les fichiers et la structure du jeu de données
L’intitulé et la description des variables
La définition des codes et des acronymes ou abréviations utilisés
La description des modifications apportées aux données brutes
Les informations concernant l’accès et les conditions d’utilisation des données
Ces informations peuvent s’ajouter au niveau des métadonnées, ou dans un fichier de type README mais en sachant qu’à la différence des métadonnées, le fichier README ne sera pas lisible par une machine (EPFL [sans date]).
Critère « Titre » et « Description »
Que les jeux de données soutiennent une publication ou pas, le titre du jeu de données est généralement suffisamment clair et précis. Pour les dépôts soutenant une publication, il correspond dans la majorité des cas au titre de la publication. Il y a une grande disparité dans la description du jeu de données, qui va d’une description très générale (« original data », « dataset ») ou reprenant le titre de la publication (« data shown in… », « original data files for the article … »), à une description détaillée (« This deposit contains motion capture files during walking and bi-plane x-rays of 2 patients with hip osteoarthritis and 2 patients with total hip arthroplasty »).
Afin de permettre l’accès à ces jeux de données via les moteurs de recherche, il est important que le titre et la description du jeu de données soient aussi précis que possible, et pour s’assurer de cette précision, une liste d’informations à mentionner dans ces deux champs pourrait être proposée aux chercheurs.
Critère « Publication »
Pour ce critère, l’analyse s’est faite sur les dépôts ayant pu être téléchargés, afin de pouvoir vérifier l’éventuelle mention de la publication dans le README, au cas où la publication n’était pas mentionnée dans le titre ou la description du jeu de données.
Sur les 34 dépôts téléchargés :
10 dépôts ne sont pas liés à une publication
24 dépôts sont liés à une publication :
16 dépôts mentionnent la publication dans Yareta, alors que 8 dépôts n’en font pas mention
Seulement 3 dépôts mentionnent dans leur publication que leurs données sont disponibles sur Yareta
16 dépôts mentionnent clairement dans Yareta que leurs données sont liées à une publication, en mettant le titre ou la référence de la publication dans le titre ou la description du dépôt.
On retrouve rarement la mention du jeu de données et le DOI de Yareta dans la publication, mais cela est certainement dû au fait que Yareta n’est fonctionnel que depuis juin 2019 et que la plupart des publications ont été envoyées aux éditeurs, voir approuvées, avant cette date.
Lorsque les données soutiennent une publication, il faudrait recommander au chercheur de le mentionner dans Yareta ou rajouter un champ « publication » dans Yareta afin de faciliter l’accès à la publication et de permettre la compréhension et la réutilisation des données, et ce d’autant plus en l’absence de README
Critère « Format »
Les formats de 41 dépôts ont été répertoriés depuis le document correspondant aux métadonnées administratives METS. Ce document, généré automatiquement par Yareta lors du dépôt du jeu de données, est uniquement accessible après avoir téléchargé le jeu de données. Pour les dépôts trop lourds à télécharger, ou en accès restreint ou fermé, ce document m’a été fourni en interne.
A l’exception de trois formats, tous les formats répertoriés dans le document correspondant aux métadonnées METS sont conformes aux formats listés par le UK Data Service et mentionnés sur la page web de l’université de Genève (Université de Genève [sans date]e).
Trois formats sont mentionnés dans le document correspondant aux métadonnées METS et ne sont pas répertoriés par le UK Data Service : MATLAB (mentionné dans trois dépôts), DNG (mentionné dans deux dépôts), et DICOM (mentionné dans un dépôt).
|
Table des matières
1. Présentation du mandat
2. Problématique
2.1 Revue de littérature
2.2 Périmètre de ce travail
2.3 Limitation de ce travail
3. Gestion des données de recherche
3.1 Open Access / Open Data
3.2 Données de recherche.
3.2.1 Le cycle de vie d’une donnée de recherche
3.2.2 La gestion des données de recherche
3.3 Préserver une donnée de recherche
3.3.1 Sélectionner une donnée
3.3.2 Préparer une donnée
3.3.3 Déposer une donnée
3.4 Réutiliser une donnée de recherche
3.4.1 Une donnée de qualité
3.4.2 Une donnée FAIR
3.5 Politique institutionnelle sur la gestion des données de recherche de l’université de Genève
4. Dépôts de préservation et services associés
4.1 Dépôts de préservation dans les institutions suisses
4.1.1 Le dépôt institutionnel de l’université de Genève – Yareta
4.2 Services proposés par les institutions suisses
4.3 A l’international – le cas de l’université de Delft
5. Analyse des dépôts de Yareta
5.1 Choix des critères d’analyse
5.2 Analyse des critères
5.2.1 Critère « Titre » et « Description »
5.2.2 Critère « Publication »
5.2.3 Critère « Format »
5.2.4 Critère « Licence »
5.2.5 Critère « Date de collecte »
5.2.6 Critère « README »
5.2.7 Critère « Réutilisabilité »
5.3 Synthèse de l’analyse des dépôts de Yareta
6. Entretiens
6.1 Analyse des entretiens
6.1.1 Formation et guide d’utilisation
6.1.2 Responsabilité
6.1.3 Règles établies dans le groupe et convention pour déposer
6.1.4 A quelle étape du projet se fait le dépôt
6.1.5 Activités avant le dépôt
6.1.6 Format
6.1.7 Licence
6.1.8 README
6.1.9 Objectif de Yareta
6.1.10 Besoins spécifiques
6.1.11 ELN
6.2 Synthèse de l’analyse des entretiens
7. Présentation et analyse des livrables
7.1 Guide d’archivage sur la qualité d’une donnée
7.1.1 Format
7.1.2 Contexte
7.1.3 Métadonnées
7.1.4 Licence
7.2 Scénario de formation
7.3 Ressources fournies par les pages web
7.3.1 Licence
7.3.2 Format
7.4 Modifications à implémenter dans Yareta
7.5 Livrable – Guide d’archivage
7.6 Livrables – Scénarios de formation et ressources
8. Discussion
9. Conclusion
Télécharger le rapport complet