Guide de rédaction de métadonnées de type « readme »

Un document readme fournit des informations sur un jeu de données et assure que ce dernier puisse être correctement interprété, par vous-même à une date ultérieure, ou par des personnes extérieures lorsque les données sont partagées ou publiées. Des métadonnées suivant un standard sont préférables, mais lorsqu’aucun standard ne semble correspondre entièrement à vos besoins, la rédaction de métadonnées de type « readme» est une stratégie appropriée.

Vous voulez un modèle ? Téléchargez-en un et adaptez-le pour vos propres données !

Bonnes pratiques

Créez des fichiers « readme » pour les regroupements logiques de données. Dans de nombreux cas, il sera approprié de créer un document pour un ensemble de données contenant plusieurs fichiers, liés, au format similaire, ou des fichiers regroupés pour une même utilisation (par exemple, une collection de scripts Matlab). Parfois, il peut être judicieux de créer un fichier « readme » pour un seul fichier de données. 

Nommez le fichier « readme » de façon à ce qu’il puisse être aisément rattaché au(x) jeu(x) de données qu’il décrit

Rédigez votre document « readme » en texte brut, évitant ainsi tout format propriétaire tel que MS Word quand cela est possible. Organiser le fichier de sorte qu’il soit facilement compréhensible (c.-à-d., séparer les informations importantes avec des lignes vides, plutôt que de tout agglomérer en un seul et long paragraphe). 

Organiser vos multiples fichiers « readme » de façon identique. Les informations doivent si possible toujours être présentées dans le même ordre, et toujours avec la même terminologie. 

Utilisez des formats de date standards. Nous suggérons le format de date W3C/ISO 8601 qui spécifie le standard international d’écriture des dates ainsi : YYYY-MM-DD ou YYYY-MM-DDThh:mm:ss. 

Suivez les conventions scientifiques de vos disciplines pour les noms et mots-clés taxonomiques, géospatiaux et géologiques. Dès que cela est possible, utiliser des termes provenant des taxonomies et vocabulaires standardisés, dont certains sont listés ci-dessous.

Source Content URL
Getty Research Institute Vocabularies Toponymes, art & architecture, objets culturels, noms d'artistes http://www.getty.edu/research/tools/vocabularies/
Integrated Taxonomic Information System Informations taxonomiques sur les plantes, les animaux, les champignons, les microbes http://www.itis.gov/
NASA Thesauri ingénierie, physique, astronomie, astrophysique, sciences planétaires, sciences de la Terre, sciences biologiques https://www.sti.nasa.gov/nasa-thesaurus/
GCMD Keywords Sciences de la terre et du climat, instruments, capteurs, services, centres de données, etc. https://earthdata.nasa.gov/earth-observation-data/find-data/gcmd/gcmd-keywords
The Gene Ontology Vocabulary caractéristiques du produit génique, annotation du produit génique http://amigo.geneontology.org/amigo/dd_browse
USGS Thesauri agriculture, forêt, pêche, sciences de la Terre, sciences de la vie, ingénierie, sciences planétaires, sciences sociales, etc. https://www1.usgs.gov/csas/biocomplexity_thesaurus/index.html
IUPAC Gold Book recueil de terminologie chimique de l'Union internationale de chimie pure et appliquée (IUPAC) https://goldbook.iupac.org

Contenu recommandé

Le contenu minimum recommandé pour la bonne réutilisation des données est en gras.

Informations générales

  1. Donner un nom au jeu de données
  2. Nom/Institution/adresse/email pour  
    • Investisseur principal (ou la personne responsable de la collecte des données) 
    • Associés ou co-investisseurs
    • Personne référente pour toute question
  3. Date de la collecte de données (peut être une date unique, ou une période)
  4. Information sur la localisation de la collecte de données.
  5. Mot-clés décrivant le sujet
  6. Information sur la langue
  7. Information sur le financement de la collecte des données

Aperçu des données et du fichier

  1. Pour chaque nom de fichier, une courte description des données qu’il contient
  2. Le format du fichier si ce n’est pas évident avec le nom de ce dernier
  3. Si le jeu de données inclut plusieurs fichier reliés les uns aux autres, les relations entre les fichiers ou un description de la structure les réunissant doit être incluse
  4. Date à laquelle le fichier a été créé
  5. Dates auxquels les fichiers ont été mis à jour, ainsi que la nature desdites mises à jours, si cela s’applique
  6. Informations à propos des données corrélées collectées, mais non incluses dans le jeu de données décrit.

Partager et accéder à l’information

  1. Licences ou restrictions appliquées sur les données
  2. Lien vers la publication qui cite ou utilise ces données
  3. Lien vers les autres lieux de stockage public des données (consultez les bonnes pratiques pour le partage des données pour plus d’informations sur la sélection d’un entrepôt).
  4. Recommandations pour la citation de ces données (consultez les bonnes pratiques pour la citation des données)

Informations méthodologiques

  1. Description de la méthodologie utilisée pour la collecte ou la création des données (inclure les liens ou références des publications et autres documents contenant les protocoles et concepts utilisés) 
  2. Description des méthodes utilisées pour le traitement des données (décrire comment les données ont été générées à partir des données brutes ou collectées) 
  3. Toute information à propos des logiciels ou des instruments nécessaires pour comprendre et interpréter les données. Cela comprend aussi les noms de versions des logiciels et du matériel utilisé (inclure si possible tous les numéros de version si des mises à jour des logiciels ont eu lieu durant la collecte des données).
  4. Standards et informations de calibrations des outils utilisés si nécessaire
  5. Décrire toutes les procédures assurant la qualité des données 
  6. Définir l’ensemble des codes et symboles utilisés pour noter ou qualifier les données d’une qualité inférieure/douteuses/aberrantes dont les gens devraient être conscients 
  7. Personnes impliquées dans la collecte, le traitement, l'analyse et/ou la soumission des échantillons 

Informations spécifiques aux données

*Répéter cette section autant de fois que nécessaire, afin de traiter chaque jeu de données (ou fichier, en fonction de ce qui convient)*

  1. Compter le nombre de variables et le nombre de lignes et de colonnes 
  2. Liste de variables, y compris les noms complets et les définitions (épeler les mots abrégés) des en-têtes de colonne pour les données tabulaires
  3. Unités de mesure
  4. Définitions des codes et symboles utilisés pour enregistrer les données manquantes
  5. Formats spécialisés et autres abréviations utilisées

Vous cherchez un modèle complet ? Téléchargez-en un et adaptez-le à vos propres données!

Information complémentaire

Document and Store Data Using Stable File Formats. DataONE. http://www.dataone.org/best-practices/document-and-store-data-using-stable-file-formats. Useful information about file formats.

File formats. Cornell Research Data Management Service Group. http://data.research.cornell.edu/content/file-formats

File management. Cornell Research Data Management Service Group. http://data.research.cornell.edu/content/file-management

Introduction to Intellectual Property Rights in Data Management. Cornell Research Data Management Service Group. http://data.research.cornell.edu/content/intellectual-property

Metadata and Describing Data. Cornell Research Data Management Service Group. http://data.research.cornell.edu/content/writing-metadata

Ce guide est une libre traduction et adaptation des guides de bonnes pratiques de l’Université de Cornell.

Références

Le guide précédent a été adapté de plusieurs sources, incluant : 

Best practices for creating reusable data publications. Dryad. 2019. https://datadryad.org/stash/best_practices

Introduction to Ecological Metadata Language (EML). The Knowledge Network for Biocomplexity. 2012. https://web.archive.org/web/20120424124714/http://knb.ecoinformatics.org/eml_metadata_guide.html

Guide to writing "readme" style metadata, https://data.research.cornell.edu/content/readme