Préparation des données tabulaires pour la description et l’archivage

Nous proposons ici un certain nombre de grandes lignes directrices pour la préparation de données tabulaires ayant vocation à être incluses dans un entrepôt ou partagées avec d'autres chercheurs, afin de d’augmenter la probabilité de conservation à long terme et le potentiel de réutilisation. Certains entrepôts peuvent avoir des directives différentes ou plus spécifiques que celles présentées ici.

Ligne directrice

Inclure uniquement les données dans un fichier de données ; ne pas inclure de chiffres ou d'analyses. 

Envisagez d'agréger les données dans des fichiers moins nombreux et plus volumineux, plutôt que dans de nombreux petits fichiers. Il est plus difficile et fastidieux de gérer de nombreux petits fichiers et plus facile de maintenir la cohérence entre les ensembles de données avec des fichiers moins nombreux et plus volumineux. Il est également plus pratique pour les autres utilisateurs de sélectionner un sous-ensemble à partir d'un fichier de données plus volumineux que de combiner et de traiter plusieurs fichiers plus petits. Cependant, les fichiers très volumineux peuvent dépasser la capacité de certains progiciels. Quelques exemples de façons d'agréger les fichiers incluent par type de données, site, période, plate-forme de mesure, enquêteur, méthode ou instrument. 

Il est parfois souhaitable d'agréger ou de compresser des fichiers individuels en un seul fichier à l'aide d'un outil de compression, bien que l'opportunité de cette pratique varie en fonction du référentiel de destination prévu. 

Certains entrepôts peuvent avoir des exigences spécifiques concernant les formats de fichiers. Si un entrepôt n'a pas d'exigences de format de fichier, nous recommandons un texte délimité par des tabulations ou des virgules (*.txt ou *.csv) pour les données tabulaires. Cela maximise le potentiel d'utilisation dans différents progiciels, ainsi que les perspectives de conservation à long terme.

Organisation et mise en forme des données

Organisez les données tabulaires en lignes et en colonnes. Chaque ligne représente un seul enregistrement ou point de données, tandis que les colonnes contiennent des informations relatives à cet enregistrement. Chaque enregistrement ou ligne de l'ensemble de données doit être identifié de manière unique par une ou plusieurs colonnes combinées.

Les données tabulaires doivent être "rectangulaires", chaque ligne ayant le même nombre de colonnes et chaque colonne le même nombre de lignes. Remplissez chaque cellule pouvant contenir des données ; ceci est moins important pour les cellules utilisées pour les commentaires. Pour les données manquantes, utilisez les conventions décrites ci-dessous.

En-têtes de colonnes

Les en-têtes de colonne doivent avoir un sens, sans être trop longs. Ne dupliquez pas les en-têtes de colonne dans un fichier. Tenez compte de la casse lors de la création d'en-têtes de colonne. Utilisez uniquement des caractères alphanumériques, des traits de soulignement ou des traits d'union dans les en-têtes de colonne. Certains programmes s'attendent à ce que le premier caractère soit une lettre, il est donc recommandé de faire commencer les en-têtes de colonne par une lettre. Si possible, indiquez les unités de mesure dans les en-têtes de colonne et précisez également les unités de mesure dans les métadonnées.

Utilisez uniquement la première ligne pour identifier un en-tête de colonne. Les outils d'importation de données peuvent ne pas analyser correctement les en-têtes de colonne qui s'étendent sur plusieurs lignes.

Exemples de bons en-têtes de colonnes :

“max_temp_celsius” - et non “max temp celsius” (avec des espaces)

“airport_faa_code” - et non “airport/faa code” (avec des caractères spéciaux)

Valeurs et formatage des données

  • Utilisez des codes ou des noms standard lorsque cela est possible. Les exemples incluent l'utilisation des codes FIPS (Federal Information Processing) pour les entités géographiques et le Système d'information taxonomique intégré (ITIS) pour les noms d'espèces faisant autorité.
  • Lors de l'utilisation de codes non standard, une alternative à la définition des codes dans les métadonnées consiste à créer un tableau supplémentaire avec des définitions de code.
  • Évitez d'utiliser des caractères spéciaux, tels que des virgules, des points-virgules ou des tabulations dans les données elles-mêmes si le fichier de données est (ou sera exporté vers) un format délimité.
  • Ne vous fiez pas au formatage spécial disponible dans les tableurs, tels qu'Excel. Ces programmes peuvent formater automatiquement toutes les données entrées dans une cellule, ce qui peut inclure la suppression des zéros non significatifs ou le reformatage des cellules de date et d'heure ; dans certains cas, cela peut modifier le sens des données. Certaines de ces modifications ramènent la cellule à sa valeur d'origine lors du changement du type de cellule en une valeur littérale "texte" et d'autres non. Changer les types de cellules de "Général" à "Texte" avant la saisie initiale des données peut éviter des problèmes de reformatage involontaires.

Types spéciaux de données - Date/Heure

  • Indiquez les informations de date dans un format lisible par les machines, tel que aaaammjj ou aaaa-mm-jj (aaaa : année à quatre chiffres ; mm : mois à deux chiffres ; jj : date à deux chiffres). Indiquez le fuseau horaire (y compris l'heure d'été, le cas échéant) et utilisez la notation 12 heures ou 24 heures dans les métadonnées.
  • Vous pouvez également utiliser la norme ISO pour formater les chaînes de date et d'heure. La norme prend en charge les informations de fuseau horaire et utilise la notation 24 heures : aaaammjj ou aaaa-mm-jj pour la date ; hh:mm:ssTZD pour l'heure (hh : heure sur deux chiffres, en nombre d'heures depuis minuit ; mm : minutes sur deux chiffres ; ss : secondes sur deux chiffres ; TZD : indicateur de fuseau horaire, sous la forme +hh:mm ou -hh :mm, ou Z pour désigner UTC, Coordinated Universal Time).

Types particuliers de données - Données manquantes

  • Utilisez une méthode standard pour identifier les données manquantes.
    • N'utilisez pas de zéros pour représenter les données manquantes et soyez prudent et cohérent lorsque vous laissez des cellules vides, car cela peut facilement être mal interprété ou entraîner des erreurs de traitement.
    • Selon le logiciel d'analyse utilisé, une alternative consiste à sélectionner un code pour identifier les données manquantes ; utiliser -999 ou -9999 est une convention courante.
  • Indiquez le ou les codes des données manquantes dans les métadonnées.
  • Lors de l'exportation de données vers un autre format, vérifiez que la convention de données manquantes que vous avez choisie d'utiliser a été systématiquement traduite dans le fichier résultant (par exemple, assurez-vous que les cellules vides n'ont pas été remplies par inadvertance).

Assurance qualité des données

Envisagez d'effectuer une assurance qualité des données minimale afin de détecter les erreurs ou les incohérences dans les données. Voici quelques techniques courantes :

  • Vérifiez ponctuellement certaines valeurs dans les données pour garantir leur exactitude.
  • Si possible, envisagez de saisir les données deux fois et de comparer les deux versions pour détecter les erreurs.
  • Triez les données par différents champs pour repérer facilement les valeurs aberrantes et les cellules vides.
  • Calculez des statistiques récapitulatives ou tracez des graphes avec les données pour détecter les valeurs erronées ou extrêmes.

Fournir des informations récapitulatives sur les données et les inclure dans les métadonnées aide les utilisateurs à vérifier qu'ils disposent d'une version non corrompue des données. Ces informations peuvent inclure le nombre de colonnes ; max, min ou moyenne des paramètres dans les données ; nombre de valeurs manquantes ; ou la taille totale du fichier.

Outils pour aider à nettoyer les données tabulaires

OpenRefine (anciennement GoogleRefine) est un outil très utile pour explorer, nettoyer, éditer et transformer des données. Des opérations avancées peuvent être effectuées sur les données à l'aide de GREL (OpenRefine Expression Language).

Références

Les lignes directrices précédentes ont été adaptées à partir de plusieurs sources, notamment :

Best Practices for Preparing Environmental Data Sets to Share and Archive. Hook, L.A., Beaty, T.W., Santhana-Vannan, S., Baskaran, L., & Cook, R.B. 2007. http://daac.ornl.gov/PI/bestprac.html

Ecological Data: Design, Management and Processing. Michener, W.K. & Brunt, J.W. (Eds.). 2000.

Guide to Social Science Data Preparation and Archiving. Inter-university Consortium for Political and Social Research. 2009. http://www.icpsr.umich.edu/files/deposit/dataprep.pdf

Some Simple Guidelines for Effective Data Management. Borer, Elizabeth T., Eric W. Seabloom, Matthew B. Jones, and Mark Schildhauer. Bull. Ecol. Soc. Am. 90(2)205-214. 2009. https://esajournals.onlinelibrary.wiley.com/doi/full/10.1890/0012-9623-9….

Ce guide est une libre traduction et adaptation des guides de bonnes pratiques de l’Université de Cornell.