Bonne gestion de fichiers

L'organisation des fichiers et les conventions de nommages sont souvent uniques au laboratoire et peuvent être hautement personnalisées ; l'important est d'être cohérent et de les écrire. Passer un peu de temps sur les stratégies de gestion de fichiers au début du processus de planification de projet, dès la rédaction du PGD, peut faire gagner beaucoup de temps (et des maux de tête) plus tard. 

Après avoir déterminé les conventions de nommage et d'organisation des fichiers, documentez-les et partagez-les avec des collaborateurs, des conseillers pédagogiques ou toute autre personne pouvant avoir besoin d'accéder aux données. Les groupes de laboratoire doivent établir une convention pour le laboratoire et l'enregistrer dans un espace partagé afin que tout le monde puisse suivre les mêmes conventions. 

Bonnes pratiques

Utilisez des règles de nommages fixes

  • Assurez-vous de rendre chaque nom de fichier unique, incluant systématiquement l’information la plus identifiable du projet. Les noms de fichiers doivent être le plus court possible, donc n'incluez pas l’ensemble des éléments possible, mais au moins une partie de ces derniers : 
    • nom du projet, acronyme, ou nom de la recherche
    • nom de l’étude
    • information géographique
    • initiales des chercheurs
    • date (dans un format unique, càd YYYMMDD)
    • numéro de version

  • Utilisez des underscore (« _ ») pour séparer les éléments, et évitez tous les caractères spéciaux, les espaces et les points autre que celui séparant le nom du format du fichier. Les traits d’union (« — ») sont aussi acceptables, notamment lors de travaux utilisant le format HTML.

  • Utilisez des zéros non significatifs lorsque vous utilisez des nombres, afin de permettre un tri automatique (une séquence de 1-100 doit être numérotée 001-100).

  • Les noms de fichier doivent être assez courts pour être lus dans leur entièreté, tout en incluant assez d’informations pertinentes. Quand des systèmes d’exploitation peuvent gérer des chemins de fichiers (nom du fichier et la route dans l’arborescence) supérieurs à 255 caractères, beaucoup d’outils et systèmes d’exploitation imposent une limite plus courte. Pour cette raison, il est généralement conseillé de garder des noms les plus courts possibles, idéalement pas plus de 32 caractères.
    C_estCeAQuoiResemble32Caracteres.txt

Bon exemple de nom de fichier : UL_ICPOES_20220321_PDSv2.dat

Mauvais exemple de nom de fichier : my Data @DryValley November 15 2010.v2.dat

U et L sont les initiales du site (Université de Lille), ICPOES est l’outil à l’origine des données, 20220321 est la date à laquelle les données ont été récoltées, PDS sont les initiales de Pierre Dupont Scientist, et il s’agit de la seconde version de ce jeu de données.

Gardez la trace des différentes versions (contrôle des versions)

Il est important de toujours garder une trace des différentes versions lorsqu’on travaille sur des données. Il en découle plusieurs avantages, le plus important étant la possibilité de récupérer des données d’une version antérieure plutôt que de repartir de zéro ou pire, avoir à générer à nouveau nos données. Il y a trois façons génériques de garder une trace des versions de nos jeux de données.

Des outils, tels que les cahiers de laboratoire numériques, peuvent assigner des numéros de version à vos données, ce qui en fait un outil efficace pour le management de versions. Les autres options incluent l’utilisation de schémas de nommages ou le logiciel de contrôle de version. Les meilleures pratiques pour travailler efficacement avec différentes versions de jeux de données incluent : 

  • Sauvegardez une copie vierge de vos données brutes, et laissez là telle quelle. Assurez-vous de toujours travailler sur une version différente de cette copie (il est toujours possible de revenir à cette copie originelle et d’en faire une nouvelle copie pour repartir de zéro).
  • Évitez les noms ambigus tels que « révision », « final », « final2 ». Au lieu de cela, utiliser une convention de nommage (tel que v001, v002 ou v1_0, v1_2, v2_0).
  • Utiliser une convention de nommage de l’arborescence de fichier qui utilise les informations sur les versions.
  • Utiliser des outils qui assignent des numéros de version de façon automatique pour gérer vos données. Il est important de tester ces méthodes et protocoles afin de s’assurer qu’il est bel et bien possible de revenir à une version précédente, et que l’outil fonctionne comme attendu.

Si cela est approprié, utilisez un logiciel de contrôle des versions (tel que SVN ou Git). Cela est particulièrement recommandé pour un projet de programmation.

Documentez et utilisez les conventions de nommage pour l’arborescence des répertoires

Ne vous reposez pas sur l’arborescence des fichiers pour fournir des informations critiques sur le contenu des fichiers de données. Les noms des dossiers devraient contenir des informations tels que le titre du projet, des identifiants pérennes, et des dates, mais les fichiers de données doivent être suffisamment décrits pour être indépendants de leur place dans l’arborescence.

Pensez à créer une brève description des contenus des dossiers principaux ainsi qu’une vue d’ensemble de l’arborescence utilisée. Cela peut être fait dans un document texte indépendant, ou un fichier « readme » qui serait stocké à la racine de l’arborescence, ou dans un dossier partagé. Le niveau de détail attendu doit permettre d’aider une personne extérieure à comprendre le fonctionnement de l’organisation de vos dossiers en votre absence.