Sauvegarde et stockage des données

Vos données devraient être stockées de façon sécurisée et sauvegardées régulièrement

Lorsqu’on aborde le stockage et les sauvegardes, il y a beaucoup d’options. Vous trouverez en premier lieu une liste de mots qu’il est important d’avoir en tête lorsqu’on s’intéresse à ces questions, ainsi que certaines choses qu’il est impératif de considérer quand on prévoit le stockage et les sauvegardes de données de recherche.

Terminologie

Stockage de données : (nom) l’utilisation de supports d’enregistrement pour conserver des informations numériques. Cela se fait généralement dans un endroit facilement accessible, secondaire au lieu de collecte (mais pas exclusivement). Les exemples incluent les disques durs locaux ou externes ainsi que les supports mobiles, les disques partagés en réseau, le stockage au sein de cloud, etc.

Stockage en ligne : (nom) Stockage des données utilisant d’importants réseaux informatiques reliant la communication, les données, les applications et les outils informatiques tels que les ordinateurs, les téléphones et les tablettes. À l’heure actuelle, l’université de Lille ne propose qu’un seul service de stockage en ligne : Nextcloud. Ce dernier propose par défaut un espace de 50 Go disponible à tout membre de l’université, qu’il soit étudiant, personnel ou chercheur.

Sauvegarde : (nom) une copie de tout ou une partie des fichiers sur un système séparé des données originelles, à des fins de récupération sur le court terme en cas de perte ou de dégradation des données. Il s’agit d’une image figée dans le temps des fichiers ; la fréquence des sauvegardes et le nombre de versions conservées simultanément dépendent des outils, services et besoins.

Archive(r) : (verbe) le transfert de données à une institution qui évalue, préserve et donne accès à ces données sur le long terme. 

(nom) Une organisation dont la mission est la conservation des informations afin d’assurer l’accès et l’utilisation par une communauté spécifique, ou un site où des données lisibles par machine sont stockées, conservées et éventuellement redistribuées aux personnes intéressées à utiliser lesdites données.

Stockage

3-2-1 : Une pratique recommandée est de conserver au moins trois copies de vos données : 1) « ici » — une copie locale, là où les données sont collectées et/ou traitées 2) « proche » — une copie sur un support externe différent du premier 3) « loin » — une copie externe conservée dans un lieu différent des deux premières copies, telle qu’un cloud par exemple.

Cela est aussi appelé la règle des Trois, ou du 3-2-1 : Trois copies, sur au moins Deux supports différents, dont Un hors site (c’est-à-dire, un bâtiment différent, ou une autre partie du pays, en fonction des situations géographiques).

Sauvegarde : Gardez en mémoire que tous les supports de sauvegarde ne se valent pas pour une conservation sur le long terme. Par exemple, les disques durs mécaniques ont une durée de vie moyenne en bonne condition de 4 à 6 six ans. Des supports de sauvegarde tels que des SSD ou des clés USB sont pratiques dans ce sens, mais sont facilement perdus ou volés. 

Lire : veillez à bien lire les conditions d’utilisation de votre service de cloud. Sous quelle condition peuvent-ils fermer votre compte ? Jusqu’où s’étend la durée de récupération des données supprimées ? Combien de versions différentes d’un même jeu de données peuvent-elles être conservées simultanément ? Est-ce basé sur le nombre de versions différentes, ou sur les dates de dernière utilisation ? 

Entrepôts : Lors de la sélection d’un outil de stockage adapté, il est primordial de se poser les bonnes questions, dont les plus importantes sont les suivantes :

  • Quels sont les types de données acceptées ?
  • Quels formats sont acceptés ?
  • Y a-t-il une gestion du versionning ?
  • Est-il possible de restreindre l’accès aux données ?
  • Peut-on créer des liens entre publications associées ?
  • Y a-t-il une attribution d’un identifiant pérenne ?
  • Y a-t-il une licence imposée ? Est-elle acceptable ?
  • Est-ce un entrepôt disciplinaire ? Multidisciplinaire ?
  • Est-ce un entrepôt assurant une conservation à long terme ?
  • L’hébergement des serveurs est-il en France ?
  • Y a-t-il un coût pour le dépôt ?
  • Le site est-il simple d’utilisation ?
  • Des statistiques sont-elles disponibles ? (utilisation, consultation, téléchargement…)

Vous pouvez rechercher un entrepôt adapté à vos besoins sur un des catalogues recommandé par l’université : 

  • re3data : un des plus grands catalogues multidisciplinaires actuels
  • FAIRsharing : catalogue les entrepôts respectant les principes FAIR
  • CoreTrustSeal : catalogue les entrepôts « certifiés »
  • CatOpidor : catalogue de référence français

Sauvegarde

Il est recommandé d’utiliser au moins un service de sauvegarde automatique, en plus des potentielles sauvegardes manuelles. Les ordinateurs personnels sont aujourd’hui équipés de ce type d’outils : Sauvegarde pour Windows, Time Machine pour Macs. Veillez à ne pas créer vos sauvegardes sur le même disque que vos données, en cas de problème tout serait perdu.

Assurez-vous de savoir comment récupérer des données perdues à partir d’une sauvegarde avant d’avoir à le faire en urgence. De même, assurez-vous régulièrement que vos sauvegardes fonctionnent et soient opérationnelles.

La synchronisation avec un espace de stockage dans le cloud n’est pas la même chose que la création d’une sauvegarde. En effet, si votre ordinateur est volé ou hacké, vos données sur le cloud sont tout autant vulnérables que les données présentes physiquement sur vos disques. De plus, si des données locales sont corrompues sans que vous le remarquiez, elles vont remplacer automatiquement les données présentes dans le cloud.

Des services comme Nextcloud permettent de gérer à la fois le stockage des données et leurs sauvegardes. Vous pouvez en apprendre plus à ce sujet sur la documentation de Nextcould, ou en adressant directement une demande d’assistance sur la plateforme dédiée.

Considérez le fait de ne créer des sauvegardes que de certaines portions de vos données, au lieu de systématiquement tout sauvegarder. Par exemple, ne sauvez que les données ayant le plus de valeur, les plus importantes ou les plus vulnérables de vos jeux de données. Ou alors, ne sauvez que les données ayant changé depuis votre dernière sauvegarde. Cela peut grandement minimiser vos coûts de stockages pour vos sauvegardes.

Sécurité et données sensibles

Si vous travaillez avec des types de données dont le contenu est sensible et doit être contrôlé (tel que des données personnelles), assurez-vous de répondre à ces besoins spécifiques dans vos méthodes de stockage. Pour en savoir plus, contactez un responsable RGPD de votre organisme. Pour en savoir plus sur ces questions autour des RGPD, vous pouvez consulter cette ressource très complète sur Doranum.

Envisagez le chiffrement, surtout si vous voyagez à l'étranger avec un ordinateur ou des disques physiques contenant des données.

Archivage et préservation

Quand vous choisissez d’archiver vos données pour préservation sur le long terme, le mieux est de directement consulter un archiviste qui pourra vous conseiller sur les meilleures solutions en fonction de vos besoins.

Informations complémentaires

Ce guide est une libre traduction et adaptation des guides de bonnes pratiques de l’Université de Cornell.