Préparation des données FAIR pour la réutilisation et la reproductibilité

Les financeurs de la recherche encouragent de plus en plus le partage de données associées à la recherche, lisibles par machine, conformément aux principes de données FAIR (par exemple, la politique finale des NIH pour la gestion et le partage des données publiées en 2020). Ces principes décrivent comment les données peuvent être organisées et documentées afin qu'elles soient plus aisément trouvables, accessibles, interopérables et réutilisables de manière logique par d'autres utilisateurs et systèmes informatiques. La préparation et le partage de vos données conformément aux principes FAIR peuvent faciliter la découverte et la réutilisation de vos recherches.

Terminologie

Principes FAIR : les « principes directeurs FAIR pour la gestion et l'intendance des données scientifiques » sont un ensemble d'attributs techniques publiés dans Scientific Data en 2016 pour accroître la possibilité de trouver, l'accessibilité, l'interopérabilité et la réutilisation des données, en mettant l'accent sur la compréhension par les machines, en raison de notre dépendance croissante aux systèmes informatiques  lorsqu'on traite des données.

• Assignation d’un identifiant pérenne et unique pour les différents jeux de données ;

• Dépôt dans un entrepôt de données adapté aux besoins (cela est mieux s’il est certifié, dit « de confiance », avec une pérennité assurée, un identifiant pérenne fourni et une gestion des différentes versions assurée) ;   

• Création de métadonnées externes riches, liées aux jeux de données ;

• Nécessité d’un archivage pérenne évalué (avec toutes les démarches que cela implique) ;

• Les données doivent être accessibles à toutes les personnes autorisées, mais pas plus ;

• Utiliser des protocoles standards, sécurisés, libres et ouvert lors de la mise en place de bases de données ;   

• Toujours travailler, si possible, avec des formats de fichier indépendant de tout logiciel propriétaire ;  

• Les métadonnées sont rendues accessibles en toute circonstance, même lorsque les données sont protégées ou perdues ; 

• Les métadonnées doivent répondre à un schéma connu, précisément décrit en listes structurées ;

• Les métadonnées utilisent un vocabulaire contrôlé et FAIR pour les descriptions des données (mieux si la documentation du vocabulaire FAIR utilisé est facilement trouvable et identifiable à l’aide d’un identifiant pérenne qui lui est propre) ;

• Pour une interopérabilité optimale, choisir un entrepôt lié au web de données et construit sur la technologie RDF ou équivalent, mais cela n’est pas encore le plus répandu ;

• Il faut choisir une licence pour stipuler clairement les conditions de réutilisation des données ;

• La provenance des données doit être décrite avec précision ;

• Un fichier « readme » peut être ajouté si nécessaire pour assurer la bonne compréhension et la réutilisation des données dans le futur (le mieux étant qu’il contienne aussi l’ensemble des informations permettant une nouvelle récupération des données dans des conditions parfaitement similaires) ;   

• Le schéma de métadonnées choisi doit être adapté aux types de ressources, au domaine, à la communauté ou à l’entrepôt ;

Lisible par la machine : structurer les données et le contenu pour permettre aux systèmes informatiques de trouver, d'accéder, et de réutiliser les données sans intervention humaine importante.

Interopérabilité des données : L'interopérabilité des données est la capacité par laquelle les données peuvent être analysées et/ou fusionnées avec des données similaires. L'interopérabilité des données repose sur les normes de données, la documentation des données et les métadonnées pour indiquer aux chercheurs quels ensembles de données ou quelles variables sont comparables.

Par où commencer ?

La bonne gestion des données à postériori peut être laborieuse et floue. Il est donc important de s’y atteler dès la préparation du projet de recherche. C’est là tout l’intérêt du Plan de Gestion de Données (PGD ou DMP). Ce dernier va décrire la gestion des données à toutes les étapes du projet, lors de la collecte, du traitement, du stockage, du partage et de l’archivage des données. C’est un document particulièrement utile car il est unique et synthétique, abordant l’ensemble des problématiques : budgétaires,  éthiques, juridiques, sur les différentes responsabilités ainsi que sur la sécurité. Il n’y a pas de modèle fixe, mais de nombreux modèles sont disponibles sur DMP OPIDoR, et il sera bientôt mis à votre disposition un modèle spécifique à l'université de Lille.

Il s’agit d’un document évolutif qui doit être rédigé dès le début du projet puis complété au fur et à mesure. La version finale doit être livrée à l’issue du projet.

Il est de plus en plus demandé par les financeurs, notamment l’ANR et la commission européenne, que les données soient ouvertes ou non. Dans ces cas là, ne perdez pas de temps et commencer votre PGD dès les prémices de votre projet. N'hésitez pas à nous contacter pour toute demande de conseil ou de relecture de vos document.

FAIR Checklist

Jeu de données/fichiers

Il est essentiel que l’entrepôt sélectionné soit adapté aux données traitées. Tous les entrepôts ne se valent pas sur tous les domaines, tous ne proposent pas des services identiques, et tous ne sont pas conçus pour recevoir tout type de données. Il est important de se renseigner auprès des autres membres de son laboratoire, de son équipe de recherche, de son éditeur ou de son financeur afin de déterminer s’il existe des recommandations pour le sujet de recherche traité.

S’il n’y en a pas, il est possible de chercher soit même un entrepôt adapté à partir d’annuaires d’entrepôts reconnus tels que re3data, OAD (par discipline), OpenDOAR, FAIRsharing (respectent les principes FAIR), CoreTrustSeal entrepôts certifiés) ou CatOpidor (entrepôts français).

Présence d’un identifiant pérenne pour identifier les données. Il s’agira d’un DOI ou d’un SWHID dans la plupart des cas. Ces identifiants forment un des socles principaux de la plupart des étapes de FAIRisation des données. En effet, une identification pérenne et sans ambiguïté est nécessaire pour une préservation, une réutilisation, ainsi qu’un partage efficace des données au sein de sa communauté scientifique et au-delà. 

Les DOI sont particulièrement répandus dans le monde de la recherche, et la plupart des entrepôts de stockages se chargent aujourd’hui de les attribuer. Sans cela, il est nécessaire de passer par son institution afin d’en obtenir un. En effet, cet identifiant est géré par d’importantes structures internationales, telles que Datacite et Crossref. À l’échelle française, c'est l’INIST-CNRS qui s’occupe d’attribuer ces identifiants. Seules les institutions peuvent en obtenir un en en faisant la demande à une agence d’enregistrement, comme Datacite. Un contrat est alors réalisé entre les deux entités, et un préfixe propre à l’institution est défini.

Les formats de fichiers « de travail », ceux utilisés dans le cadre de la collecte et du travail avec les données du projet, ne sont pas toujours idéaux pour la réutilisation ou la conservation à long terme. De plus, elles peuvent ne pas répondre aux exigences des archives, des référentiels de données ou satisfaire les attentes des financeurs.

Quand il n’y a pas de directive précise de la part des financeurs ou des entrepôts de données, un certain nombre de bonnes pratiques peuvent malgré tout être prises en compte.

Il est recommandé d’utiliser au moins un service de sauvegarde automatique, en plus des potentielles sauvegardes manuelles. Les ordinateurs personnels sont aujourd’hui équipés de ce type d’outils : Sauvegarde pour Windows, Time Machine pour Macs. Veillez à ne pas créer vos sauvegardes sur le même disque que vos données, en cas de problème tout serait perdu.

Assurez-vous de savoir comment récupérer des données perdues à partir d’une sauvegarde avant d’avoir à le faire en urgence. De même, assurez-vous régulièrement que vos sauvegardes fonctionnent et soient opérationnelles.

La synchronisation avec un espace de stockage dans le cloud n’est pas la même chose que la création d’une sauvegarde. En effet, si votre ordinateur est volé ou hacké, vos données sur le cloud sont tout autant vulnérables que les données présentes physiquement sur vos disques. De plus, si des données locales sont corrompues sans que vous le remarquiez, elles vont remplacer automatiquement les données présentes dans le cloud.

README/métadonnées

☐ Tous les fichiers de données associés sont-ils nommés et décrits sans ambiguïté dans les métadonnées, y compris les types de fichiers, les exigences logicielles et/ou les informations de conversion ?

☐ Les métadonnées incluent-elles des notations disciplinaires et une terminologie utiles ? (par exemple, unités SI, identificateurs de domaine commun, épeler les acronymes, expliquer le jargon spécifique au domaine)

☐ Les métadonnées incluent-elles des normes lisibles par machine lorsqu'elles sont disponibles (par exemple, les ORCID (pour les auteurs et/ou les contributeurs de données), la norme de date internationale ISO, les identifiants taxonomiques ITIS)

☐ Les articles connexes sont-ils référencés et liés dans les métadonnées ?

☐ Un format de citation pour l'ensemble de données est-il fourni ?

☐ Les termes de la licence, l'attribution ou les conditions d'utilisation sont-ils clairement indiqués ?

☐ Les métadonnées sont-elles exportables dans un format texte structuré lisible par machine ? (par exemple, XML, JSON)​

☐ Approfondissez nos conseils sur les métadonnées et la description des données ou notre Guide d'écriture de métadonnées de style "readme"

Conseils supplémentaires pour préparer vos données au partage

Vous pouvez choisir d'inclure des données brutes (telles que collectées à l'origine) ou traitées (par exemple, des signaux codés) ou les deux, selon ce qui est le plus utile ou courant dans une discipline, ou spécifiquement requis par un éditeur ou un entrepôt

Utilisez autant que possible des formats de fichiers courants et ouverts, y compris pour les types de données spécifiques à une discipline si des formats ouverts sont disponibles

Utilisez des noms de fichiers non ambigus et organisez les fichiers de manière logique selon votre projet (par exemple, par échantillon, traitement, méthode, etc.) ; approfondir les conseils de gestion des fichiers

Explorez plus d'informations sur la préparation des données tabulaires pour la description et l'archivage

Pour une approche simple, utilisez le modèle de Readme et enregistrez-le au format .txt (notez que certains référentiels peuvent fournir des modèles de documentation spécifiques)

Dressez la liste des fichiers de données inclus dans le package et/ou décrivez le schéma de nommage et l'organisation des fichiers s'il s'agit de nombreux fichiers, y compris leurs formats et toute configuration logicielle spécifique et/ou les informations de conversion si vous les avez

Décrire les méthodes de collecte de données ainsi que les structures et l'organisation des fichiers, y compris une notation utile sur les en-têtes de données, les unités, les identifiants d'échantillon, etc. (l'utilisation d'une terminologie ou d'une nomenclature standard ou conventionnelle dans votre discipline peut être utile)

Référencez tous les articles associés et incluez les ORCID de tous les contributeurs de données

Pour en savoir plus, consultez notre Guide d'écriture de métadonnées de style "readme"

Compressez tous les fichiers de données et la documentation dans un package ou un ensemble de données (des procédures spécifiques pour le conditionnement et le versement peuvent être fournies par certains entrepôts)

Sélectionnez un entrepôt de données réputé et téléversez un ensemble de données (les éditeurs ou les financeurs peuvent exiger le choix d’un entrepôt spécifique ; de nombreux entrepôts spécifiques à un domaine fournissent des services améliorés et une conservation pour des types de données spécifiques)

Assurez-vous que l’entrepôt fournit un DOI et spécifie les conditions d'accès et de réutilisation des données par d'autres (comme une déclaration de domaine public ou une licence d'attribution Creative Commons ; la politique de licence peut varier selon l’entrepôt)

Fournissez une citation préformatée (et une attribution de licence, le cas échéant) pour l'ensemble de données sur votre site Web et autres documents, afin que les utilisateurs puissent facilement les copier et les attribuer ; par exemple:

  • Auteur(s). Titre de l'ensemble de données, Version. Entrepôt de données (ou journal le cas échéant). Année. DOI. (Date d'accès)
  • [Attribution de la licence, le cas échéant.]

En savoir plus sur le partage et l'archivage des données

Références

Wilkinson, M., Dumontier, M., Aalbersberg, I. et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 3, 160018 (2016). https://doi.org/10.1038/sdata.2016.18 

FAIR Principles. GO FAIR. https://www.go-fair.org/fair-principles/ 

Les principes FAIR. DoRANum. https://doranum.fr/enjeux-benefices/principes-fair/

Produire des données FAIR. Université Paris-Saclay. https://www.universite-paris-saclay.fr/recherche/science-ouverte/les-donnees-de-la-recherche/produire-des-donnees-fair

Citer des données. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/citer-des-donnees

Bonne gestion de fichiers. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/gestion-de-fichiers

Format de fichier. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/format-de-fichiers

Guide de rédaction des métadonnées de type "readme". Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/guide-de-redaction-de-metadonnees-de-type-readme

Introduction à la propriété intellectuelle. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/introduction-a-la-propriete-intellectuelle-pour-la-gestion-des-donnees

Métadonnées et description des données. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/metadonnees-et-description-des-donnees

Partager et archiver les données. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/partager-et-archiver-les-donnees

Préparation des données tabulaires pour la description et le partage. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/preparation-des-donnees-tabulaires-pour-la-description-et-larchivage

Sauvegarde et stockage des données. Services à la recherche et aux chercheurs, Université de Lille. https://bu.univ-lille.fr/chercheurs-doctorants/science-ouverte/donnees-de-recherche/sauvegarde-et-stockage-des-donnees

Ce guide est une libre traduction et adaptation des guides de bonnes pratiques de l’Université de Cornell.