Partager et archiver les données
Le partage des données permet aux chercheurs de valider les résultats de la recherche, de réutiliser les données pour l'enseignement et la recherche, et peut augmenter l'impact de ladite recherche (Piwowar 2007). Le partage est également exigé par un nombre croissant de financeurs et d'éditeurs. Les financeurs cherchent à maximiser l'impact de la recherche qu'ils financent en encourageant ou en exigeant le partage des données. Les éditeurs cherchent à s'assurer que la recherche qu'ils publient est reproductible et que suffisamment d'informations sont incluses pour le dossier scientifique. Si le partage des données peut poser des défis de « nature éthique, culturelle, juridique, financière ou technique », il peut également ouvrir la voie à « une science plus ouverte, éthique et durable » (Figueiredo 2017).
Stratégies d’archivage et de partage
Le partage de données englobe toutes les stratégies par lesquelles une personne pourrait mettre ses données à la disposition d'un public plus large. Cependant, toutes les stratégies de partage ne permettent pas une conservation sur le long terme. Les archives et les entrepôts de données disposent d'experts en données qui peuvent fournir des services de conservation et une gestion à long terme de vos données. L'archivage de vos données dans un entrepôt de confiance permettra aux données d'être à la fois préservées et accessibles. Nous encourageons les chercheurs à contacter d'abord un entrepôt de confiance, comprenant les options suivantes :
- déposer dans un centre de données spécifique à une discipline ou un entrepôt comme le CCSS Data Archive (principalement les sciences sociales), le CUGIR (Cornell University Geospatial Information Repository) ou les bases de données NCBI (National Center for Biotechnology Information) ;
- déposer dans un entrepôt pluridisciplinaire et organisée comme Dryad ;
- dépôt dans l’entrepôt numérique de Cornell (eCommons) ;
D'autres options de partage peuvent être préférées ou requises par un éditeur, bien qu'elles ne soient pas organisées et ne garantissent pas une conservation à long terme. Celles-ci incluent :
- soumission à un éditeur de revue classique conjointement avec une publication des jeux de données ;
- publication dans un data paper ;
- soumission à des entrepôts dépourvus de vérifications tels que l'instance Open Science Framework de Cornell, figshare et Harvard Dataverse ;
Bien que les sites Web personnels ou de laboratoire, les cahiers de laboratoire électroniques (ELN), les wikis et les outils similaires puissent être suffisants pour le partage à court terme, ils ne sont généralement pas de bons choix à long terme. La meilleure solution garantira que les données soient trouvables, accessibles et préservées sur le long terme. Le RDMSG peut aider les chercheurs à sélectionner un entrepôt approprié, un data journal ou une autre stratégie de partage de données.
Pour de plus amples informations sur le partage des données liées aux publications scientifiques, vous pouvez consulter l’article dédié sur Ouvrir la science.
Choisir un entrepôt
Il est essentiel que l’entrepôt sélectionné soit adapté aux données traitées. Tous les entrepôts ne se valent pas sur tous les domaines, tous ne proposent pas des services identiques, et tous ne sont pas conçus pour recevoir tout type de données. Il est important de se renseigner auprès des autres membres de son laboratoire, de son équipe de recherche, de son éditeur ou de son financeur afin de déterminer s’il existe des recommandations pour le sujet de recherche traité.
S’il n’y en a pas, il est possible de chercher soit même un entrepôt adapté à partir d’annuaires d’entrepôts reconnus tels que re3data, OAD (par discipline), OpenDOAR, FAIRsharing (respectent les principes FAIR), CoreTrustSeal entrepôts certifiés) ou CatOpidor (entrepôts français). Pour la sélection d’un entrepôt, il faut tenir compte de ces éléments :
- Types de données acceptées ?
- Quels formats sont acceptés ?
- Y a-t-il une gestion du versionning ?
- Est-il possible de restreindre l’accès aux données ?
- Peut-on créer des liens entre publications associées ?
- Y a-t-il une attribution d’un identifiant pérenne ?
- Y a-t-il une licence imposée ? Est-elle acceptable ?
- Est-ce un entrepôt disciplinaire ? Multidisciplinaire ?
- Est-ce un entrepôt assurant une conservation à long terme ?
- L’hébergement des serveurs est-il en France ?
- Y a-t-il un coût pour le dépôt ?
- Le site est-il simple d’utilisation ?
- Des statistiques sont-elles disponibles ? (utilisation, consultation, téléchargement…)
Problèmes et exceptions
Les questions de propriété intellectuelle liées aux données de recherche sont complexes. La propriété des données peut appartenir au chercheur, à l'institution ou au financeur, selon la nature de la nomination du chercheur, les conditions du contrat de subvention et s'il y a des implications en matière de brevet. N’hésitez pas à consulter les deux guides fournis par Doranum sur ces sujets, qui sont à la fois très clair et très visuels : Qui a les droits, quelles obligations ? et Les droits d’auteur.
Conditions de réutilisation
Lors du partage de données, il est important de documenter les conditions de réutilisation. La documentation doit inclure une description des licences standard appliquées aux données et toute condition d'utilisation supplémentaire. Le consensus international se dirige vers une utilisation favorisée de la licence CC0, qui vise à réduire les obstacles juridiques et techniques à la réutilisation des données. Cependant, pour une reconnaissance française, il faut utiliser la Licence Libre Etalab, qui peut être utilisée en complément d’autres licences plus internationales comme les Creatives Commons. Vous pouvez lire nos conseils détaillés dans notre introduction à la propriété intellectuelle.
Pourquoi CC0 ? L'attribution peut devenir de plus en plus complexe à mesure que plusieurs ensembles de données sont combinés et réutilisés, car les travaux dérivés doivent être autorisés sous la licence la plus restrictive de tous les ensembles de données contributeurs. Cela peut conduire à une situation difficile à gérer appelée « empilement de licences » ou « empilement d'attributions », où chaque réutilisation d'un ensemble de données entraîne des conditions plus restrictives. L'utilisation de CC0 n'empêche personne de suivre les normes communautaires ; la citation des données est toujours recommandée.
Données privées et confidentielles, ou données soumises à des implications commerciales
Les chercheurs peuvent avoir des obligations éthiques ou légales de maintenir la confidentialité et de protéger la vie privée des sujets de recherche, ou peuvent avoir d'autres circonstances nécessitant un stockage sécurisé des données ou un accès restreint aux données, telles que des restrictions de licence qui interdisent leur partage. Les données peuvent également faire partie d'un projet de recherche ayant un potentiel de commercialisation. Les financeurs et les éditeurs reconnaissent qu'il existe des circonstances légitimes dans lesquelles un chercheur ne peut pas partager ses données, et un plan de gestion des données doit expliquer ces circonstances.
Références
Sharing detailed research data is associated with increased citation rate. Heather A. Piwowar, Roger S. Day, Douglas D. Fridsma. PLoS ONE 2(3): e308. 2007. https://dx.doi.org/doi:10.1371/journal.pone.0000308.
Data Sharing: Convert Challenges into Opportunities. Ana Sofia Figueiredo. Frontiers in Public Health 5(327). 2017. https://doi.org/10.3389/fpubh.2017.00327
Informations complémentaires
License stacking (Mozilla Science Lab)
Metadata and describing data Preparing tabular data for description and archiving
Ce guide est une libre traduction et adaptation des guides de bonnes pratiques de l’Université de Cornell.