Introduction à la propriété intellectuelle pour la gestion des données

La gestion des droits de propriété intellectuelle (DPI) est une partie importante de tout programme de gestion des données. Un constructeur d'une base de données ou d'une autre ressource de données aura intérêt à savoir à qui appartient cette ressource et comment les autres peuvent l'utiliser. Une personne remplissant cette ressource avec des données générées en partie par d'autres voudra s'assurer que toutes les obligations légales, éthiques et professionnelles que l'on peut avoir envers le fournisseur des données sont respectées. 

Étant donné que les avantages du partage de données sont bien connus et documentés, un chercheur peut souhaiter partager sa base de données et/ou son contenu avec d'autres chercheurs. Ces derniers ne peuvent utiliser pleinement les données externes que s'ils connaissent les conditions d'utilisation (s’il en existe) de ces données. Cette fiche d'information donne un bref aperçu de certains des problèmes associés à la gestion des DPI dans les projets de données.

Données contre base de données

Dans tout projet autour de données, il est probable qu'il y ait deux composants. Le premier concerne les données collectées, assemblées ou générées. Considérez-le comme le contenu brut du système. Il peut s'agir de relevés de température par heur d'un capteur, de l'âge des individus dans une enquête, d'enregistrements de voix individuelles ou de photographies de spécimens de plantes. Le deuxième composant est le système de données dans lequel les données sont stockées et gérées.

Nous ne pensons généralement pas au contenu des données séparément du système dans lequel il est stocké, mais la distinction est importante en termes de droits de propriété intellectuelle. La question est de savoir ce qui, le cas échéant, est protégé par le droit d'auteur. 

Les données dites “factuelles” ne sont pas protégées par le droit d’auteur dans la loi française. Malgré cela, toutes les données ne sont pas pour autant dans le domaine public, et de très nombreuses exceptions peuvent être présentes. Vous pouvez notamment retrouver une partie de ces informations sur une infographie très lisible et complète, proposée par l’École des Ponts Paristech. Dans la majorité des cas, les données et métadonnées présentées dans les travaux de recherche seront factuelles, et donc non protégées par le droit d’auteur.

Une base de données, en revanche, peut avoir une fine couche de protection du droit d'auteur. En effet, en Europe ces dernières sont protégées par trois types de droit : 

  • un droit d’auteur sur les ressources stockées dans la base de données
  • un droit d’auteur sur la structure de la base de données (si tant est qu’elle soit originale)
  • le doit particulier “sui generis”, appelé droit des producteurs, qui protège la base de données à partir du moment où le producteur peut prouver avoir investi de manière substantielle dans la conception de la base, en dehors de la récolte des données

En raison du statut de droit d'auteur différent des bases de données et du contenu des données, différents mécanismes sont nécessaires pour les gérer. Le droit d'auteur peut régir l'utilisation des bases de données et de certains contenus de données (celui qui est lui-même original), mais le droit des contrats, les marques et d’autres mécanismes sont nécessaires pour réglementer les données factuelles.

Licences de données

Afin de faciliter la réutilisation des données, il est impératif que d'autres connaissent les conditions d'utilisation de la base de données ainsi que le contenu des données. Heureusement, plusieurs initiatives ont vu le jour pour développer des outils juridiques pour régir l’utilisation de l’ensemble des ensembles de données. 

Le groupe Open Data Commons (http://opendatacommons.org), en utilisant une combinaison de droits d'auteur et de normes contractuelles, ont créé trois licences standard que l'on peut utiliser conjointement avec des projets de données. De plus, il est possible d'articuler un ensemble de « normes communautaires » qui complètent l'utilisation de licences formelles. Bien qu'elles n'aient pas force de loi, les normes peuvent exprimer les convictions partagées d'une communauté vis-à-vis du partage et de la réutilisation des données.

Les trois licences ODC sont :

  1. Public Domain Dedication and License (PDDL) : cela dédie la base de données et son contenu au domaine public, libre à chacun de l'utiliser comme bon lui semble. Elle est similaire à la Public Domain Mark par Creative Commons.
  2. Licence d'attribution (ODC-By) : les utilisateurs sont libres d'utiliser la base de données et son contenu de manière nouvelle et différente, à condition qu'ils fournissent une attribution à la source des données et/ou de la base de données. Elle est l’équivalent de la licence Creative Commons CC-BY, bien que cette dernière implique nécessairement une notion de droit d’auteur.
  3. Licence de base de données ouverte (ODC-ODbL) : ODbL stipule que toute utilisation ultérieure de la base de données doit fournir une attribution, une version illimitée du nouveau produit doit toujours être accessible et tout nouveau produit fabriqué à l'aide de matériel ODbL doit être distribué selon les mêmes conditions. C'est la plus restrictive de toutes les licences ODC. Elle est l’équivalent de la licence Creative Commons CC-BY-SA.

Creative Commons (http://www.creativecommons.org/) dispose également d'une bibliothèque de licences standardisées, et certaines d'entre elles s'appliquent aux données et aux bases de données. Ces licences sont aujourd’hui les plus répandues sur le web, et peuvent être nécessaires pour une diffusion dans un contexte international, ou pour rejoindre les politiques de certains entrepôts scientifiques. Les licences CC les plus pertinentes pour la gestion des données sont :

  1. CC0 (c'est-à-dire "CC Zero") : lorsqu'un propriétaire souhaite renoncer à ses droits d'auteur et/ou de base de données, il peut utiliser la licence CC0. Il place efficacement la base de données et les données dans le domaine public. C'est l'équivalent fonctionnel d'une licence ODC PDDL.
  2. Public Domain Mark (PDM): Elle est utilisée pour marquer les œuvres qui sont dans le domaine public et pour lesquelles il n'y a pas de droits d'auteur connus ou de restrictions de base de données. Il est possible de marquer des données factuelles comme PDM dans une base de données, par exemple, afin de préciser qu'elles sont gratuites
  3. CC-BY : La licence CC-BY permet toute exploitation de l’œuvre (partager, copier, reproduire, distribuer, communiquer, réutiliser, adapter) par tous moyens, sous tous formats et sous toutes licences. Toutes les exploitations de l’œuvre ou des œuvres dérivées, y compris à des fins commerciales, sont possibles. La seule obligation étant de créditer les auteurs originaux et d’indiquer si des modifications ont été apportées (source). Elle est l’équivalent de la licence ODC-BY, bien que cette dernière s'applique aussi aux œuvres non protégées par le droit d'auteur (telles que les données factuelles), et de la licence Etalab.

D’autres licences Creative Commons existent et sont applicables à vos données, mais dans un contexte d’ouvertures des données publiques, ces alternatives ne sont pas conseillées. Cependant, depuis 2016, les licences Creatives Commons ne sont plus reconnues par l'État français, qui impose l’utilisation en parallèle de licences spécifiques : Etalab et ODC-ODbL.

Dans le cadre de la politique du Gouvernement en faveur de l’ouverture des données publiques (« Open Data »), Etalab a conçu la « Licence Ouverte / Open License ». Cette licence, élaborée en concertation avec l’ensemble des acteurs concernés, facilite et encourage la réutilisation des données publiques mises à disposition gratuitement. Il est important de rappeler que toutes les données produites par les chercheurs dans leur activité de recherche sont des données publiques, et sont donc soumises à ces règles.

La Licence Ouverte, Open Licence, ou encore Licence Etalab présente les caractéristiques suivantes : 

  1. Une grande liberté de réutilisation des informations :
    • Une licence ouverte, libre et gratuite, qui apporte la sécurité juridique nécessaire aux producteurs et aux réutilisateurs des données publiques ;
    • Une licence qui promeut la réutilisation la plus large en autorisant la reproduction, la redistribution, l’adaptation et l’exploitation commerciale des données ;
    • Une licence qui s’inscrit dans un contexte international en étant compatible avec les standards des licences Open Data développées à l’étranger et notamment celles du gouvernement britannique (Open Government Licence) ainsi que les autres standards internationaux (ODC-BY, CC-BY 2.0).
  2. Une exigence forte de transparence de la donnée et de qualité des sources en rendant obligatoire la mention de la paternité.
  3. Une opportunité de mutualisation pour les autres données publiques en mettant en place un standard réutilisable par les collectivités territoriales qui souhaiteraient se lancer dans l’ouverture des données publiques.

Choisir une licence pour ses données

Il n'y a pas de bonne réponse unique quant à la licence à attribuer à une base de données ou à un contenu. Notez, cependant, que dans un contexte de forte réutilisation, toute autre choix qu'une licence ODC-PDDL ou CC0 peut causer de sérieux problèmes aux scientifiques et autres utilisateurs ultérieurs. L'attribution peut devenir de plus en plus complexe à mesure que plusieurs ensembles de données sont combinés et réutilisés, car les travaux dérivés doivent être autorisés sous la licence la plus restrictive de tous les ensembles de données contributeurs. Cela peut conduire à une situation difficile à gérer appelée « empilement de licences » ou « empilement d'attributions », où chaque réutilisation d'un ensemble de données entraîne des conditions plus restrictives. L'utilisation de CC0 n'empêche personne de suivre les normes communautaires ; la citation des données est toujours recommandée.

Même si cela est particulièrement vrai pour un usage et un partage à l’international, à l’échelle européenne, et encore plus à l’échelle française, d’autres questions se posent. Ces licences permettant de laisser ses données et travaux directement dans le domaine public ont été pensées et développées dans un contexte juridique américain, où le droit moral sur les œuvres est extrêmement limité. En France, à l’inverse, ce droit est un des plus importants, à tel point qu’il est vu comme inaliénable. En d’autres termes, cela signifie que mettre ses travaux sous une de ces licences n’a que peu de valeur juridique en France, ce qui permettrait à l’auteur de revenir au loisir sur sa décision.

Finalement, pour tout ce qui touche de près ou de loin aux données publiques devant être ouvertes, les licences Etalab et ODC-ODbL sont à privilégier avant toute autre, étant les seules à assurer une reconnaissance complète aux yeux de l'État français.

Informations complémentaires

CC0 (+BY). Cohen, Dan. 2013. http://www.dancohen.org/2013/11/26/cc0-by/. A call for using CC0 with data, tempered by an ethical obligation to attribute.

Copyright Guide for Scientific Software. Albert, Kendra, Bouquin, Daina, Farber, Alena, & Hoover, Russell. 2019. Zenodo. http://doi.org/10.5281/zenodo.3581326. A joint project of the Harvard Cyberlaw Clinic and the Center for Astrophysics, in association with the Software Preservation Network, that provides clear, easy-to-read answers to common questions about how scientific software and copyright interact.

Data Citation Developments. Kratz, John. 2013/ http://datapub.cdlib.org/2013/10/11/data-citation-developments/. An update on efforts to standardize data attribution requirements.

How to License Research Data. Ball, Alex. 2012. http://www.dcc.ac.uk/resources/how-guides/license-research-data. Written with British law in mind, but it has a good discussion of the pros and cons of the ODC licenses.

Licensing Open Data: A Practical Guide. Korn, Naomi and Oppenheim, Charles. 2011. http://discovery.ac.uk/files/pdf/Licensing_Open_Data_A_Practical_Guide.pdf. Another guide written with UK law in mind, but with a helpful comparison of CC and ODC licensing options.

 

Open Data. Wikipedia. http://en.wikipedia.org/wiki/Open_data

Open Licenses. Project Open Data. https://project-open-data.cio.gov/open-licenses/. The US Federal Government guide to open licenses and dedications.

RDA & CODATA Legal Interoperability of Research Data: Principles and Implementation Guidelines - Now Published. Research Data Alliance. https://www.rd-alliance.org/rda-codata-legal-interoperability-research-data-principles-and-implementation-guidelines-now. A set of practical guidelines for researchers dealing with legal aspects of sharing data.

Sharing Research Data and Intellectual Property Law: A Primer. Carroll, Michael W. 2015. http://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.1002235. An introduction to the various kinds of property rights that can be associated with research data.