Données de la recherche

Avec l’essor de la science ouverte, et notamment après la publication du Deuxième Plan national pour la science ouverte, les données de la recherche sont aujourd’hui au cœur des préoccupations de la communauté universitaire. Pour cette raison, les chercheurs et les laboratoires s’interrogent sur leur gestion. Comme un article, une donnée de recherche a vocation à être partagée, citée et réutilisée.

  • Mais qu’est-ce qu’une donnée de recherche ?

En 2007, l’INIST (Institut de l’Information Scientifique et Technique) a défini les données de la recherche comme des « enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche ».

  • Qu’est-ce qui n’est pas inclus dans la définition des données de recherche ?

Analyses préliminaires, programmes de travaux futurs, examens par les pairs, communications personnelles (mails par exemple), objets matériels, supports de formation, données administratives.

L’objectif des principes FAIR est de favoriser la découverte, l’accès, l’interopérabilité et la réutilisation des données partagées. Chaque principe FAIR se décline en un ensemble de caractéristiques que doivent présenter les données et les métadonnées pour faciliter leur découverte et leur utilisation par les humains mais aussi par les machines. Les quatre grands principes :

  • Facile à trouver

Le principe Facile à trouver a pour objectif de faciliter la découverte des données par les humains et les systèmes informatiques notamment grâce à un standard de métadonnées et à des identifiants pérennes (par exemple les DOI).

  • Accessible

Le principe Accessible permet d’accéder et de télécharger facilement les données. Il encourage à stocker durablement les données et les métadonnées et à faciliter leur accès et/ou leur téléchargement, en en spécifiant les conditions d’accès (open accès ou restreint) et d’utilisation (licence).

  • Interopérable

Le principe Interopérable a pour objectif d’exploiter les données quel que soit l’environnement informatique utilisé. Il peut se décomposer en : téléchargeable, utilisable, intelligible et combinable avec d’autres données, par des humains et des machines.

  • Réutilisable

Le principe Réutilisable a pour objectif de réutiliser des données pour de futures recherches et met en avant les caractéristiques qui rendent les données réutilisables pour de futures recherches ou d’autres finalités (enseignement, innovation, reproduction/transparence de la science).

Visualisation interactive des 4 principes FAIR proposée par la plateforme de services DoRANum :

https://view.genial.ly/5d64fbbd8352350fa3d22603/interactive-content-les-principes-fair

Pour bien administrer la gestion des données tout au long de leur existence les universités ont élaboré le cycle de vie des données de recherche, un cycle qui décrit le processus d’utilisation des données de leur création à la publication et à leur réutilisation.

Plusieurs modèles décrivant ce cycle de vie sont proposés mais ils présentent toujours les principales phases suivantes :

Un Plan de Gestion de Données (PGD) est un document essentiel qui décrit la manière dont les données de recherche seront collectées, organisées, stockées, partagées et conservées tout au long et après la fin d’un projet de recherche. Il garantit une gestion rigoureuse des données, favorisant ainsi leur réutilisation et leur pérennité.

En amont du projet, il est utile car il vous permet de vous poser les bonnes questions à chaque étape du cycle de vie de vos données. Il s’agit d’un document évolutif qui peut être mis à jour tout au long de votre projet.

  • Pourquoi un PGD est-il important ?

Conformité aux exigences : De plus en plus d’organismes de financement, comme l’ANR ou l’Union européenne à travers Horizon 2020, exigent la création d’un PGD pour s’assurer que les données issues des recherches qu’ils financent sont correctement gérées.

Facilitation du partage et de la réutilisation : Un PGD favorise la transparence et encourage la réutilisation des données par d’autres chercheurs, contribuant ainsi à l’avancement de la recherche scientifique.

Préservation des données : En définissant des protocoles clairs pour le stockage et la sauvegarde, le PGD aide à préserver les données à long terme, réduisant ainsi les risques de perte ou de corruption des informations.

  • Que contient un Plan de Gestion de Données ?

Un PGD comprend généralement les éléments suivants :

Description des données : Type de données collectées, format, volume estimé, etc.

Collecte et traitement des données : Méthodes de collecte, procédures de vérification et contrôle de la qualité.

Stockage et sauvegarde : Emplacement des données, fréquence des sauvegardes, accès sécurisé, etc.

Partage et accès : Modalités de partage (ex. dépôts dans des entrepôts de données), anonymisation, restrictions éventuelles d’accès.

Conservation à long terme : Durée de conservation des données, plan pour la migration des formats si nécessaire, etc.

  • Comment rédiger un PGD ?

À la BU, nous vous accompagnons dans la création de votre Plan de Gestion de Données grâce à des outils et des conseils adaptés à votre projet de recherche. Vous pouvez utiliser des modèles de PGD disponibles en ligne (comme dans DMPOpidor) et nous consulter pour toute question sur la gestion des données.