Archivage & partage

L’UNIL, avec l’Université de Zurich, participe activement au projet SWISSUBase mené par le Centre de compétences suisse en sciences sociales (FORS), qui vise à fournir un dépôt de données généraliste, ouvert et pérenne, permettant de se conformer aux principes des données FAIR (FAIR Data Principles), soit des données qui soient Faciles à trouver, Accessibles, Interopérables et Réutilisables.

Ce dépôt institutionnel aura une approche disciplinaire forte, mais également généraliste. Il permettra un partage et un archivage des données à long terme et devrait être accessible au printemps 2021 pour la communauté des linguistes avant l'ouverture à d'autres disciplines.

Sauvegarde, stockage et sécurité : quelles différences ?

Un stockage sûr de vos données de rechcerche et des sauvegardes régulières sont essentiels pendant votre projet de recherche.

  • La sauvegarde (backup) consiste à créer des copies supplémentaires de vos données en cours. Elle est essentielle pour éviter le risque de perte de données par effacement accidentel, panne de disque dur, vol ou détérioration de l'équipement. Les fichiers stockés sur votre bureau ne sont pas automatiquement sauvegardés. Pour plus d'informations, voir le système de sauvegarde Crashplan de l'UNIL pour votre poste de travail.
  • Le stockage de données fait référence à l'endroit et à la façon dont vous conservez vos données. Il s'agit de :
    • sélectionner les formats de fichiers appropriés (par exemple, choisir entre des options telles que texte brut, texte riche ou des formats ouverts et non propriétaires) ;
    • sélectionner le support approprié pour le stockage physique des données (par exemple, disques durs, CD-Rom, stockage en réseau et serveurs, etc.).
  • La sécurité consiste à protéger vos données. Cela signifie de :
    • veiller à ce que les données ne soient pas perdues et à ce qu'elles ne soient pas corrompues ;
    • contrôler l'accès à vos données comme il convient. Cela peut se faire de diverses façons, y compris la sécurité physique (p. ex., le stockage des données dans une pièce verrouillée), la protection par mot de passe des fichiers et le chiffrement.

Comment archiver ses données ?

L'archivage des données n'est pas à considérer comme du stockage, ni de la sauvegarde. L'archivage intervient au-delà de la fin d'un projet de recherche et vise une conservation à long terme. Il doit s'accompagner de règles de gestion qui permettent la réutilisation éventuelle des données dans le temps, ainsi que leur bonne compréhension et contextualisation (métadonnées). C'est pourquoi il est important de veiller à utiliser des standards de fichiers ouverts et non propriétaires (voir les recommandation du UK Data Service), ainsi que des règles de classement et de nommage (voir la partie collecte et organisation).

Le Data Management Plan est un outil qui permet non seulement de gérer ses données durant le projet, mais également d'en assurer une bonne gestion dans le temps (après la fin du projet).

En principe, les données liées à une publication doivent être déposées pour archivage et partage sur un dépôt non commercial répondant aux principes FAIR, sous réserve d’autres exigences formulées par l’organisme de financement de la recherche. Les données non liées à une publication peuvent être archivées sur une infrastructure du Ci (prendre contact avec la Division calcul et soutien à la recherche). Selon la directive 4.5 de la Direction, le coût d'archivage est pris en charge par l'UNIL.

Le tri et la destruction des données de recherche est de la responsabilité des chercheur·e·s. En cas d’intérêt de l’UNIL à garder des données de recherche dont la destruction est souhaitée par un·e chercheur·se, UNIRIS détermine d’entente avec ce·tte dernier·ière s’il est opportun d’archiver ou de détruire, totalement ou partiellement, les données de recherche concernées.

Comment savoir ce qu'il faut garder et ce qu'il faut supprimer ?

Un certain nombre de questions peuvent vous aider à savoir les données qu'il convient de conserver, à savoir :

  • Est-ce que mon bailleur de fonds ou l'Université a besoin que je garde ces données et/ou que je les rende disponibles pour un certain laps de temps ?
  • Est-ce que ces données constituent les documents essentiels d'un projet, d'une organisation ou d'un consortium et par conséquent ont besoin d'être conservées indéfiniment ?
  • Est-ce que j'ai les droits de propriété juridique et intellectuelle de conserver et de réutiliser ces données ? Si ce n'est pas le cas, est-ce que cela peut être négocié ?
  • Est-ce que la documentation et les informations descriptives (métadonnées) sont suffisantes pour expliquer les données et permettre aux données ou aux documents d'être trouvés, peu importe leur location ?
  • Si j'ai besoin de payer pour conserver les données, puis-je me le permettre ?

(source : UNIGE, basée sur des documents conçus par le Digital Curation Centre)

Comment partager ses données ?

De manière similaire aux publications scientifiques, le partage des données peut se réaliser via un dépôt généraliste ou un dépôt disciplinaire.

Il est fortement conseillé de partager vos données dans un dépôt FAIR et non-commercial. Afin de faciliter la transition vers des données FAIR, le FNS a défini un ensemble de critères minimaux que les dépôts de données doivent remplir afin de se conformer aux principes FAIR. Une checklist a été produite par le FNS. Il s'agit de répondre positivement aux questions suivantes :

  • Des identifiants uniques et durables (DOI p. ex.) sont-ils globalement attribués aux sets de données (ou idéalement aux fichiers composant ce set) ?
  • La banque de données permet-elle de charger les métadonnées intrinsèques (p. ex. nom de l'auteur, contenu du set de données, publications associées, etc.) et celles définies par la personne soumettant les données (p. ex. définition des variables, etc.) ?
  • La licence (CC0, CC BY, etc.) sous laquelle les données seront accessibles est-elle clairement mentionnée ou l'utilisateur·trice peut-il télécharger/choisir une licence ?
  • Les citations et les métadonnées sont-elles toujours accessibles publiquement (même dans le cas de sets de données à accès restreint) ?
  • La banque de données fournit-elle un formulaire de soumission demandant que les métadonnées intrinsèques respectent un format spécifique (afin d'assurer leur utilisation automatique/interopérabilité) ?
  • La banque de données dispose-t-elle d'un plan de préservation à long terme des données archivées ?

Le site re3data.org recense la plupart des banques de données ainsi que leurs caractéristiques.

Recommandation de l'UNIL (non encore en vigueur)

À terme et en attendant un dépôt institutionnel équivalent à SERVAL pour les données, l'UNIL pourrait recommander l'utilisation du dépôt généraliste ZENODO développé par le CERN et financé par l'Union européenne. Chaque faculté de l'Université devrait pouvoir y animer sa communauté facultaire offrant ainsi aux chercheurs de sa faculté la possibilité de déposer et partager ses données. Contactez votre consultant-recherche pour plus d'informations.

Pour les données en sciences sociales et politiques, l'UNIL préconise l'utilisation de FORSBase, développée par FORS.

Suivez nous:    

Le saviez-vous ?

29% des chercheur·e·s de l'UNIL pensent que leurs données devraient être conservées ad eternam.

Enquête 2015 sur les données de recherche

Formats d'archivage

  • Archive web : WARC
  • Containers : TAR, GZIP, ZIP
  • Databases : XML, CSV
  • Données tabulaires : CSV
  • Films : MOV, MPEG, AVI, MXF
  • Géospatial : SHP, DBF, GeoTIFF, NetCDF
  • Images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Sons : WAVE, AIFF, MP3, MXF
  • Statistiques : ASCII, DTA, POR, SAS, SAV
  • Texte : XML, PDF/A, HTML, ASCII, UTF-8

source : Bibliothèque de Stanford

Cycle de vie des données

Pour mieux comprendre les enjeux du stockage, de l'archivage et du partage des données, voir la notion du cycle de vie des données

cycle_vie_des_donnees.png

Partagez:
Unicentre - CH-1015 Lausanne
Suisse
Tél. +41 21 692 20 81