Preservation & sharing

Un stockage sûr de vos données de recherche et des sauvegardes régulières sont essentiels pendant votre projet de recherche.

  • La sauvegarde (backup) consiste à créer des copies supplémentaires de vos données en cours. Elle est essentielle pour éviter le risque de perte de données par effacement accidentel, panne de disque dur, vol ou détérioration de l'équipement. Les fichiers stockés sur votre bureau ne sont pas automatiquement sauvegardés. Pour plus d'informations, voir le système de sauvegarde Crashplan de l'UNIL pour votre poste de travail.
  • Le stockage de données fait référence à l'endroit et à la façon dont vous conservez vos données. Il s'agit de :
    • sélectionner les formats de fichiers appropriés (par exemple, choisir entre des options telles que texte brut, texte riche ou des formats ouverts et non propriétaires) ;
    • sélectionner le support approprié pour le stockage physique des données (par exemple, disques durs, USB, stockage en réseau et serveurs, CDs-DVDs, etc.).
  • La sécurité consiste à protéger vos données. Cela signifie de :
    • veiller à ce que les données ne soient pas perdues et à ce qu'elles ne soient pas corrompues ;
    • contrôler l'accès à vos données comme il convient. Cela peut se faire de diverses façons, y compris la sécurité physique (p. ex., le stockage des données dans une pièce verrouillée), la protection par mot de passe des fichiers et le chiffrement.

Au-delà de la question sur QUELLES données conserver, une réflexion sur le POURQUOI conserver ainsi que sur les ACTEUR·TRICE·S à impliquer doit être pris en compte afin de savoir ce qui doit être conservé ou non.

Pour UNIRIS, à l'instar de l'étude du Jisc, le POURQUOI conserver les données de recherche repose sur deux aspects :

  1. les données sont un support à l'intégrité de la recherche et à sa reproductibilité ;
  2. les données ont un potentiel de réutilisabilité.

Les questions sur QUELLES données conserver se concentrent alors autour des critères suivants :

  • ceux liés à la mission "recherche", soit :
    • exigence du bailleur de fonds
    • exigence légale
    • exigence de l'éditeur·trice
    • exigence de son institution de rattachement
    • les données soutiennent une publication et des résultats de recherche
    • les données ont un caractère unique
    • les données disposent d'un caractère lié à la notion de patrimoine culturel immatériel
    • originalité des données
    • possibilité d'accès et d'utilisation avérés
  • ceux liés à la nature de la donnée, soit :
    • données brutes
    • données traitées
    • données qui soutiennent une publication et des résultats de recherche
    • données qui synthétisent une recherche
  • ceux liés aux types de données, soit :
    • données d'observation
    • données d'expérimentation
    • données secondaires
    • données négatives
  • ceux liés aux matériaux qui complètent les données, soit :
    • échantillons physiques
    • métadonnées et documentation
    • logiciels utilisés

Enfin, le comité à même de décider de la conservation/archivage devraient se composer des ACTEUR·TRICE·S suivants :

  • les chercheur·e·s qui ont créé/collecté les données
  • le(s) bailleur(s) de fonds
  • l'institut de rattachement du et de la chercheur·e
  • un·e éthicien·ne
  • un·e archiviste
  • un·e gestionnaire (curateur) des données
  • d'autres chercheur·e·s utilisateur·trice·s des données

Les différents domaines de recherche et les institutions qui les abritent devraient également être consultés.

UNIL, together with the University of Zurich, is actively participating in the SWISSUBase project led by the Swiss Competence Centre for Social Sciences (FORS), which aims to provide a general, open and sustainable data repository to comply with the FAIR Data Principles, i. e. data that is easy to find, accessible, interoperable and reusable.

This institutional repository will have a strong disciplinary approach, but also a generalist one. It will allow for long-term data sharing and archiving and is expected to be accessible to the linguistic community in the spring of 2021 before opening up to other disciplines.

Backup, storage and security : what are the differences ?

Secure storage of your search data and regular backups are essential during your research project.

  • Backup consists of creating additional copies of your current data. It is essential to avoid the risk of data loss due to accidental erasure, hard disk failure, theft or damage to equipment. Files stored on your desktop are not automatically backed up. For more information, see UNIL's Crashplan backup system for your workstation.
  • Data storage refers to where and how you store your data. It is about :
    • select the appropriate file formats (for example, choose between options such as plain text, rich text or open and non-proprietary formats) ;
    • select the appropriate medium for the physical storage of data (e. g. hard disks, CD-ROMs, network storage and servers, etc.).
  • Security is about protecting your data. This means from :
    • ensure that data is not lost and corrupted ;
    • control access to your data as appropriate. This can be done in a variety of ways, including physical security (e.g., storing data in a locked room), file password protection and encryption.

How to archive your data ?

Data archiving is not to be considered as storage or backup. Archiving takes place after the end of a research project and aims a preservation ad aeternam. It must be accompanied by management rules that allow for the possible reuse of data over time, as well as their proper understanding and contextualisation (metadata). This is why it is important to ensure that open and non-proprietary file standards are used (see UK Data Service recommendations), as well as classification and naming rules (see organize your data).

The Data Management Plan is a tool that allows you not only to manage your data during the project, but also to ensure its proper management over time (after the end of the project).

In principle, publication-related data must be deposited for archiving and sharing on a non-commercial repository that complies with FAIR principles, subject to other requirements formulated by the research funding agency. Data not related to a publication can be store on the Ci Long term storage infrastructure (contact the Calculation and Research Support Division). According to Directive 4.5, the cost of archiving and of long term storage are covered by UNIL.

The sorting and destruction of research data is the responsibility of the researchers. In the event that UNIL has an interest in keeping research data whose destruction is desired by a researcher, UNIRIS shall determine, in agreement with the researcher, whether it is appropriate to archive or destroy, in whole or in part, the research data concerned.

What data to keep ?

Beyond the question on WHAT data to keep, a reflection on WHY to keep as well as on the PLAYERS to involve must be taken into account in order to know what should be kept or not.

For UNIRIS, as in the Jisc study, the WHY to keep research data is based on two aspects :

  1.     data are a support for the integrity of the research and its reproducibility ;
  2.     the data have the potential for reusability.

Questions about WHAT data to retain then focus on the following criteria :

  • those related to the "research" mission, i.e. :
    • funder's requirement
    • statutory requirement
    • editorial requirement
    • requirement of its home institution
    • data support publication and research results
    • the data has a unique character
    • the data has a character linked to the notion of intangible cultural heritage
    • data originality
    • proven accessibility and usability
  • those related to the nature of the data, i.e. :
    • raw data
    • treated data
    • data that support a publication and research results
    • data that synthesizes research
  • those related to the types of data, i.e. :
    • observational data
    • experimental data
    • secondary data
    • negative data
  • those related to the materials that complete the data, i.e. :
    • physical samples
    • metadata and documentation
    • software used

Finally, the committee in a position to decide on conservation/archiving should be composed of the following ACTOR·TRESSE·S :

  • the researcher who created/collected the data
  • the funder
  • an ethicist
  • an archivist
  • the manager (curator) of the data
  • other researchers using the data
  • the researcher's home institute.

The different research areas and the institutions in which researchers are located should also be consulted.

How to share your data ?

In a similar way to scientific publications, data sharing can be carried out via a general repository or a disciplinary repository.

It is strongly recommended to share your data in a FAIR and non-commercial repository. In order to facilitate the transition to FAIR data, the SNSF has defined a set of minimum criteria that data repositories must meet in order to comply with the FAIR principles. A checklist has been produced by the SNSF. The aim is to answer positively to the following questions :

  • Are unique and durable identifiers (e. g. DOI) assigned globally to the datasets (or ideally to the files in the dataset) ?
  • Does the database allow loading of intrinsic metadata (e. g. author's name, data set content, associated publications, etc.) and those defined by the person submitting the data (e. g. definition of variables, etc.) ?
  • Is the user license (CC0 recommanded for data and CC BY for publications) under which the data will be accessible clearly mentioned or can the user download/select a license ?
  • Are citations and metadata always publicly accessible   (even in the case of restricted datasets) ?
  • Does the database provide a submission form requiring that the intrinsic metadata follow a specific format (to ensure their automatic use or interoperability) ?
  • Does the database have a long-term preservation plan for the archived data ?

The re3data.org website lists most of the databases and their characteristics.

À terme et en attendant un dépôt institutionnel équivalent à SERVAL pour les données (voir projet SWISSUbase ci-dessous), l'UNIL pourrait recommander l'utilisation du dépôt généraliste ZENODO développé par le CERN et financé par l'Union européenne. Chaque faculté de l'Université devrait pouvoir y animer sa communauté facultaire offrant ainsi aux chercheur·e·s de sa faculté la possibilité de déposer et partager ses données. Contactez votre Consultant·e recherche pour plus d'informations.

FORSBase pour les sciences sociales et politiques

Pour les données en sciences sociales et politiques, l'UNIL préconise l'utilisation de FORSBase, développée par FORS, le Centre de compétences suisse en sciences sociales.

Le centre produit des données d'enquêtes nationales et internationales. Il met à disposition des outils pour l'infrastructure de l'information et offre un service de consultation pour les chercheur·e·s.

SWISSUBase pour l'ensemble des domaines de recherche (dès 2021)

L'UNIL travaille actuellement avec FORS et l'UNIZH pour le développement d'un dépôt de données thématiques et généralistes à même de gérer les données de recherche produites à l'UNIL, le projet SWISSUbase.

La PlaTec pour les données qualitatives en sciences humaines et sociales

La PlaTec est le satellite du DaSCH Data and Service Center for the Humanities (DaSCH), institution de l’Académie des Sciences Humaines et Sociales, pour la Suisse romande. Elle assure à ce titre l’accessibilité et l’archivage à long terme des données de recherche en SHS dans le cadre d’une infrastructure numérique et d’un centre de services déployés au niveau national.

La PlaTec accompagne les chercheur·e·s dans la gestion de leurs données de recherche et bases de données, en mettant à disposition l’infrastructure du DaSCH (Knora, Salsah, Sipi) et d'autres services (encadrement, accompagnement, évaluation, etc.).

c4science pour le code informatique

c4science est une infrastructure suisse non-commerciale pour la co-création, conservation, partage et tests de codes scientifiques. Disponible pour l'ensemble de la communauté universitaire suisse et accessible aux collaborateur·trice·s externes, cette plateforme est hébergée sur SWITCHengines, gérée par l'EPFL-SCITAS, créée via EnhanceR.

Which data repositories at UNIL ?

In the long term and pending an institutional repository equivalent to SERVAL for data (see SWISSUbase project infra), UNIL could recommend the use of the general repository ZENODO developed by CERN and funded by the European Union. Each faculty of the University should be able to animate its faculty community there, thus offering researchers in its faculty the possibility of depositing and sharing its data. Contact your research consultant for more information.

FORSBase for social and political sciences

For data in social and political sciences, UNIL recommends the use of FORSBase, developed by FORS, the Swiss Centre of Competence in Social Sciences.

The centre produces data from national and international surveys. It provides tools for information infrastructure and a consultation service for researchers.

SWISSUBase for all research areas (from 2021)

UNIL is currently working with FORS and UNIZH to develop a repository of thematic and generalist data to manage the research data produced at UNIL. See the project SWISSUbase.

PlaTec for qualitative data in the humanities and social sciences

PlaTec is the satellite of the DaSCH (Data and Service Center for the Humanities), an institution of the Academy of Human and Social Sciences, for French-speaking Switzerland. As such, it ensures the long-term accessibility and archiving of SHS research data as part of a digital infrastructure and service centre deployed at the national level.

PlaTec supports researchers in the management of their research data and databases. It provides researchers with the DaSCH infrastructure (Knora, Salsah, Sipi) and other services (supervision, support, evaluation, etc.).

Follow us:    

Did you know ?

29% of UNIL researchers believe that their data should be kept ad eternam.

UNIL's Research Data Survey, 2015

Archiving formats

  • Web Archive: WARC
  • Containers: TAR, GZIP, ZIP
  • Databases: XML, CSV
  • Tabular data: CSV
  • Films: MOV, MPEG, AVI, MXF
  • Geospatial: SHP, DBF, GeoTIFF, NetCDF
  • Images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Sounds: WAVE, AIFF, MP3, MXF
  • Statistics: ASCII, DTA, POR, SAS, SAV
  • Text: XML, PDF/A, HTML, ASCII, UTF-8

source : Bibliothèque de Stanford

Data life cycle

To better understand the challenges of data storage, archiving and sharing, see the concept of the data life cycle.

cycle_vie_des_donnees.png