Update Data Stewardship-project

door Alastair Dunning, a.c.dunning@tudelft.nl

Het Data Stewardship-project van de TU Delft loopt nu vijf maanden. We hebben de gelegenheid gehad om een conceptbeleidskader vast te stellen en een aantal gesprekken te voeren met onderzoekers op de hele campus.

Door contacten met faculteitssecretarissen hebben we kunnen constateren hoe de faculteiten met het beleidskader omgaan.

Enkele belangrijke bevindingen uit de gesprekken tot nu toe:

1. Er is brede steun voor het concept van Data Stewardship voor de ondersteuning van goed beheer van onderzoeksdata.

2. Het kost veel tijd om data te lokaliseren en te documenteren alvorens ze bij een archief te deponeren, en dit staat efficiënt delen van data vaak in de weg.

3. Er zijn grote verschillen tussen de acht faculteiten van de TU Delft wat betreft hun wens om op kortere of langere termijn nieuwe praktijken voor datamanagement in te voeren; sommige zien directe voordelen, andere hebben meer tijd nodig om de houding van de onderzoekers te peilen.

4. Verplichte training of andere vereisten worden vaak wantrouwig bekeken, al is er minder weerstand wanneer hiervoor een mandaat is van een financier.

5. Goede software is voor sommige onderzoeksgroepen even belangrijk als hun data. Voor andere groepen hebben tools om data tijdens een project te beheren meer prioriteit dan archivering op lange termijn.

6. Wanneer promovendi klaar zijn met hun promotietraject, vertrekken ze vaak zonder hun data of software vanaf hun laptop te exporteren.

7. Niet iedereen begrijpt de grotere context van de vereisten van de EU en het NWO voor datamanagementplannen.

Op grond van deze bevindingen is de volgende stap in het project het zoeken naar financiering voor de integratie van data stewards in alle faculteiten. De bedoeling is dat data stewards het proces van databeheer zullen faciliteren, dat ze data opschonen en documenteren en dat ze binnen de faculteiten voor diverse onderwerpen specifieke ondersteuning zullen bieden.

Hiervoor komen als eerste de faculteiten aan de beurt die al duidelijk geformuleerde vereisten hebben, te weten Elektrotechniek, Wiskunde en Informatica (EWI), Civiele Techniek en Geowetenschappen (CiTG) en Luchtvaart- en Ruimtevaarttechniek (LR).

De stewards zullen een expertisenetwerk voor de hele universiteit vormen, dat wordt gecoördineerd door het 4TU.Centre for Research Data. Op die manier kan kennis worden gedeeld en potentiële synergie worden aangeboord.

Open Science Framework voor data- en projectbeheer

by Alastair Dunning

In het kader van nieuwe onderzoeksprojecten binnen de TU Delft wordt vaak gevraagd om een tool waarmee alle soorten onderzoeksdata tijdens een project kunnen worden beheerd en dat ook geschikt is voor andere soorten data, die in de loop van een project worden gegenereerd, zoals stuurgroepnotulen, presentaties, interviews en verleende toestemmingen.

afbeelding OpenScience framework

Vaak wordt voor projecten uiteindelijk een combinatie van tools gebruikt (Basecamp, Google Drive, GitHub, SharePoint), die elk hun eigen voor- en nadelen hebben.

Met dat in het achterhoofd heb ik het wetenschappelijk georiënteerde Open Science Framework (OSF), dat tools biedt ter ondersteuning van de gehele werkstroom, kort onderzocht. Hier volgt een aantal van de voordelen.

•    Zeer korte opstarttijd: het is mogelijk om een project binnen enkele minuten op te starten.

•    Alle soorten data en bestanden kunnen worden geüpload en gecategoriseerd, bijvoorbeeld als ‘methode’, ‘hypothese’ of ‘communicatie’.

•    Het is mogelijk om verschillende versies van data op te slaan, inclusief de revisies aan elk bestand.

•    Aan verschillende bestanden kunnen verschillende permissieniveaus worden toegekend. Het OSF introduceert het concept ‘component’, waarmee bestanden en data op verschillende manieren kunnen worden georganiseerd. Aan elk component kunnen verschillende toegangsniveaus worden toegekend (bijv. beheerder, lezen/schrijven, alleen-lezen). Dat is met name nuttig voor projecten waarbij meerdere instanties betrokken zijn en waarvoor databeveiliging is vereist.

•    Het is mogelijk om publieksversies te maken van delen van projecten, inclusief citaties. Dat is met name aantrekkelijk voor volgroeide projecten die data willen uitwisselen en correcte verwijzingen willen garanderen.

Het gebruik van het OSF roept ook vragen op:

•    Hoe efficiënt gaat het OSF om met grote datasets? Individuele bestanden kunnen niet groter zijn dan 5 GB. Voor grotere bestanden is het mogelijk om te linken naar voorzieningen als Dropbox, maar het is nog niet duidelijk of het OSF snel genoeg blijft werken bij gebruik van meerdere grote datasets.

•    Kan het goed in combinatie met andere tools worden gebruikt? Integratie met veelgebruikte cloud-apps zoals Google Drive is al ingebouwd, maar voor sommige onderzoeksprojecten zal het OSF vooral bruikbaar zijn als het mogelijk is om verbinding te maken met gespecialiseerde code, tools en instrumenten. Dergelijke integratie is echter niet eenvoudig. Hoe kan bijvoorbeeld een sensor die dagelijks meteorologische data vastlegt die data automatisch doorgeven aan het OSF? En hoe kan het OSF worden gebruikt om verkeersgegevens inzichtelijk te maken voor visuele analyse van de bewegingen van auto’s, bussen en vrachtwagens door een stad? Het OSF heeft voor zulke toepassingen een API beschikbaar gesteld, maar er is ontwikkeltijd voor nodig om die te integreren.

•    Als er data openbaar worden gemaakt en van een DOI wordt voorzien voor citaties, zal dat veel van het OSF vergen om te garanderen dat die data ook op lange termijn duurzaam en betrouwbaar blijven. Het zal voor onderzoeksprojecten nuttig blijven om de definitieve gepubliceerde data voor de lange termijn op te slaan in een repository die voldoet aan de eisen van het Data Seal of Approval.