Lathund för att förbereda data för tillgängliggörande

När du delar forskningsdata gör du det möjligt för andra att granska forskningens resultat och återanvända data i vidare studier. För att det ska vara möjligt behöver data organiseras och presenteras på ett självförklarande sätt.

Certifierade repositorier (som SND) använder sig av en granskningsprocess som ser till att data och dokumentation uppfyller vissa krav innan de publiceras och kan delas vidare. Granskare, vid SND eller hos forskningsdatastödet vid din organisation, kommer att arbeta med dig för att säkerställa att den publicerade datamängden är återanvändbar. Det är viktigt att du kan nås och deltar aktivt under granskningsprocessen.

Det är bra att gå igenom följande punkter:

Personuppgifter

  • Data som innehåller personuppgifter får beskrivas och delas via DORIS enbart om din organisation och SND har en överenskommelse om det. Läs mer om vilka organisationer som erbjuder sina forskare den möjligheten och hur det fungerar i praktiken på sidan Data med personuppgifter i DORIS.
  • Data som innehåller personuppgifter ska generellt inte delas öppet, utan behöver delas med begränsad åtkomst.
  • Om du hör till en organisation som inte erbjuder möjlighet att dela data med personuppgifter via DORIS behöver du se till att data är anonyma. Du kan läsa mer om anonymisering här. Du kan också kontakta SND på snd@snd.se, så kan vi tillsammans undersöka vad det finns för möjliga lösningar.

Datafiler 

  • Datafiler bör ha ett filformat som är vanligt förekommande, öppet och icke-proprietärt. Om det är möjligt kan du dela datafiler i flera format, så att de både finns i format som lämpar sig för användning och format som är mer anpassade för långtidslagring. Du kan läsa mer om val av filformat på sidorna under Filformat på Researchdata.se.
  • Fil- och mappnamn ska vara konsekventa och begripliga. Filnamn som innehåller löpnummer eller kod behöver förklaras i exempelvis en README-fil.
  • Dataset som består av flera filer behöver struktureras på ett sätt som är tydligt för andra användare. Strukturen och relationen mellan filerna kan vid behov förklaras i en README-fil. 
  • Om ett datamaterial består av många filer är det ofta bäst att paketera dem som ett eller flera ZIP-arkiv för enklare nedladdning, vilket också kan hjälpa till att minska filstorlekarna. Du kan även överväga att dela upp materialet och publicera data som flera separata dataset. Dataseten kan sedan relateras (länkas) till varandra i katalogen på Researchdata.se.
  • Filer bör vara rensade från överflödig information. Detta kan vara variabler som inte beskrivs, konstruerade variabler som kan återskapas, variabler av mer administrativ karaktär eller färgad text och formler.
  • Om filformatet stöder metadata på variabelnivå, inkludera gärna relevanta metadata i datafilerna (t.ex. variabelnamn och koder för variabelvärden för tabulära data, information om kodningsstandard eller vad olika formatering betyder i textdata). Det viktigaste är dock att informationen finns sparad tillsammans med datafilerna, det exakta formatet är sekundärt.

Metadata 

Metadata är strukturerad information som används för att beskriva och kategorisera digital information. Metadata underlättar för andra att söka, hitta och förstå forskningsmaterialet.

  • Du skapar strukturerade metadata genom att beskriva datasetet i DORIS.
  • Obligatoriska fält i DORIS anger den miniminivå av metadata som SND kräver. Men ju mer information du anger, desto mer underlättar du för andra att hitta datasetet och förstå filernas innehåll.
  • Metadata ska vara så detaljerade som möjligt. Om projektets data till exempel handlar om fältarbete i Colombia och Peru anger du Colombia och Peru som geografiskt område i stället för Sydamerika. 
  • Referera och länka till artiklar eller andra publikationer som beskriver eller är baserade på datasetet. Du kan också länka till andra relaterade resurser.
  • Om data delas med anledning av en specifik artikel eller publikation bör datasetets titel vara ”Data för/for: [titel på publikation]”, om det inte passar bättre med en beskrivande titel på datasetet.

Dokumentation 

Relevant dokumentation måste bifogas till databeskrivningen för att andra forskare ska kunna förstå och återanvända data. Tänk noggrant över vilken typ av dokumentation som behövs för att kunna förstå data.

Det kan till exempel handla om: 

  • Variabellistor med förklaringar över innehållet i varje variabel 
  • Frågeformulär eller enkäter 
  • Intervjuformulär inklusive intervjuguide  
  • Kodlistor och kodböcker 
  • Förteckning över datamaterialet 
  • Länkar till artiklar eller andra publikationer 
  • Metodbeskrivningar eller tekniska rapporter 
  • Information om hur data har bearbetats  
  • Syntaxer för härledda variabler 
  • Slutrapporter 
  • Instruktioner för egenutvecklad programvara som behövs för att hantera data 
  • Fältdagböcker eller loggböcker. 

Hur dokumentation är utformad och vad den kallas varierar mellan forskningsområden och inom discipliner. SND ställer inga krav på hur dokumentationen ska se ut, utan det är innehållet i dokumenten som är det viktigaste. Om det inte finns någon färdig dokumentation kan relevant information sammanfattas i en README-fil. Ett exempel på hur en README-fil kan se ut finns i den mall som Cornell University har tagit fram.

Att enbart hänvisa till en publicerad artikel eller rapport som hör ihop med forskningsdata räknas sällan som tillräcklig dokumentation. Även om det finns en artikel med öppen tillgång som beskriver hur data samlades in eller skapades bör du inkludera en README-fil som förklarar hur innehållet i datafilerna relaterar till det som beskrivs i artikeln. En typisk README-fil för en datauppsättning i tabellform kommer till exempel att lista och beskriva alla kolumner i datafilen, ange variablernas enheter eller värden på kategoriska variabler, förklara kvalitetskoder för saknade värden och så vidare.

Tänk också på att den som vill återanvända forskningsdata kan komma från en annan forskningsdisciplin och därför är det bra om dokumentationen är begriplig för andra målgrupper.

Om du är osäker på vilken dokumentation som behövs är du välkommen att kontakta SND eller din organisations lokala forskningsdatastöd

Relevanta länkar:

Krav och rekommendationer för data och metadata i SND:s forskningsdatakatalog

SND:s policy för granskning av data och metadata