Lathund för att förbereda data för tillgängliggörande

När du delar forskningsdata via ett så kallat repositorium gör du det möjligt för andra att granska forskningens resultat och återanvända data i vidare studier. För detta krävs att data organiseras och presenteras på ett självförklarande sätt.

Certifierade repositorier (som SND) tillämpar en granskningsprocess som innebär att data och dokumentation måste uppfylla vissa minimikrav innan de publiceras och kan delas vidare. Granskare kommer att arbeta med dig för att säkerställa att den publicerade datamängden är återanvändbar. Det är viktigt att du är kontaktbar och aktivt delaktig under granskningsprocessen.

Följande punkter är bra att gå igenom:

Personuppgifter

  • Data som innehåller personuppgifter får endast beskrivas och delas via SND:s forskningsdatakatalog om din organisation och SND har upprättat ett samarbete för detta. Här kan du läsa mer om vilka organisationer som erbjuder sina forskare denna möjlighet och hur det fungerar i praktiken.
  • Data som innehåller personuppgifter får generellt inte delas öppet i SND:s forskningsdatakatalog, utan behöver ha begränsad åtkomst.
  • Om du tillhör en organisation som inte erbjuder möjlighet att dela data med personuppgifter via SND behöver du säkerställa att data är anonyma. Mer om anonymisering kan du läsa här.

Datafiler 

  • Datafiler bör ha ett filformat som är vanligt förekommande, öppet och icke-proprietärt (se SND:s webbsida Att välja filformat och SND:s guider till god hantering av forskningsdata).
  • Fil- och mappnamn ska vara konsekventa och begripliga. Filnamn med löpnummer eller kod behöver förklaras i exempelvis en README-fil.
  • Dataset som består av flera filer behöver struktureras på ett sätt som är tydligt för andra användare. Struktur och relation mellan filer kan vid behov förklaras i en README-fil. 
  • När ett datamaterial består av många filer är det ofta bäst att paketera dem som ett eller flera .zip-arkiv för enklare nedladdning, vilket också kan hjälpa till att minska filstorlekarna. Du kan även överväga att dela upp datamaterialet och publicera data som flera separata dataset. Dataset kan markeras som "relaterade" i SND:s katalog.
  • Filerna bör vara rensade från ovidkommande information. Detta kan vara variabler som inte beskrivs, konstruerade variabler som kan återskapas, variabler av mer administrativ karaktär eller färgad text och formler.
  • Om filformatet stöder metadata på variabelnivå, inkludera gärna relevant metadata i datafilerna (det kan vara variabelnamn och koder för variabelvärden för tabulära data, information om kodningsstandard, vad olika formateringar representerar osv. för textdata). Det viktigaste är dock att informationen finns sparad tillsammans med datafilerna, det exakta formatet är sekundärt.

Metadata 

Metadata är strukturerad information som används för att beskriva och kategorisera digital information. Metadata underlättar för andra att söka, hitta och förstå forskningsmaterialet.

  • Du skapar metadata genom att beskriva datasetet i DORIS, SND:s dokumentationssystem.
  • Obligatoriska fält anger den miniminivå av metadata som SND kräver. Men ju mer information som anges, desto mer underlättar du för andra att hitta datasetet och förstå filernas innehåll.
  • Metadata ska vara så detaljerade som möjligt. Till exempel, om projektets data handlar om fältarbete i Colombia och Peru, ange Colombia och Peru i fältet "Geografiskt område", i stället för Sydamerika. 
  • Referera till artiklar eller andra publikationer som beskriver eller är baserade på datasetet. Du kan också länka till andra relaterade resurser.

Dokumentation 

Relevant dokumentation måste bifogas till databeskrivningen för att andra forskare ska kunna förstå och återanvända data. Tänk noggrant över vilken typ av dokumentation som behövs för att kunna förstå data.

Det kan till exempel handla om: 

  • Variabellistor med förklaringar över innehållet i varje variabel 
  • Frågeformulär eller enkäter 
  • Intervjuformulär inklusive intervjuguide  
  • Kodlistor och kodböcker 
  • Förteckning över datamaterialet 
  • Länkar till artiklar eller andra publikationer 
  • Metodbeskrivningar eller tekniska rapporter 
  • Information om hur data har bearbetats  
  • Syntaxer för härledda variabler 
  • Slutrapporter 
  • Instruktioner för egenutvecklad programvara som behövs för att hantera data 
  • Fältdagböcker eller loggböcker. 

SND har inga specifika krav på hur dokumentationen ska se ut. Hur dokumentation är utformad och hur den benämns varierar mellan forskningsområden och inom discipliner. För SND är det innehållet i dokumenten som är det viktigaste. Om det inte finns någon färdig dokumentation kan relevant information sammanfattas i en README-fil (se exempelvis förslag på utformning, framtaget av Cornell University).

Att enbart hänvisa till en publicerad artikel eller rapport som hör samman med forskningsdata räknas sällan som tillräcklig dokumentation. Även om det finns en artikel med öppen tillgång som beskriver hur data samlades in eller skapades bör du inkludera en README-fil som förklarar hur innehållet i datafilerna relaterar till det som beskrivs i artikeln. En typisk README-fil för en datauppsättning i tabellform kommer till exempel att lista alla kolumner i datafilen, beskriva hur de länkar till metodbeskrivningen, ange variablernas enheter eller värden på kategoriska variabler, förklara kvalitetskoder för saknade värden osv.

Tänk också på att den som vill återanvända forskningsdata kan komma från en annan forskningsdisciplin och därför är det bra om dokumentationen är begriplig för andra målgrupper. Det underlättar t.ex. om du definierar förkortningar och metodbeskrivningar även om de är vanligt förekommande inom din egen disciplin.

Är du osäker på vilken dokumentation som behövs är du välkommen att kontakta SND eller din organisations lokala datastödsenhet

Relevanta länkar:

Krav och rekommendationer för data och metadata i SND:s forskningsdatakatalog

SND:s policy för granskning av data och metadata