Dela data på ett FAIR sätt

FAIR-principerna spelar en mycket viktig roll i arbetet för öppen vetenskap. De beskriver några av de mest centrala riktlinjerna för god datahantering och öppen tillgång till forskningsdata. FAIR är också ett bra sätt att sammanfatta något som SND har arbetat med under lång tid.

 

FAIR med symboler för varje bokstav
SangyaPundir / CC BY-SA (https://creativecommons.org/licenses/by-sa/4.0)

 

SND:s system är utformade för att göra det så enkelt som möjligt för våra användare att hitta, återanvända och dela forskningsdata. Med andra ord kan man säga att vi arbetar för att data ska vara FAIR: Findable (hittbara), Accessible (tillgängliga), Interoperable (interoperabla) och Reusable (återanvändbara). Till stor del handlar detta om att göra data och information om data maskinläsbara, något som blir allt viktigare i takt med att forskningen blir mer datadriven och mängden data ökar. Att arbeta med FAIR data innebär dock även att följa riktlinjer för mänsklig förståelse av forskningsdata. 

FAIR-principerna

FAIR-principerna publicerades första gången 2016. Sedan dess har bland andra Europeiska unionen samt ett flertal forskningsfinansiärer, universitet och forskningsinfrastrukturer ställt sig bakom dem. I Sverige är det Vetenskapsrådet och Kungliga biblioteket som har regeringens uppdrag att ta fram kriterier för att kunna bedöma i vilken utsträckning vetenskapliga forskningsdata och publikationer uppfyller FAIR-principerna.

Sammanlagt innehåller FAIR 15 principer som kan tillämpas på forskning inom alla vetenskapliga discipliner. Nedan sammanfattas punkterna i FAIR tillsammans med information om hur SND arbetar för att uppfylla dessa.

Findable (Hittbara)

För att forskningsdata ska vara hittbara krävs att

  • de förses med en unik och beständig identifierare
  • de är beskrivna med utförliga och maskinläsbara metadata
  • metadata innehåller identifieraren för de data som beskrivs
  • (meta)data är sökbara och enkla att hitta på webben
     

Hur arbetar SND för ökad hittbarhet?

SND tilldelar beständiga identifierare av typen DOI (Digital Object Identifiers) för varje version av ett dataset som görs tillgänglig i vår forskningsdatakatalog. Tack vare dessa identifierare blir data lätta att hitta för både människor och maskiner. Om det finns flera versioner av data innehåller katalogposten information om vad som skiljer dessa åt. Även metadata, alltså informationen om data, får en DOI. Denna är dock inte synlig i katalogen. Varje DOI leder till en landningssida vilket också är ett krav från organisationen DataCite. Det är genom SND:s medlemskap i DataCite som vi har möjligheten att förse data med DOI.

Forskningsdata som delas via SND:s katalog blir samtidigt sökbara internationellt. Alla katalogposter nås via Google, och metadata från ämnesspecifika studier visas i nuläget upp i portaler kopplade till infrastrukturerna ARIADNE, CESSDA och CLARIN.

För att uppnå en hög sökbarhet har SND vissa minimikrav på metadata för forskningsdata som delas via katalogen. Det betyder att det är obligatoriskt att ange viss information om data, medan andra uppgifter är rekommenderade att lämna. SND har dessutom tagit fram ämnesprofiler som är speciellt anpassade för att beskriva och dela data från olika forskningsdiscipliner.

Accessible (Tillgängliga)

För att forskningsdata ska vara tillgängliga krävs att

  • (meta)data kan nås via sin identifierare och läsas av och ges tillgång till via ett standardiserat kommunikationsprotokoll (som http eller ftp)
  • kommunikationsprotokollet är öppet, kostnadsfritt och universellt implementerbart
  • det är möjligt att skapa olika användarroller och mekanismer för verifiering av användare och kontroll av åtkomst till data. Tillgången till forskningsdata bör vara så öppen som möjligt och så begränsad som nödvändigt om data är känsliga
  • metadata är tillgängliga även om data inte längre finns tillgängliga
     

Hur arbetar SND för ökad tillgänglighet?

I varje enskild katalogpost i SND:s forskningsdatakatalog finns nödvändig information om hur tillgängliga data är. Där står var data finns, om de går att ladda ner direkt eller om du behöver skicka in en förfrågan för att få ta del av dem. Det finns också information om var data finns tillgängliga om de inte kan nås direkt via SND:s katalog.

SND verkar för att data ska gå att ladda ner direkt i så stor utsträckning som möjligt, så länge det inte finns några restriktioner. Om data till exempel innehåller personuppgifter eller är belagda med sekretess så kan de inte laddas ner direkt utan en prövning måste göras innan de kan lämnas ut.

Om ett dataset av någon anledning har avpublicerats och inte längre är tillgängligt skapas en ”gravstenssida”. På denna sida finns metadata kvar tillsammans med information om varför data inte längre går att nå.

Interoperable (Interoperabla)

För att forskningsdata ska vara interoperabla krävs att

  • (meta)data redovisas med semantiska beskrivningar som är standardiserade, dokumenterade och tillgängliga
  • vokabulärer, terminologier och ontologier som används är vedertagna, kontrollerade och beskrivna på ett tillgängligt sätt
  • relationer mellan olika data och metadata beskrivs så att det är möjligt att förstå hur data hör samman
     

Hur arbetar SND för ökad interoperabilitet?

För att metadata som anges i katalogposterna ska bli maskinläsbara krävs att informationen är standardiserad. SND:s system använder väletablerade kontrollerade vokabulärer, det vill säga standardiserade listor med ord och fraser som kan användas för indexering inom ett vetenskapsområde. Vi använder också etablerade standarder för metadata, specifika för olika ämnesområden. Från varje katalogpost finns möjlighet att exportera metadata i olika maskinläsbara format.

SND strävar efter att forskningsdata ska finnas i så framtidssäkra filformat som möjligt. Vi levererar därför filer i väldokumenterade, icke-proprietära (alltså med öppen källkod) och vanligt förekommande format som kan läsas av flera olika datorprogram. I de fall där det inte är möjligt att uppfylla alla dessa krav försöker vi se till att data finns i format som är vanliga och väletablerade inom det specifika forskningsområdet, så att innehållet i filerna ändå ska gå att återanvända.

Vårt utvecklingsarbete med en fråge- och variabelbank är ett sätt att ytterligare öka maskinläsbarheten för data. Detta görs genom att lägga upp information som finns i frågeformulär och enkäter på ett strukturerat och sökbart sätt.

Reusable (Återanvändbara)

För att forskningsdata ska vara återanvändbara krävs att

  • (meta)data innehåller olika typer av kontextuella uppgifter, som till exempel vetenskapligt syfte, i vilket sammanhang data samlades in samt vilken utrustning och programvara som användes
  • det finns tydliga villkor för hur data får användas
  • (meta)datas ursprung beskrivs i detalj
  • (meta)data är strukturerade och dokumenterade enligt tillämpliga standarder och vedertagna format
     

Hur arbetar SND för ökad återanvändbarhet?

I vårt system DORIS skapar vi förutsättningar för forskare att beskriva data så utförligt och begripligt som möjligt innan de delas via forskningsdatakatalogen. Där finns också funktioner för att koppla relaterade dokument till databeskrivningen, som till exempel kodbok, enkät eller teknisk rapport. Denna information blir då ett komplement till den maskinläsbara informationen och är ofta nödvändig för att ett material ska gå att återanvända. 

I katalogposterna finns information om hur data som hämtas från SND-katalogen bör användas. En del av posterna anger också en specifik licens för återanvändning av data. Att ange en licens är valfritt för den som beskriver data och SND hänvisar till DiGG:s rekommendation om öppna licenser och immaterialrätt som stöd för att välja lämplig licens.

 

våra sidor om datahantering finns information om vad du som forskare behöver tänka på för att de data du delar ska uppfylla FAIR.

Vill du fördjupa dig mer i FAIR-principerna kan du följa någon av nedanstående länkar: