Granska dokumentation
Förutom data och metadata krävs också tillgång till den dokumentation som är relevant för att en sekundäranvändare ska kunna förstå och återanvända det aktuella datasetet. Det är upp till dig som granskare att bedöma om inkomna data har den dokumentation som behövs. Det är svårt att säga exakt vad som är tillräcklig information eftersom det varierar beroende på bland annat forskningsområde, typ av data och det specifika forskningsprojektet. Det krävs ofta en bedömning i varje enskilt fall.
I många fall används dokumentation och metadata som synonyma begrepp. Gränserna mellan dem kan vara flytande, men det finns skillnader. Dokumentationen riktas i första hand till människor och kan bestå av löpande text, medan metadata är ordnade för att också kunna läsas av datorer. Eftersom dokumentationen inte behöver vara maskinläsbar har den inte samma krav på struktur som metadata.
Några exempel på sådant som kan behöva dokumenteras är:
- frågeställningar och syftet med studien
- en beskrivning av vald insamlingsmetod
- innehåll i datafiler, till exempel variabellista eller kodbok
- undersökningsrapporter och tekniska rapporter
- frågeformulär
- en överblick över analysarbetet och en beskrivning av de data som används för analys
- beskrivningar av inkluderade fotografier, till exempel datum, plats och kamerainställningar (läs mer om hantering av audiovisuellt material på sidorna om filformat för Bild och Digital video på sidorna om filformat på Researchdata.se.
- tillhörande artiklar och publikationer
- tillhörande kod/skript.
Tillhörande dokumentation är mycket viktig för att kunna återanvända data för ny forskning, för att kunna validera forskning och för att forskningen ska kunna förstås. Relevant information kan till exempel sammanfattas i en README-fil (mall framtagen av Cornell University).
Exempel på dokumentation
Nedan kan du ta del av några exempel på vilken dokumentation som kan behövas för olika typer av data.
Tabelldata
Här är det viktigt att varje variabel/kolumn är tydligt beskriven. Ofta används förkortningar som kolumnrubrik (header) för varje kolumn i en tabelldatabas, och det är viktigt att dessa förkortningar förklaras. Det kan räcka med ett fullständigt alternativ till en förkortning som används som kolumnrubrik, till exempel ”CORINE 2012 Land cover type code” i stället för ”COR_TYPE”. En annan sak du ska kontrollera är att varje variabel/kolumn är ifylld på samma sätt, till exempel att alla datum i en kolumn som heter ”date of sampling” har samma format. Det är också bra att kontrollera att det inte finns några tomma fält; om värde saknas bör det till exempel stå "missing".
Kontrollera också att de värden som finns är förklarade eller beskrivna. Om till exempel en enkätundersökning är inmatad som en tabell med numeriska värden behöver den som återanvänder materialet veta att i kolumnen Kön betyder siffran 1 “man” och siffran 2 “kvinna”.
Det är också viktigt att i dokumentation och variabelbeskrivningar länka eller referera till standarder och/eller formella definitioner, om det finns sådana. Det kan gälla allt från enkätdesigner och skattningsverktyg till ISO-standarder, algoritmer, kodningsmallar och så vidare. Länk eller referens anges förslagsvis med hjälp av PID:ar.
Bilder
En stor samling bilder kan behöva dokumenteras på olika sätt och mycket dokumentation kan också räknas som metadata. Det är viktigt att bilderna har tydliga filnamn. Filnamnen kan till exempel vara en beskrivning av bilden eller en kod som kan tolkas med hjälp av en kodlista. Om bilderna är uppdelade i olika mappar är det viktigt att mappstrukturen är tydlig och att varje mapp har namngetts på ett sätt som gör det enkelt att navigera och förstå innehållet i olika mappar.
Geospatiala data
Här behövs en förklaring av innehållet i de data som lämnas in. Dokumentationen kan vara en del av datamaterialet eller separata textfiler. När det gäller spatiala data kan det vara svårt att kontrollera att all information som behövs för att kunna förstå datamaterialet finns med och det är därför viktigt att kommunicera med forskaren för att försäkra sig om att datamaterialet går att använda med den befintliga dokumentationen. Några saker man kan fråga om är:
- Finns det information om projektion och koordinatsystem?
- Finns det information om hur man utläser kolumn- eller attributdata?
Dataexempel: Mätningar av växthusgaser i atmosfären
Data består av: Tabelldata (en tabellfil med flera kolumner/fält)
En sekundäranvändare behöver kunna förstå vad varje fält/kolumn i datafilen beskriver och vilka enheter som används. Ett bra sätt att dokumentera den här typen av data kan vara att ladda upp en variabellista som beskriver kolumnerna i tabelldatafilen, bifoga en artikel som beskriver kolumnerna eller att dokumentera dem direkt i datafilen.
Dataexempel: Data från en arkeologisk undersökning
Data består av: Utgrävningsdatabas (en databas med flera tabeller som innehåller information om olika typer av fynd, arkeologiska lager, bildbeskrivningar med mera) och bilder (inskannade kartor, fotografier från utgrävningarna, fotografier på fynd med mera).
För att kunna förstå innehållet i databasen behövs information om hur databasen är uppbyggd och vad den innehåller (till exempel en variabellista, kodbok eller motsvarande), samt hur bilderna är kopplade till utgrävningsdatabasen.
Utgrävningar har ofta ett antal, ibland opublicerade, rapporter som slutprodukt och det är viktigt att sådana rapporter, eller ett relevant urval av dem, följer med som dokumentation.
Annan dokumentation kan vara fältdagböcker som beskriver det konkreta arbetet i samband med utgrävningen.
Om data hör ihop med en artikel
I de fall ett dataset delas med avseende på en specifik artikel eller annan publikation, kan kravet på dokumentation vara något lägre. Då gäller det att den aktuella artikeln/publikationen:
- är öppen och fritt tillgänglig.
- är länkad till i databeskrivningen med en beständig identifierare (PID).
- innehåller all information som krävs för att data ska gå att förstå och återanvända.
Om en artikel ska ersätta delar av dokumentationen för ett dataset är det viktigt att det i artikeln finns information om bland annat metod och insamling. Tänk på att variabel- och kodlistor som förklarar själva datafilerna oftast inte finns med i den vetenskapliga artikeln, eller i dess supplementary materials. Listorna behöver då i stället delas tillsammans med datafilerna.
Om artikeln finns hos ett förlag som kräver prenumeration måste de delar från artikeln som beskriver data sparas ner tillsammans med datafilerna.
Tänk också på att uppmana forskaren att länka från artikeln till data, till exempel i Data availability statement.
Ibland behöver data finnas tillgängliga innan en artikel publiceras. I undantagsfall kan du därför behöva publicera databeskrivningen utan länk till artikeln. Rekommendationen är då att ange artikelns titel i DORIS följt av ”under review” och uppdatera databeskrivningen med länk till artikeln så snart den finns. Läs mer om detta under rubriken Sluten referentgranskning på sidan Hantera databeskrivningar i DORIS.