Granska metadata

Denna sida handlar om granskning av databeskrivningar som skapats med SND:s dokumentationssystem DORIS. ”Metadata” avser här information som anges i fälten i DORIS webbformulär, inte information i dokumentationsfiler eller datafiler.

  • Under rubriken Allmänt om granskning av metadata hittar du tips om granskning av metadatabeskrivningar som helhet, till exempel vilka fält som ska vara ifyllda och hur mycket detaljer metadata bör innehålla. 
  • Under rubriken Granskning i formuläret listas ett urval av de avsnitt som finns i formuläret, med en diskussion kring valda fält för granskning av innehållet.

Här följer en kortfattad översikt över vad du behöver kontrollera för att säkerställa att metadata uppfyller minimikraven för SND:s katalog. Kraven beskrivs i dokumentet Krav och rekommendationer för data och metadata i SND:s forskningsdatakatalog

Allmänt om granskning av metadata

När du granskar metadata för en databeskrivning är utgångsläget att forskaren som skapat databeskrivningen är den som bäst kan beskriva data. Granskningen går därför till stor del ut på att se till att obligatoriska fält och relevanta övriga eller valfria fält är ifyllda och att den information som finns verkar rimlig. Granskarens uppgift är inte att dubbelkolla de ifyllda uppgifterna, utan att kontrollera att informationen som finns för varje fält är rimlig utifrån den dokumentation som är medskickad. 

En del mindre ändringar i metadata kan vara enklast att göra själv som granskare, som till exempel att rätta stavfel, lägga till fler nyckelord och fylla i ORCID- och ROR-id. Andra fält är det bättre att forskaren själv fyller i, däribland insamlingsmetod. Om du som granskare gör några ändringar är det bra att informera forskaren om vad som gjorts och be forskaren godkänna förhandsvisningen av katalogposten före publicering.

Vilka metadatafält måste vara ifyllda?

I DORIS finns en mininivå av metadataelement som krävs för att en databeskrivning ska publiceras. Syftet är att säkerställa att forskningsdata som publiceras har tillräcklig mängd metadata för att forskningsdata ska gå att hitta, vara tillgängliga och åtkomliga, samt att vidare spridning av metadata ska vara möjlig. Att följa kraven på miniminivå för metadata är ett viktigt steg i arbetet med att uppfylla FAIR-principerna.

Fält i DORIS som har en orangeröd symbol är obligatoriska och måste vara ifyllda innan en databeskrivning kan publiceras. Vilka fält som är obligatoriska varierar beroende på vilken ämnesprofil som är vald. Vissa fält är obligatoriska för alla profiler. Ej obligatoriska metadatafält bör vara ifyllda i så stor utsträckning som möjligt.

Obligatoriska metadatafält behöver vara angivna på både svenska och engelska. I fält där man väljer en term från en kontrollerad lista sker en automatisk översättning, men i fritextfält måste en översättning läggas till manuellt i formuläret. Översättningarna behöver inte vara exakta, men likvärdig information bör finnas på båda språken. Vid längre texter kan en hänvisning till katalogposten för det andra språket vara aktuell, men en introduktion bör finnas på båda språken.

Forskare kan skicka in en databeskrivning även om det saknas information i obligatoriska fält. I sådana fall behöver en granskare hjälpa till att ange den saknade informationen. Det är möjligt att publicera en databeskrivning också om det saknas obligatorisk information, men detta är inte att rekommendera. Sådan publicering kan användas i speciella fall, till exempel när kravet om PID kan frångås (se exempel under rubriken Vad gäller för databeskrivningar som enbart delar metadata? nedan). En notering om varför obligatorisk information saknas bör då anges som anteckning i DORIS.

Hur mycket information krävs och på vilken nivå?

Bra metadata kräver en blandning av generell information och information på detaljnivå. Fältet Beskrivning är centralt. Beskrivningen ska förklara datas sammanhang och vad det är för typ av data på ett sätt som är begripligt även för forskare från andra ämnesområden. Men beskrivningen ska också innehålla tillräckligt med detaljer för att potentiella återanvändare ska kunna göra en snabb bedömning av om datasetet är intressant och relevant att undersöka vidare. Andra metadatafält, exempelvis Insamling och metod, riktas mot en snävare målgrupp.

Vissa metadatafält innehåller länkar till externa källor, som publikationer, hemsidor eller relaterade resurser. Dessa länkar ska så långt som möjligt vara beständiga identifierare, en DOI, handle eller URN. Om det inte finns några beständiga identifierare kan en vanlig URL ofta användas, men eftersom en URL inte har samma garanti för långsiktighet kan sådana behöva kontrolleras då och då.

Kontrollera att metadata är rimliga och användbara, att inga fält har meningslösa värden och att det inte finns några stavfel.

Vad gäller för databeskrivningar som enbart delar metadata?

DORIS kan användas för att dela metadata för dataset som redan har publicerats någon annanstans. Det görs genom att kryssa i rutan Jag vill endast dela metadata. Sådana databeskrivningar kan vara svårare att granska eftersom du inte har tillgång till datamaterialet (det kan finnas öppet tillgängligt hos den andra portalen, men det kan också krävas en förfrågan för att ta del av data).

Observera att detta fält inte ska användas om data som inte kan delas öppet; detta anges i stället i fältet Nivå av tillgänglighet.

Databeskrivningar som enbart innehåller metadata tilldelas ingen DOI i DORIS eftersom databeskrivningen inte innehåller något dataset. Det är i stället obligatoriskt att ange en redan existerande PID för datasetet i DORIS, i enlighet med SND:s policy för beständiga identifierare (PID) på forskningsdata. Undantag från kravet på PID kan göras i de fall databeskrivningen beskriver och länkar till resurssamlingar (databaser, kataloger eller portaler) som i sig innehåller flera datamängder.

Granskning i formuläret

Här nedan listas de avsnitt som finns i formuläret i DORIS. I varje avsnitt finns flera olika fält och vissa av fälten har en närmare beskrivning av sådant som kan vara relevant att ta i beaktande vid granskning. Kom ihåg att antalet fält som syns i formuläret varierar beroende på vald ämnesprofil.

Ämnesprofil 

Om en lämplig ämnesprofil valts visar sig oftast först efter vidare granskning. Det går att byta profil i formuläret även efter att beskrivningen är inskickad, men informationen i ämnesspecifika fält försvinner i samband med profilbytet. Det är inte nödvändigt att använda ”rätt” ämnesprofil, men det bidrar generellt till att data beskrivs bättre då metadata är anpassade efter de olika ämnesområdena. 

Filer och åtkomst 

Här anges de data- och dokumentationsfiler som ska delas för datasetet. Om SND CARE används laddas filerna upp, om lokal lagring används gäller lokala rutiner för hur datafilerna anges. För data med begränsad åtkomst är det särskilt viktigt att tillhörande dokumentationsfiler anges på rätt ställe, då de ska vara öppet tillgängliga i katalogposten, även om inte själva datafilerna kan delas öppet.

Licens och upphovsrätt

Här är det viktigt att kontrollera att informationen inte krockar med vald tillgänglighetsnivå, lärosätets eventuella lokala policyer med mera. För dataset med begränsad åtkomst bör inte CC-licenser anges.  

Data innehåller personuppgifter / Data innehåller annan skyddsvärd information

Det är viktigt att det är korrekt information som anges här och det krävs ofta både vidare granskning och en dialog med forskaren för att säkerställa detta. Data som innehåller personuppgifter kan endast delas via DORIS om forskarens organisation och SND har upprättat ett samarbete för detta. Det kan antingen vara att data lagras lokalt, eller att organisationen har tecknat ett personuppgiftsbiträdesavtal med SND.  

Ange också vilken sorts personuppgifter data innehåller. Det här är viktigt både för en eventuell återanvändare och för den interna processen kring en prövning om utlämnande.

Om det inte varit möjligt att fullt ut kontrollera om data innehåller personuppgifter, exempelvis på grund av materialets omfattning, rekommenderar vi att du anger Data innehåller personuppgifter, och i fältet Typ av personuppgifter beskriver eventuell risk i relation till personuppgifterna.

Nivå av tillgänglighet

Det är viktigt att kontrollera att vald nivå av tillgänglighet stämmer överens med innehållet i data, inte minst avseende personuppgifter och annan skyddsvärd information. Om data innehåller uppgifter som inte får delas öppet, till exempel känsliga personuppgifter, ska tillgänglighetsnivån vara Åtkomst till data är begränsad, vilket innebär att en förfrågan måste göras innan data kan lämnas ut. Läs mer på sidan om GDPR och personuppgifter. 

Tänk på att även om data inte kan vara direkt nedladdningsbara bör dokumentationsfilerna vara det. Det är viktigt för någon som ska göra en förfrågan om ett material att få så mycket information som möjligt.

Citering och beskrivning 

I detta avsnitt anges information som ger besökare en viktig överblick över datasetet; titel, skapare och en beskrivning av data. Mycket av den information som anges i detta avsnitt ligger också till grund för dataciteringen. Överst i detta avsnitt finns ett citeringsförslag för datasetet som kommer att vara synligt i katalogposten. Förslaget gör det enklare för återanvändare att referera till data.

Titel

Titeln ska helst anges både på svenska och engelska men undantas från det generella kravet om tvåspråkighet då det kan vara svårt att ta fram en passande titel på svenska enbart för datapubliceringen.  

Fältet Alternativ titel kan med fördel användas för att öka möjligheten att hitta data, exempelvis för data på ett tredjespråk.

Tänk på att databeskrivningen inte bör ha samma titel som en eventuell artikel som redovisar forskningsresultat. I sådana fall kan man i stället använda titeln "Data för [artikelns titel]"/"Data for: [artikelns titel]".

Skapare/Primärforskare

Detta kan vara en eller flera personer eller organisationer. Det är ganska sällan som både personer och organisationer är skapare/primärforskare för ett dataset. Att ange organisation i stället för person är aktuellt i de fall det rör sig om ett större forskningsprojekt eller samarbete mellan flera forskargrupper. Till exempel anger SOM-institutet organisation som skapare för sina undersökningar. 

De personer/organisationer som anges här är de som listas i dataciteringen. Personer som inte ska vara med i citeringen för data men som ändå haft en roll ska i stället anges i fältet Medverkande (anges i nästa avsnitt, Administrativ information). Du kan med med fördel ange ORCID för personer och ROR ID för organisationer, för ökad interoperabilitet och hittbarhet.

Om en forskare tillhör en organisation vars namn saknar en officiell svensk översättning ska det engelska namnet anges även i fältet för svenska, i stället för att lämna fältet tomt. 

Beskrivning

Detta är ett centralt fält för en databeskrivning. Det är främst genom fältet Beskrivning som en användare på ett enkelt sätt kan få en överblick över vad det är för typ av data och i vilket sammanhang data har samlats in eller förekommer.

En bra beskrivning kräver en balans av generell information, som gör att vem som helst kan förstå vad det är för data och vilket forskningsområde datasetet tillhör, och mer detaljerad information, så att forskare med djupare kunskaper om området kan avgöra om datasetet är relevant för dem att använda för vidare forskning.

Större och omfattande dataset från avslutade projekt kan vara mer relevanta att beskriva för en bredare målgrupp än ett mindre och mer avgränsat dataset för en specifik artikel. För väldigt specialiserat material kan det vara rimligt att acceptera en beskrivning som är skriven för en snävare målgrupp.

Fältet Beskrivning är obligatoriskt både på svenska och engelska. Däremot behöver inte texten vara identisk på båda språken och det går bra att ha en kortare text på svenska med en hänvisning till den engelska katalogsidan för ytterligare information.

Om du själv tar fram en enkel beskrivande text, se då till att forskaren får godkänna och hänvisa i texten till den engelska sidan för mer information. Det kan vara svårt att översätta och förstå kärnan inom ett ovant forskningsområde, så be alltid forskaren kontrollera vad du har skrivit.

Administrativ information 

Det är viktigt att angiven forskningshuvudman blir rätt eftersom det avgör vilken instans som ska granska datasetet, vilken lagringsyta DORIS ska kopplas mot och vilken organisation som ansvarar för att pröva ett eventuellt utlämnande av data.  

Observera att vald forskningshuvudman inte går att ändra i efterhand. Om fel huvudman är vald måste du be forskaren skapa en ny databeskrivning. För att förenkla detta kan man med fördel kopiera den tidigare databeskrivningen genom funktionen Extra Åtgärder/Kopiera databeskrivning. Du kan också kontakta SND-kontoret för att undersöka möjliga lösningar. 

Forskningshuvudman

Fältet Forskningshuvudman avser den organisation i vars verksamhet forskningen har utförts och som har det yttersta ansvaret för forskningen. Finns flera forskningshuvudmän ska du här ange den organisation som ansvarar för att data görs tillgängliga. Du kan till exempel fråga forskaren vilken organisation som har ansvaret att arkivera materialet, eller vilken organisation som varit ansvarig för etikansökan. 

Övriga forskningshuvudmän

I detta fält kan ytterligare forskningshuvudmän anges, till exempel vid samarbeten mellan organisationer.

Vid forskningssamarbeten, till exempel mellan lärosäte och region, kan det vara svårt att veta vilken organisation som ska stå som forskningshuvudman. Detta bör forskaren i regel ha koll på, men du kan vara uppmärksam på fall där skapare och primärforskare tillhör olika organisationer, eller om det framgår av metadata att data är framtagna i samarbete mellan olika organisationer. Ställ alltid frågan direkt till forskaren om du misstänker att det blivit något fel med dessa uppgifter.

Insamling och metod 

I fältet Tidsperiod(er) som undersökts kan forskaren ange både ett specifikt datum (år, månad) eller en period ("bronsålder”). Det är viktigt att uppmärksamma att fältet Tidsperiod(er) som undersökts inte per automatik är detsamma som tidsperiod då data samlades in.  

Om överlämnaren har angett ett brett tidsspann (till – från), men bara undersökt enstaka delar/tidpunkter av intervallet kan det vara bättre att ange tidsperioderna en och en, i stället för ett intervall. Det ger bättre sökträffar i katalogen. Om forskaren till exempel har valt tidsintervallet AA – ÖÖ, men data enbart omfattar perioderna AA, EE och ÖÖ är det bättre att ange AA, EE, och ÖÖ som individuella tidsperioder.

Ämnesområden och nyckelord

Det är obligatoriskt att ange minst ett  Ämnesområde  från SCB:s Standard för svensk indelning av forskningsämnen. Beroende på forskningsområde och typ av data kan även klassificeringar hos CESSDA eller INSPIRE anges. CESSDA gäller främst samhällsvetenskaplig forskning och INSPIRE är att föredra om det handlar om spatiala data.

Nyckelord

Nyckelord ökar sökbarheten för data. Det är obligatoriskt att en databeskrivning innehåller minst ett nyckelord, men ju fler nyckelord, desto bättre sökbarhet. 

I möjligaste mån bör nyckelord väljas från någon av de kontrollerade listorna. Saknas någon term går det att lägga in egna nyckelord som fritext. Det avancerade nyckelordssöket kan användas för att söka inom specifika ämnesområden och vokabulärer. Det går även att söka efter nyckelord i den engelska versionen av nyckelordlistorna, då vissa termer saknar svensk översättning. 

Vid granskning kan man med fördel hjälpa forskaren att komplettera med ytterligare nyckelord.

Geografisk täckning 

I avsnittet Geografisk täckning finns flera olika metadatafält där du kan ange vilket geografiskt område som data täcker. Det är också möjligt att markera området/platsen på en karta, vilket gör att databeskrivningen blir sökbar i kartsöket, och området/platsen illustreras också med en karta i katalogposten. Du kan också lägga till en fritextbeskrivning om den geografiska täckningen, eller ladda upp GIS-data, vilket kan förebygga dubbelarbete.

Publikationer och relationer 

Många forskare gör data tillgängliga i samband med publicering av en artikel. Då är det särskilt viktigt att artikeln kopplas till databeskrivningen. En kopia av artikeln bör också sparas, även om forskningsartikeln publiceras med Open Access. På så vis säkerställer man att informationen finns tillgänglig även om artikeln inte längre går att nå. Om en publikation beskriver hur data är framtagna är det särskilt viktigt att artikeln kopplas till databeskrivningen. 

Det är möjligt att automatiskt hämta information om publikationer från SwePub. Dubbelkolla alltid att den automatgenererade informationen är korrekt. För större studier finns det ibland publikationslistor på webben som uppdateras löpande. Då kan du använda fältet Länk till publikationslista, men tänk då på att länkar kan behöva uppdateras efter en tid.

Katalogposten kan uppdateras i efterhand med fler publikationer.

Språkresurser 

Avsnittet Språkresurser syns endast om forskaren har valt ämnesprofilen Språkresurser