Ämnesprofiler i DORIS

SND:s mål är att data som delas via våra tjänster ska vara enkla att hitta och beskrivna på ett sådant sätt att de uppfyller FAIR-principerna i så stor utsträckning som möjligt.

För att data ska bli möjliga att hitta krävs att de beskrivs på ett standardiserat sätt. Detta görs med hjälp av metadata, det vill säga ”data om data”, och man talar om olika så kallade metadatastandarder. En metadatastandard är en uppsättning regler som bestämmer hur man formulerar och strukturerar metadata. En metadatastandard riktar sig till användare med ett gemensamt intresse, till exempel inom en särskild forskningsdomän. När forskare använder en etablerad standard för metadata blir metadatabeskrivningar läsbara och begripliga för både människa och maskiner, vilket är centralt för att uppfylla FAIR-principerna. Maskinläsbarheten gör också att metadata kan integreras i olika system, exempelvis söksystem eller system som automatiskt överför information från ett ställe till ett annat. 

Som forskare lär man sig ofta standardiserade sätt att hantera olika typer av data under sin forskarutbildning. Däremot använder forskare sällan metadatastandarder själva och det blir inte relevant att sätta sig in i hur metadatastandarder fungerar. Olika discipliner har också olika behov när det gäller metadata och därför finns det många olika standarder och olika sätt att använda dem.

Eftersom SND vill underlätta för forskare från olika discipliner att beskriva och dela data har vi utvecklat ämnesspecifika metadataprofiler. Grunden utgörs av en fullständig metadataprofil, kallad SND Master, som innehåller alla metadataelement och de egenskaper som DORIS stöder. Relevanta metadataelement hämtas från masterprofilen och presenteras i de olika ämnesprofilerna. Målet är att erbjuda ämnesanpassade profiler som matchar översta nivån i OECD Fields of Research and Development classification (FORD) samt SCB:s Standard för svensk indelning av forskningsämnen. 

Aktuella metadataprofiler hos SND:

Förutom ämnesspecifika profiler erbjuder SND även en allmän profil som kan användas för data som inte naturligt faller in under någon av de övriga profilerna. 

Utveckling av en metadataprofil för Humaniora och konst pågår. 

Dokumentationen för metadataprofilerna finns på Zenodo.

 

De ämnesspecifika profilerna är framtagna efter domänspecifika metadatastandarder och internationella infrastrukturer. Den samhällsvetenskapliga profilen uppfyller till exempel CESSDA:s krav på metadata, profilen för språkresurser är interoperabel med det metadataschema som CLARIN använder och profilen för geo- och miljövetenskaper uppfyller krav från både ISO 19115 och INSPIRE

 

Metadatastandarder 

En metadatastandard är en uppsättning regler som bestämmer hur man formulerar och strukturerar metadata, samt hur de element som omnämns ordnas i förhållande till varandra. En metadatastandard riktar sig till användare med ett gemensamt intresse, till exempel inom en särskild forskningsdomän. När forskare använder en etablerad metadatastandard blir metadatabeskrivningarna läsbara och begripliga för både människa och maskin, vilket är centralt för att uppfylla FAIR-principerna. Maskinläsbarheten gör också att metadata kan integreras i olika system, exempelvis söksystem eller system som automatiskt överför information från ett ställe till ett annat. 

Som forskare lär man sig ofta standardiserade sätt att hantera olika typer av data under sin forskarutbildning. Däremot använder forskare sällan metadatastandarder själva och det är sällan relevant att sätta sig in i hur metadatastandarder fungerar. Olika discipliner har också olika behov när det gäller metadata och därför finns det många olika metadatastandarder och olika sätt att använda dem. Här följer ett axplock av vanligt förekommande standarder. 

Kontrollerade vokabulärer

Ett viktigt element i metadatastandarder är så kallade kontrollerade vokabulärer.  

Kontrollerade vokabulärer är listor med tillåtna värden eller termer som används för att knyta information till ett visst objekt. Kontrollerade vokabulärer används för att begränsa vad som kan skrivas in i ett givet fält i en databeskrivning, till exempel i form av listor med bestämda ord eller fraser med en på förhand angiven stavning. 

Exempel på kontrollerade vokabulärer 

  • MeSH (Medical Subject Headings). Skapad av USA:s nationella medicinbibliotek (NLM). Används inom livsvetenskaperna för att indexera medicinrelaterade referenser i bland annat databasen PubMed. MeSH finns även på svenska, tillhandahållen via Karolinska Institutet: Svensk MeSH 
  • LCSH (Library of Congress Subject Headings). Skapad av USA:s kongressbibliotek, används av bibliotek för att indexera objekt med bland annat ämnesord och genrekategorier. 

Genom att använda kontrollerade vokabulärer underlättar man harmonisering mellan olika metadatastandarder. Kontrollerade vokabulärer kan vara öppna eller slutna. Öppna kontrollerade vokabulärer kan fyllas på med nya värden vid behov, men det kan bara göras av en viss organisation eller annat kontrollorgan. Slutna kontrollerade vokabulärer kan inte ändras, till exempel för att det inte går att föreställa sig några andra värden i ett visst sammanhang. 

SND:s system har stöd för följande nyckelordlistor: 

  • AAT Art & Architecture Thesaurus 
  • AGROVOC Vocabulary for Agricultural Sciences 
  • ALLFO Allmän finländsk ontologi 
  • ELSST The European Language Social Science Thesaurus 
  • EnvThes Environmental Thesaurus 
  • FISH Thesaurus of Monument Types 
  • GCMD (Global Change Master Directory) Vocabulary for Earth Science 
  • GEMET GEneral Multilingual Environmental Thesaurus 
  • ICD-10 International Classification of Diseases 
  • MeSH Medical Subject Headings 
  • NASA Thesaurus NASA STI Thesaurus. 

Kontrollerade vokabulärer för specifika metadataelement presenteras i dokumentationen för SND:s ämnesprofiler. Generellt används vokabulärer från standarderna DDI, Dublin Core, CESSDA och DataCite. Ytterligare vokabulärer kan tillkomma, till exempel används GeoNames för geografisk information och ISO-standarden ISO-639 för språkkoder. 

Om det inte finns några maskinläsbara kontrollerade vokabulärer har SND tagit fram egna listor som baseras på andra etablerade nyckelordlistor. Till exempelvis används vokabulärer från Riksantikvarieämbetet för lämningstyper och undersökningstyper, och för historiska tidsperioder används termer framtagna i samarbete med ARIADNE och publicerade i PeriodO

Exempel på metadatastandarder

Nedan följer ett par exempel på metadatastandarder. Mer information om olika metadatastandarder hittas hos exempelvis DCC.

DDI (Data Documentation Initiative) 

Standarden är framtagen av DDI Alliance och implementeras praktiskt genom ett XML-schema som innehåller en uppsättning element för alla möjliga typer av data. DDI togs från början fram för att beskriva dataset från enkätundersökningar och observationsstudier, men har senare utökats till att täcka fler typer av data från bland annat samhällsvetenskap, ekonomi och hälsostudier.  

”DDI is a free standard that can document and manage different stages in the research data lifecycle, such as conceptualization, collection, processing, distribution, discovery, and archiving.”
(DDI Alliance) 

DDI finns i två olika varianter. 

  • DDI Codebook (version 1.x till 2.x): Lättviktsvarianten. Främst avsedd för att dokumentera enkla enkätdata.  
  • DDI Lifecycle (version 3.x): Den kompletta standarden. Designad för att dokumentera data över hela datalivscykeln, från konceptualisering till publicering och vidare. 

SND:s metadatastruktur bygger på metadatastandarden DDI Lifecycle 3.3 och DataCites rekommendationer. Vi använder oss i möjligaste mån av internationella och etablerade kontrollerade vokabulärer och nyckelordlistor som används av andra infrastrukturer. 

Dublin Core  

Dublin Core är en metadatastandard med definitioner av metadataelement för beskrivning av informationsresurser (standarden har fått sitt namn efter en workshop i Dublin, Ohio, och har alltså ingenting med staden Dublin på Irland att göra). Den historiska grunduppsättningen består av 15 metadataelement, Dublin Core Metadata Element Set (DCMES)

Standarden har uppdaterats med ett antal ytterligare element.

Här kan du läsa mer om uppdateringen av Dublin Cores standarder.

META-SHARE 

META-SHARE är en metadatastandard som är utvecklad för att beskriva språkdata, men den kan också användas för att beskriva verktyg och tjänster som tillämpas vid bearbetning av språkdata. META-SHARE bygger på Dublin Core men är anpassad till språkresurser. Standarden förgrenar sig i nio riktningar, däribland lexikala resurser, språkbeskrivningar (till exempel ordlistor) samt olika typer av korpusar (till exempel textkorpusar, ljudkorpusar och bildkorpusar). 

SND:s metadataprofil för Språkresurser utgår från META-SHARE.

Andra förekommande metadatastandarder 

  • MARC (Machine-Readable Cataloging) är en standard från biblioteksvärlden. Standarden etablerades 1960 och används i de flesta bibliotekssystem. I Sverige används en svensk variant från Bibliotekstjänst (BTJ-MARC), medan svenska forskningsbibliotek använder den internationella MARC 21-standarden
  • METS (Metadata Encoding & Transmission Standard) är en standard för digitala publikationer som vid sidan av katalogisering också funkar bra för att överföra metadata från ett ställe till ett annat. METS innehåller främst administrativa metadata. 
  • PREMIS (Preservation Metadata Implementation Strategies) används för digital arkivering och innefattar administrativa och tekniska metadata för digitala objekt. 
  • OLAC (Open Language Archives Community) är ytterligare en standard som bygger på Dublin Core, med ett tillägg av kontrollerade vokabulärer som gör den mer lämplig för språkvetenskapliga data, till exempel språkkoder. 
  • TEI (Text Encoding Initiative) används för att göra mycket detaljerade uppmärkningar av text, med till exempel grammatik, stilistik, ordförråd och handskriftsrelaterad information. Det är också möjligt att märka upp platser, personer, datum och föremål som nämns i texten och länka till andra ställen där det finns mer information om dem.