Verktyg

I arbetet med forskningsdata som innehåller personuppgifter och andra skyddsvärda data kan det underlätta med olika verktyg som hjälper till att hantera och skydda data. Det kan till exempel handla om att bedöma risken för återidentifiering eller om att systematiskt förbereda en datafil för utlämning. Här går vi igenom några olika verktygstyper och programvaror som kan vara användbara vid hantering av kvantitativa och kvalitativa data samt specifikt för kryptering, för att skapa syntetiska data och för säkra beräkningsmiljöer.

Verktyg för kvantitativa data

Det finns en rad olika verktyg för statistisk röjandekontroll i kvantitativa data, det vill säga för att skapa sig en bild av vilka risker för identifiering som finns i ens data. Verktygen erbjuder också olika typer av skyddsåtgärder och funktioner för att beräkna datamängdens användbarhet efter eventuella åtgärder. Nedan ger vi några exempel på de vanligaste verktygen för statistisk röjandekontroll. 

sdcMicro

Programmet kan bland annat användas för att identifiera olika variabler eller kombinationer av variabler som innebär en risk för bakvägsidentifiering. Det hjälper användaren att relativt snabbt få en överblick över en datamängd. sdcMicro gör det möjligt att aggregera variabler och utvärdera effekten på risken för bakvägsidentifiering samt att analysera hur omarbetningar av data påverkar möjligheten till vidare analyser. Verktyget sdcMicro kan köras lokalt på din dator genom en programtolk för språket R. Det är gratis, nedladdningsbart och kan användas via ett grafiskt gränssnitt i webbläsaren som kallas sdcApp. När du arbetar med sdcApp-gränssnittet i webbläsaren får du genom hela processen tydliga förklaringar av olika förändringar, vilket gör att verktyget också passar bra för dig som inte redan är expert på hantering av mikrodata. SdcMicro dokumenterar alla genomförda ändringar av data i ett skript, vilket gör det lätt att se hur data har modifierats eller att göra samma ändringar på andra data. För att komma igång behöver du först ha tillgång till en R-miljö på din dator eller på en server (för nybörjare rekommenderas att installera RStudio). Verktyget hämtas därefter enklast som R-paket från paketrepositoriet CRAN med skriptet: install.packages("sdcMicro").

Här kan du ladda ner sdcMicro
Amnesia

Amnesia pseudonymiserar data genom att använda en fördefinierad algoritm för att konvertera personuppgifter till pseudonymer. Algoritmen kan vara krypteringsbaserad eller hashbaserad. Även detta program kan användas för att aggregera variabler och utvärdera risken för bakvägsidentifiering. Programmet är Javabaserat och går att ladda ner och köra lokalt på din dator, men finns även i webbversion.

Här kan du ladda ner Amnesia
ARX

ARX finns både som fristående grafiskt verktyg och som programmatiskt bibliotek,. Det stödjer användaren med tydliga säkerhetsmodeller (inklusive både l-diversitet/l-diversity och t-närhet/t-closeness) och mått på informationsförlust. ARX är Javabaserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Här kan du ladda ner ARX
µ-Argus

µ-Argus är ett fristående grafiskt verktyg som utvecklats av och för statistiker på Nederländernas myndighet för statistik. Programmet är väl genomarbetat, innehåller ett brett utbud av åtgärder samt har hantering av SPSS-filer. Projektet har funnits ganska länge och är väletablerat inom hantering av mikrodata. Många av de funktioner som skapats för µ-Argus återanvänds därför också i andra projekt, till exempel i sdcMicro, genom öppen källkod. Därför är funktionerna också tillgängliga för programmatisk användning på olika sätt utanför det grafiska verktyget. µ-Argus är Java-baserat och kan köras lokalt på din dator via en kompatibel Javamiljö. 

Här kan du ladda ner µ-Argus

Verktyg för kvalitativa data

QualiAnon

QualiAnon är ett verktyg som hjälper till att hitta personuppgifter och annan skyddsvärd information i textdata, till exempel i intervjutranskript. I QualiAnon kan du jobba systematiskt med olika former av uppmärkning och stopptermer. Verktyget kan därför utgöra ett stöd vid pseudonymisering av kvalitativa data, exempelvis när du som forskare ska förbereda datafiler för förmedling. QualiAnon är Javabaserat och kan köras lokalt på din dator via en kompatibel Javamiljö.

Här kan du laddda ner QualiAnon

Verktyg för kryptering

Kryptering är en skyddsåtgärd som kan användas för att ge ett extra lager av åtkomstkontroll till skyddsvärda data. Det kan till exempel vara användbart vid olika typer av filöverföringar, om data tillfälligt behöver lagras i en lagringslösning som har ett begränsat skydd eller som en del av ett systematiskt arbete med åtkomstkontroll inom ett forskningsprojekt. Nedan går vi igenom några vanliga verktyg för kryptering. 

Microsoft Office och LibreOffice

Office-program som Microsoft Office och LibreOffice har funktioner för att kryptera dokument (i Microsoft Office, gå till Arkiv-menyn, välj ”Info” och därefter ”Skydda dokument”). Krypteringsalgoritmen är i princip stark i någorlunda nya versioner av Office-program (efter 2007), vilket betyder att säkerheten främst beror på lösenordets styrka.

7-Zip

7-Zip är ett komprimeringsprogram med öppen källkod som gör det möjligt att kryptera filer när man komprimerar dem. Krypteringsalgoritmen (AES-256) är stark, vilket betyder att det också är viktigt att välja ett starkt lösenord. Kryptering med 7-Zip är lämplig framför allt för säkerhetskopior, rådatafiler och andra filer som man inte aktivt arbetar med, eftersom processen att dekryptera filer, extrahera dem och sedan återkryptera och komprimera dem kan bli mödosam. En nackdel är att 7-Zip endast är tillgängligt för Windows och Linux. Mac-användare kan använda The Unarchiver för att dekryptera och extrahera 7-Zip-arkiv. 

Här kan du ladda ner 7-Zip
VeraCrypt

VeraCrypt är ett program med öppen källkod för att kryptera data med AES-256 och flera andra algoritmer. VeraCrypt skapar en krypterad ”container” som från utsidan ser ut som en vanlig fil (utan filnamnstillägg; man kan själv lägga till ett sådant, till exempel .pdf, för att ”dölja” filen). När man dekrypterar filen i VeraCrypt beter den sig som en nätverksvolym där man kan lägga sina filer. Till skillnad från Office och 7-Zip är VeraCrypt ett specialiserat krypteringsprogram som kan användas för både Windows, Linux och Mac. Nackdelen är därmed också att VeraCrypt är mer utrymmes- och resurskrävande.

Här kan du ladda ner VeraCrypt

Verktyg för att skapa syntetiska data

Syntetiska data är fiktiva data som har genererats från en statistisk modell. Syntetiska data kan baseras på verkliga data eller genereras från grunden med hjälp av en självständig modell som använder specifika ingångsvärden.

Mockaroo

Mockaroo är ett enkelt webbaserat verktyg för att skapa syntetiska, helt generativa testdata som följer typiska distributioner för olika variabeltyper, till exempel olika sorters bakgrundsvariabler för fiktiva individer. Det finns cirka 170 olika variabeltyper och det går att styra fördelningen med ett formelspråk. Verktyget är huvudsakligen inriktat på att skapa testdata för programvaruutveckling men kan vara användbart i många andra sammanhang. Mockaroo är en kommersiell produkt, men gratisversionen kräver inte registrering och kan generera syntetiska dataset om upp till 1000 rader som kan laddas ner. 

Här kan du ladda ner Mockaroo
Synthpop

Synthpop är ett verktyg för att programmatiskt generera syntetiska data som kan modelleras för att efterlikna verkliga data genom att först analysera dem. Det går också att blanda in olika sorters generiska fördelningar i den syntetiska utmatningen. Verktyget har öppen källkod och består av ett paket för programmeringsmiljön R. De flesta användningsområden kräver därför i dagsläget att du har grundläggande kunskaper i programmering, även om det arbetas på att även tillgängliggöra funktioner via ett webbgränssnitt. Du kommer enklast åt synthpop ifrån en R-miljö genom att hämta det från paketrepositoriet CRAN med kommadot: install.packages("synthpop"). SynthPop utvecklas även som en Python-modul, men denna utveckling är i ett tidigt skede. 

Här kan du ladda ner och använda Synthpop

Säkra beräkningsmiljöer

En säker beräkningsmiljö är en datormiljö som är designad för att skydda känslig eller konfidentiell information samt forskningsdata mot obehörig åtkomst, dataläckor eller andra typer av säkerhetshot. Den är särskilt viktig inom forskningsområden där man hanterar personuppgifter eller andra skyddsvärda data. Många universitet erbjuder egna säkra lokala beräkningsmiljöer.

MONA

MONA (Microdata Online Access) är Statistiska centralbyråns (SCB) plattform för tillgång till mikrodata. I MONA kan man bearbeta data online utan att de lämnar SCB. Systemet erbjuder ett urval av programvaror (till exempel olika statistik- och ordbehandlingsprogram) och användarens eget material kan laddas upp till deras lagringsyta.

Här kan du läsa mer om och få åtkomst till MONA
Bianca

Bianca (eller NAISS-SENS) är ett system för känsliga personuppgifter som är gratis att använda för alla svenska akademiska forskare. Det drivs av UPPMAX vid Uppsala universitet. Systemet erbjuder en Linux-miljö med omfattande lagrings- och beräkningsresurser, vilket gör det särskilt väl lämpat för analys av pseudonymiserade känsliga data. SIMPLER och SWEGEN använder Bianca för att tillhandahålla sina data, men de flesta användare tar med sig egna data eller använder data som importeras direkt från NGI. 

Här kan du läsa mer om och få åtkomst till Bianca