Metoder för kvalitativa data
Det finns många olika sätt att pseudonymisera kvalitativa data. Det är alltid upp till dig som forskare att bedöma vilka metoder som passar dina forskningsdata bäst. Här tar vi upp några allmänna tips och vanligt förekommande metoder för att pseudonymisera kvalitativa data1.
7 tips för kvalitativa data
1. Använd digitala verktyg för kvalitativa data
Det finns olika verktyg och hjälpmedel för att strukturera kvalitativa data. Även om dessa verktyg inte är specifikt framtagna för att pseudonymisera data kan de vara till stor hjälp för att skapa en överblick över det material som ska bearbetas. Vi går igenom några verktyg som kan vara användbara för att strukturera kvalitativa data i avsnittet Verktyg.
2. Arbeta aldrig direkt i originaldata
I många fall kommer du att behöva prova dig fram till en lösning som passar dina syften och behov. Arbeta därför inte i originaldata utan spara en kopia där du kan testa hur väl olika metoder fungerar.
3. Dokumentera ändringar
Dokumentera dina ändringar noggrant. Skapa exempelvis en kodbok för pseudonymer eller andra koder som du använder dig av.
4. Var konsekvent
Var konsekvent när du pseudonymiserar dina data. Använd exempelvis [hakparenteser] för maskade uppgifter eller andra specialtecken. Använd inte olika textformateringar som kursivering eller fetstil. De riskerar att försvinna vid formatering av textfiler. När du transkriberar intervjuer bör du till exempel markera varje egennamn med ett särskilt tecken som inte används någon annanstans i texten (till exempel #). Detta kommer att underlätta senare anonymisering av namn.
5. Gå igenom bakgrundsmaterial
Gå igenom eventuell dokumentation och annat bakgrundsmaterial som hör ihop med dina forskningsdata. Kontrollera att de inte innehåller någon specifik information om till exempel urvalsprocessen, adresslistor eller e-postadresser och att det inte finns några tillgängliga kodnycklar Se också till att eventuella metodbeskrivningar och metadata inte innehåller information som direkt eller indirekt gör det möjligt att identifiera en forskningsperson.
6. Utvärdera
Säkerställ att de åtgärder du tillämpat faktiskt skyddar forskningspersonernas identitet. Testa om du med rimliga medel kan identifiera enskilda individer i dina data. Kontrollera att det inte finns några kompletterande datakällor som kan användas för bakvägsidentifiering.
7. Samla inte in personuppgifter i onödan
Om du redan i insamlingsfasen vet att du vill göra forskningsdata öppet tillgängliga bör du fundera noga på vilka uppgifter du planerar att samla in. Data med personuppgifter kan i de flesta fall inte göras öppet tillgängliga. Möjligheten att radera forskningsdata, inklusive insamlade personuppgifter, är i regel begränsad eftersom de behöver sparas så länge det inte finns ett gallringsbeslut (se avsnittet om juridik). För att besvara vissa forskningsfrågor kommer det vara nödvändigt att samla in personuppgifter medan det i andra fall inte är fallet. Kom ihåg att personuppgifter inte bara är information som direkt kan identifiera en person utan även information som indirekt kan identifiera någon. Om du till exempel inte planerar att samla in direkta personuppgifter men vill samla in data om studiedeltagarnas ålder och inkomst så kan ett alternativ vara att samla in ålders- och inkomstuppgifter i form av intervaller snarare än specifika värden (t.ex. 18–29 år, 30–39 år, <20 000 kr, 20 001–30 000 kr) för att minimera risken för återidentifiering.
Vanliga metoder för kvalitativa data
1. Byt ut egennamn mot alias eller pseudonymer
Den kanske vanligaste metoden att hantera egennamn i kvalitativa data är att skapa alias eller pseudonymer. Även om det verkar relativt enkelt att byta ut egennamn mot pseudonymer eller alias kan ett datamaterial snabbt bli svårhanterligt och rörigt både för dig själv, samarbetspartners och sekundäranvändare om du inte genomför ändringarna på ett systematiskt sätt och i detalj dokumenterar hur du har gått till väga.
Se till att i förhand skapa ett genomtänkt och koherent system för hur egennamn kodas om, framför allt i större datamaterial och om du arbetar i ett projekt med flera forskare. Dokumentera noggrant alla ändringar i någon form av kodbok så att du lätt kan orientera dig i det pseudonymiserade materialet.
Vanligtvis ersätter man förekommande för- och efternamn i data med enbart ett nytt förnamn i form av ett alias eller en pseudonym. Om dina data innehåller många forskningspersoner är det dock viktigt att du skapar unika alias eller pseudonymer som inte kan förväxlas. För att göra ditt material sammanhängande och begripligt kan det i vissa fall finnas skäl att använda ett alias för både för- och efternamn. I andra fall går det lika bra att använda en mer specificerad pseudonym eller kombination av pseudonymer, exempelvis [lärare, skola 2, region 4]. Det är upp till dig som forskare att bedöma balansen mellan risken för återidentifiering och dina datas användbarhet.
Notera att ett datamaterial som använder alias i stället för verkliga namn klassas som pseudonymiserat och inte anonymiserat så länge det finns kompletterande information (till exempel någon form av kodnyckel som kopplar ett visst alias till ett verkligt namn). Ett sådant datamaterial innehåller alltså personuppgifter och behöver behandlas därefter.
2. Kategorisering av generella namn och beteckningar
Namn och beteckningar som bara förekommer vid enstaka tillfällen och inte har någon betydelse för att förstå datamaterialet kan i regel ersättas med en generell pseudonym i stället för ett unikt alias. Generella namn, beteckningar och substantiv som beskriver olika entiteter, platser eller personer byts ofta ut mot bredare kategorier såsom [syster], [morfar], [man], [politiker, man, kommun 5], [lärare, kvinna, lågstadieskola] och så vidare.
Som nämnts under punkt 1 kan det i vissa fall finnas anledning att använda flera pseudonymer för att pseudonymiserade data ska bli sammanhängande och begripliga. När du använder flera kategorier av pseudonymer behöver du alltid sätta dina data i ett större sammanhang och fundera på vilka andra kompletterande datakällor som potentiellt skulle kunna användas för att återidentifiera forskningspersoner.
Om din studiepopulation och urval är relativt litet och rör en specifik plats, till exempel anställda på en arbetsplats, bör du vara restriktiv med hur mycket information du avslöjar med dina pseudonymer. Om du studerar en större population, exempelvis Sveriges befolkning mellan 18–85 år, kan du i regel vara mindre restriktiv.
3. Ändra eller radera känslig information
Känsliga personuppgifter faller under speciell lagstiftning i dataskyddsförordningen. Sjukdomsdiagnoser, politiska åsikter, utlåtanden om exempelvis en kollega, droganvändning och sexualliv är några exempel på information som kan åsamka stor skada om den kan kopplas till en enskild person.
Om du har data som innehåller känsliga personuppgifter behöver du som forskare vara extra försiktig med hur du generaliserar och kategoriserar dina data. Denna avvägning beror naturligtvis på syftet med din forskning. Om din forskning exempelvis handlar om droganvändning är det inte motiverat att radera information om brukarvanor. Överväg då i stället att:
- minska detaljrikedomen i andra delar av dina data, exempelvis genom att koda om andra indirekta identifierare i mycket breda kategorier
- utelämna vissa indirekta identifierare
- vara speciellt försiktig med geografiska data och uppgifter om tredje part
- använda andra tekniska skyddsåtgärder som kryptering och användaravtal om du vill eller behöver dela dina data.
Kom ihåg att är det inte alltid är uppenbart vad som kan utgöra känslig information eller innebära en risk för skada för en enskild person. Förekomsten av skadedjur, exempelvis barkborrar, utgör ingen känslig uppgift i sig. Om förekomsten däremot kopplas ihop med ett specifikt geografiskt område som i sin tur kan länkas till en skogsägare kan uppgiften få stor ekonomisk skada för en enskild person.
4. Generalisera och kategorisera bakgrundsinformation
Bakgrundsvariabler och indirekta identifierare som kön, ålder, utbildning, inkomst, politisk tillhörighet, yrke eller boendekommun är ofta väsentliga för att förstå dina data. Den här typen av information utgör också ofta viktiga variabler för olika sambandsanalyser i forskning.
Bakgrundsvariabler utgör samtidigt en risk för återidentifiering eftersom de, om informationen är tillräckligt detaljrik, kan användas för att särskilja en enskild individ. Du som forskare bör därför alltid identifiera och kategorisera bakgrundsvariabler i bredare kategorier eller grupper.
Tillvägagångssättet är i regel detsamma som när det gäller kvantitativa data där information generaliseras i olika kategorier för att minska detaljrikedomen. Du kan exempelvis minska detaljrikedomen i dina data genom att koda om:
- ålder till åldersgrupper
- kommun till län
- inkomst till låg-, medel- och hög inkomst
- partisympati till höger eller vänster
- yrke eller arbetsplats till offentlig eller privat sektor.
Hur du kodar om bakgrundsvariabler och andra indirekta identifierare beror på hur du ska använda dina data och vilka analyser du vill genomföra samt hur öppet de behöver delas. En utgångspunkt är dock att utgå från etablerade klassifikationer och standarder. SCB:s klassifikationer och standarder är ett exempel på vägledning i hur du kan koda om dina variabler.
Referenser
1. Stora delar av denna sida baseras på information från "Data Management Guidelines [Online]. Tampere: Finnish Social Science Data Archive [distributor and producer]. <https://www.fsd.tuni.fi/en/services/data-management-guidelines/anonymisation-and-identifiers/#anonymising-qualitative-data> (citerad 06.02.2025.)"