Vanliga missförstånd

Nedan listas vanliga missförstånd om anonymisering och pseudonymisering. Innehållet bygger på ett dokument framtaget av Europeiska datatillsynsmannen (EDPS) och Spanska dataskyddsmyndigheten (AEPD).

 ”Pseudonymisering är samma sak som anonymisering”

Pseudonymisering innebär att behandla personuppgifter på ett sådant sätt att de inte längre kan kopplas till en specifik individ utan användning av kompletterande information som förvaras separat från originaldata. Detta innebär att man med hjälp av kompletterande information (till exempel en kodnyckel) skulle kunna identifiera individer, vilket innebär att pseudonymiserade personuppgifter fortfarande är personuppgifter.

Anonymisering, å andra sidan, innebär att helt ta bort identifierande information ur en datamängd och att på ett oåterställbart sätt bryta kopplingar till kompletterande datakällor som skulle kunna göra det möjligt att identifiera en enskild individ. Forskningsdata kan då inte längre kopplas till specifika individer och är därmed inte längre att betrakta som personuppgifter.

”Kryptering är anonymisering”

När man krypterar använder man krypteringsnycklar, antingen en hemlig nyckel eller en kombination av privat och publik nyckel, för att omvandla informationen på ett sätt som minskar risken att den missbrukas samtidigt som man bevarar konfidentialiteten under en viss tid. Men eftersom det måste gå att få tillgång till den ursprungliga informationen är de omvandlingar som tillämpas av krypteringsalgoritmer utformade för att vara reversibla.

Det ska alltså vara möjligt att dekryptera informationen. Nycklarna som används för dekryptering är alltså exempel på den tidigare nämnda ”kompletterande informationen” (se föregående missförstånd) som kan göra personuppgifterna läsbara och därmed göra det möjligt att identifiera specifika individer. I teorin kan man tänka att om man raderar krypteringsnyckeln för krypterade forskningsdata så blir de anonyma, men så behöver inte vara fallet. Man kan inte utgå från att krypterade data inte kan dekrypteras bara för att krypteringsnyckeln sägs vara ”raderad” eller ”okänd”.

Det finns många faktorer som påverkar konfidentialiteten hos krypterade data, framför allt på lång sikt. Några exempel är vilken styrka krypteringsalgoritmen och -nyckeln har, informationsläckor, implementeringsproblem, mängden krypterade data och tekniska framsteg. Kryptering innebär alltså inte anonymisering men kan vara ett användbart verktyg för att pseudonymisera forskningsdata med personuppgifter.

”Forskningsdata kan alltid anonymiseras”

Det är inte alltid möjligt att minska eller helt eliminera risken för återidentifiering samtidigt som man behåller en användbar datamängd för ett specifikt ändamål. Anonymisering är en process som försöker hitta rätt balans mellan att minska risken för återidentifiering och att behålla datamängdens nytta för forskningens avsedda syfte.

Vissa egenskaper hos forskningsdata och vissa sammanhang innebär därför att risken för återidentifiering inte kan minskas tillräckligt. Detta kan till exempel vara fallet när det totala antalet möjliga individer med en viss egenskap är för litet, när datatyperna skiljer sig så mycket mellan individer att de kan identifieras eller när datamängder innehåller ett stort antal demografiska variabler eller platsdata.

”Anonymisering är permanent för all framtid"

Anonymiseringen och hur den implementeras påverkar risken för återidentifiering. Även om 100 % anonymisering är det man önskar sig ur ett dataskyddsperspektiv är det i vissa fall inte möjligt och man måste vara medveten om att det finns en kvarstående risk för återidentifiering.

Anonymisering handlar som sagt var inte bara om att ta bort direkta identifierare ur en datamängd utan även om kopplingar till andra kompletterande datakällor som skulle kunna göra det möjligt att identifiera enskilda individer. Omständigheter förändras över tid.

Till exempel kan ny kunskap och tekniska framsteg som AI, ökad datorkraft eller nya sätt att tillämpa befintliga teknologier skapa möjligheter till återidentifiering i vad som tidigare betraktades som anonyma datamängder. Dessutom kan dataläckor eller tillgängliggörande av ytterligare kompletterande datakällor med tiden göra det möjligt att koppla tidigare anonyma data till identifierade individer. Därför finns det en risk att vissa anonymiseringsprocesser i framtiden kan komma att återställas.

”Det finns ingen risk för återidentifiering i anonymiserade data”

Uttrycket ”anonyma data” bör inte förstås som att man helt enkelt kan markera en datamängd som anonym eller inte anonym. Det är inte ett binärt kocept utan en glidande skala. Förutom i specifika fall där forskningsdata är oerhört generaliserade är risken för återidentifiering aldrig noll. Varje post i en datamängd har en sannolikhet att bli återidentifierad, baserat på hur möjligt det är att skilja ut posterna. Det finns metoder för att utvärdera risken för återidentifiering, vilket bör göras både initialt och sedan följas upp över tid.

Läs mer om metoder för att möte risken för återidentifiering.

”Anonymisering kan helt automatiseras”

När man anonymiserar data kan man ta hjälp av verktyg för att automatisera vissa anonymiseringsprocesser, framför allt processer som rör identifiering och borttagning av direkta identifierare i datamaterialet. Det är däremot inte troligt att dessa processer helt kan automatiseras. De behöver analyseras och kontrolleras manuellt och genomföras av forskare eller datastödspersonal som är väl insatta i materialet. Anonymisering handlar inte heller bara om egenskaperna hos forskningsdata i sig utan även om kontexten och också där krävs mänsklig expertis för att analysera potentiella risker med indirekt identifiering.

”Anonymisering gör forskningsdata oanvändbara”

Syftet med anonymisering är att förhindra identifiering av individer i en datamängd. Anonymiseringstekniker begränsar hur den resulterande datamängden kan användas, men detta innebär inte att forskningsdata blir oanvändbara. Användbarheten beror snarare på forskningssyftet och vad man anser är en acceptabel risk för återidentifiering. I vissa fall kan det vara så att det inte är möjligt att anonymisera uppgifterna på grund av forskningssyftet, vilket tvingar forskarna att välja mellan att behandla personuppgifter (och exempelvis pseudonymisera dem) eller att inte behandla data alls.

”En anonymiseringsprocess som fungerat bra för andra kommer att fungera lika bra för mitt forskningsprojekt”

Anonymiseringsprocesser behöver anpassas efter datas egenskaper, omfattning och sammanhang, liksom efter projektets forskningssyften. Det finns inte något enkelt recept på anonymisering som passar alla.