Syntetiska data
Syntetiska data är fiktiva data som har genererats på artificiell väg. I stället för att modifiera ett befintligt dataset för att göra det mindre identifierbart genereras ett helt nytt dataset med fiktiva individer och värden.Dessa data kan även vara delvis eller helt genererade från konstgjorda källor, såsom statistiska fördelningsmodeller eller slumpgeneratorer. Därför hänvisar syntetiska data inte till en enskild typ av data som finns i filer med specifika format. Snarare utgör syntetiska data en kategori av data som genereras genom särskilda metoder.
När man skapar syntetiska data i syfte att skydda personuppgifter ersätts känsliga värden i en datamängd med värden som genereras från en statistisk modell. Syntetiska data kan skapas på flera sätt, till exempel baserat på regler eller genom att använda en tränad maskininlärningsmodell, och för olika ändamål, som integritetsskydd, men också för dataverifiering eller för att testa programvara.

Överväganden för syntetiska som bygger på personuppgifter
Syntetiska dataset som baseras på originaldata som innehåller personuppgifter beskrivs vanligtvis med den inneboende och något motsägelsefulla termen "syntetiska persondata". Att skapa syntetiska data med hjälp av data innehållande personuppgifter eller annan känslig information kräver ytterligare skyddsåtgärder.
Ett av de främsta övervägandena med syntetiska personuppgifter är risken för återidentifiering. Syntetiska data kan i vissa fall kan vara så realistiska att de möjliggör återidentifiering av individer i de verkliga data som användes för att träna modellen. För att minska risken för identifiering bör man därför:
- Dokumentera riskbedömningar för återidentifiering med mätvärden såsom k-anonymitet och kvantifiera skillnaderna från originaldatasetet.
- Överväga hur avvikande värden påverkar identifieringsriskerna.
- Överväga era krav på överensstämmelse. Hög överensstämmelse med originaldatasetet kan öka identifieringsrisken, och är inte alltid nödvändig eller ens önskvärd.
Dessutom bör man överväga:
- Mappstruktur: Om originaldata är känsliga och inte kan delas, överväg att tillhandahålla en tom platshållarfil eller ett syntetiskt dataset med låg trohet.
- Tillhandahållande av provdata: När dataset kräver begränsad åtkomst kan ett riskfritt "provdataset" hjälpa användare att förstå datan innan de ansöker om full åtkomst.
- Metadata och kodböcker: Du kan göra syntetiska enkätdata lättare att återanvända genom att beskriva variabler i en kodbok med standardformat istället för i en generisk textfil.
När ska jag använda syntetiska data?
- Syntetiska data kan fungera som ett mellansteg när du vill dela data med personuppgifter innan andra får tillgång till det verkliga datasetet. Detta kan till exempel vara användbart när mottagare av dina data vill bilda sig en uppfattning om innehållet, vilka variabler eller hur många observationer de behöver från det verkliga datasetet.
- Syntetiska data kan användas för att testa olika statistiska samband utan att behöva ha tillgång till det verkliga datasetet. En förutsättning är då att variablerna i det syntetiska datasetet någorlunda speglar fördelningen i det verkliga datasetet. Detta kan uppnås genom att låta ett verktyg för syntetiska data analysera det verkliga datasetet som inmatning. Den syntetiska utmatningen blir då statistiskt lik det verkliga datasetet, utan att något kan kopplas till en individ eller en rad i verkliga data.
- Syntetiska data kan också användas som ”dummydata” för att ta fram eller testa metoder eller kod utan att behöva ha tillgång till verkliga data. Du skapar denna typ av syntetiska data med så kallat strikt generativa verktyg. I detta fall behöver det syntetiska datasetet inte spegla verkliga data statistiskt utan bara strukturellt, det vill säga ha samma variabelnamn och datatyp. Om data speglar något statistiskt är det i stället i form av en generaliserbar fördelning, till exempel en normalfördelning i en population.
Hur kan jag skapa egna syntetiska data?
För att skapa syntetiska data behöver du använda specialiserade verktyg. Dessa programvaror använder avancerade algoritmer och statistiska modeller för att generera data som bibehåller de statistiska egenskaperna hos det ursprungliga datasetet utan att avslöja känslig information. För att skapa syntetiska data i dessa verktyg följer man i regel dessa steg:
- Dataförberedelse: Förbered det ursprungliga datasetet genom att identifiera och hantera saknade värden, rensa data och säkerställa att data är i rätt format för modellering.
- Modellträning: Träna en statistisk modell eller maskininlärningsmodell på det ursprungliga datasetet. Modellen lär sig de underliggande mönstren och fördelningarna i data.
- Generering av syntetiska data: Använd den tränade modellen för att generera ett nytt dataset som speglar de statistiska egenskaperna hos det ursprungliga datasetet men som innehåller fiktiva värden.
- Utvärdering och validering: Utvärdera kvaliteten på de syntetiska data genom att jämföra dess statistiska egenskaper med det ursprungliga datasetet och säkerställa att integriteten och användbarheten bibehålls.
Två exempel på verktyg beskrivs i avsnittet Verktyg. Du kan också läsa mer om syntetiska data i forskningsartikeln som i avsnittet Resurser.