CSAW-CC (mammografi) – ett dataset för AI-forskning för att förbättra screening, diagnostik och prognostik för bröstcancer
SND-ID: 2021-204-1. Version: 1. DOI: https://doi.org/10.5878/45vm-t798
Tillhörande dokumentation
Citering
Alternativ titel
Cohort of Screen-age Women - Case control (CSAW-CC)
Skapare/primärforskare
Fredrik Strand - Karolinska Institutet, Institutionen för Onkologi-Patologi
Forskningshuvudman
Karolinska Institutet - Institutionen för Onkologi-Patologi
Diarienummer hos huvudman
4-3790/2016
Beskrivning
Detta dataset innehåller röntgenbilder, mammografi, från bröstcancerscreening på Karolinska Universitetssjukhuset för perioden november 2008 till december 2015. Datasetet har sammanställts med syftet att utföra AI-forskning för att förbättra screening, diagnostik och prognostik för bröstcancer.
Datasetet bygger på ett urval av individer med och utan bröstcancerdiagnos som är hämtat från ett mer omfattande källdataset.
Källdatasetet innehåller bröstcancerdiagnosfall för 1 103 individer, där följande ej är inkluderade: de vars ålder är utanför screeningintervallet 40 till 74 år, de som saknar komplett screeningundersökning. Från källdatasetet har ett slumpmässigt urval av 873 fall med bröstcancerdiagnos inkluderats i det publicerade datasetet.
Källdatasetet innehåller vidare ett slumpmässigt urval av 10 000 friska individer som inte fått bröstcancerdiagnos år 2018 eller tidigare. Från källdatasetet har ett slumpmässigt urval av 7 850 friska individer inkluderats i det publicerade datasetet.
För varje individ är samtliga mammografier inkluderade från 2008 fram till diagnos eller senast 31
Datasetet bygger på ett urval av individer med och utan bröstcancerdiagnos som är hämtat från ett mer omfattande källdataset.
Källdatasetet innehåller bröstcancerdiagnosfall för 1 103 individer, där följande ej är inkluderade: de vars ålder är utanför screeningintervallet 40 till 74 år, de som saknar komplett screeningundersökning. Från källdatasetet har ett slumpmässigt urval av 873 fall med bröstcancerdiagnos inkluderats i det publicerade datasetet.
Källdatasetet innehåller vidare ett slumpmässigt urval av 10 000 friska individer som inte fått bröstcancerdiagnos år 2018 eller tidigare. Från källdatasetet har ett slumpmässigt urval av 7 850 friska individer inkluderats i det publicerade datasetet.
För varje individ är samtliga mammografier inkluderade från 2008 fram till diagnos eller senast 31 december 2015. Utöver mammografibilderna finns annoteringsbilder där en bröstradiolog har annoterat tumörens utbredning på pixelnivå (små förändringar som t.ex. förkalkningar har annoterats som ett område). Även mammografibilden för föregående screening granskades och om tumörtecken var synliga annoterades de även där. Om inga tumörtecken var synliga markerades motsvarande lokalisation med en punkt.
Utöver bilder finns även parametriska data som kommer från Karolinska Universitetssjukhuset men inhämtats via Regionalt Cancer Centrum Stockholm Gotland. Dessa data innehåller information om kvinnans ålder vid mammografi, tid från bild till diagnos, tumörstorlek, histologi och lymfkörtelmetastas. Parametriska data har begränsats, kategoriserats, och perturberats för att säkerställa anonymiteten (se vidare i bilaga).
Tillgängliga filer:
- CSV: Följande data är inkluderade (om relevant): cancer ja/nej (d.v.s. bröstcancer 2008 till 2015), åldersgrupp, dagar från mammografibild till diagnos (om någon), cancerhistologi, cancerns storleksgrupp, ipsilateral axillär lymfkörtelmetastas. Det finns en csv-fil för hela datasetet, med en rad per bild. Om någon cancerdiagnos erhållits är denna information upprepad för alla rader - även för de som hör till undersökning före diagnos. För varje undersökningsdatum finns bedömning av radiolog 1, av radiolog 2 samt consensusbeslut.
- DICOM-filer: Mammografibilder. För varje screening finns de fyra standardbilderna: vänster/höger, mediolateral oblik och kraniokaudal. Det ska därmed finnas fyra filer per examinationsdatum.
- PNG: Cancer-annoteringar. För varje DICOM bild där en tumör kan visualiseras.
Åtkomst:
Datasetet är tillgängligt efter förfrågan på grund av materialets storlek. Bildmaterialet i form av DICOM-filer och PNG-filer omfattar ca 2,5 TB.
Önskas endast tillgång till CSV-filen med parametriska data finns den att ladda ned som tillhörande dokumentation. Visa mindre..
Data innefattar personuppgifter
Nej
Språk
Analysenhet
Population
Kvinnor 40-74 år som inbjudits till mammografiscreening
Studiedesign
Fall-kontrollstudie
Beskrivning av studiedesign
Fall-kontroll-kohort avseende bröstcancerdiagnos
Urvalsmetod
Sannolikhetsurval: systematiskt slumpmässigt urval
Kontroller: Slumpmässigt urval av kvinnor som ej erhållit bröstcancerdiagnos före 2015-12-31
Tidsperiod(er) som undersökts
2008 – 2015
Variabler
19
Antal individer/objekt
8723
Geografisk utbredning
Geografisk plats: Stockholms län
Geografisk beskrivning: Det geografiska upptagningsområdet för bröstcancer-screening på Karolinska Universitetssjukhuset i Stockholm, Sverige
Lägsta geografiska enhet
Region
Högsta geografiska enhet
Region
Ansvarig institution/enhet
Institutionen för Onkologi-Patologi
Medverkande
Etikprövning
Etikprövningsmyndigheten - dnr 2019-01946
Etikprövningsmyndigheten - dnr 2021-01030
Etikprövningsmyndigheten - dnr 2019-03638
Stockholm - dnr 2016/2600-31
Forskningsområde
Cancer och onkologi (Standard för svensk indelning av forskningsämnen 2011)
Radiologi och bildbehandling (Standard för svensk indelning av forskningsämnen 2011)
Nyckelord
Sortera på namn | Sortera efter år
Dembrower, K., Liu, Y., Azizpour, H., Eklund, M., Smith, K., Lindholm, P., & Strand, F. (2020). Comparison of a deep learning risk score and standard mammographic density score for breast cancer risk prediction. Radiology, 294(2), 265–272. https://doi.org/10.1148/radiol.2019190872
DOI:
https://doi.org/10.1148/radiol.2019190872
URN:
urn:nbn:se:kth:diva-267834
Dembrower K, Lindholm P, Strand F. A Multi-million Mammography Image Dataset and Population-Based Screening Cohort for the Training and Evaluation of Deep Neural Networks-the Cohort of Screen-Aged Women (CSAW). J Digit Imaging. 2019.
DOI:
https://doi.org/10.1007/s10278-019-00278-0
Dembrower, K., Wahlin, E., Liu, Y., Salim, M., Smith, K., Lindholm, P., Eklund, M., & Strand, F. (2020). Effect of artificial intelligence-based triaging of breast cancer screening mammograms on cancer detection and radiologist workload : a retrospective simulation study. The Lancet Digital Health, 2(9), E468–E474. http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-281510
DOI:
https://doi.org/10.1016/S2589-7500(20)30185-0
URN:
urn:nbn:se:kth:diva-281510
Salim, M., Wåhlin, E., Dembrower, K., Azavedo, E., Foukakis, T., Liu, Y., Smith, K., Eklund, M., & Strand, F. (2020). External Evaluation of 3 Commercial Artificial Intelligence Algorithms for Independent Assessment of Screening Mammograms. JAMA Oncology, 6(10), 1581. https://doi.org/10.1001/jamaoncol.2020.3321
DOI:
https://doi.org/10.1001/jamaoncol.2020.3321
URN:
urn:nbn:se:kth:diva-284972
Om du publicerat något baserat på det här datamaterialet, meddela gärna SND en referens till din(a) publikation(er). Är du ansvarig för katalogposten kan du själv uppdatera metadata/databeskrivningen via DORIS.