ACROBAT - ett multi-infärgat histologiskt dataset från rutindiagnostik av bröstcancer skannat med WSI för digital patologi
SND-ID: 2022-190-1. Version: 1. DOI: https://doi.org/10.48723/w728-p041
Tillhörande dokumentation
Citering
Alternativ titel
ACROBAT
Skapare/primärforskare
Mattias Rantalainen - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Johan Hartman - Karolinska Institutet, Institutionen för onkologi-patologi
Forskningshuvudman
Karolinska Institutet - Institutionen för medicinsk epidemiologi och biostatistik
Beskrivning
ACROBAT-databasen består av 4212 mikroskopibilder (whole-slide-image, WSI) från 1153 kvinnliga primära bröstcancerpatienter. WSIs i datasetet finns tillgängliga i 10X förstoring och visar vävnadsssnitt från bröstcancerresektionsprover som infärgats med hematoxylin och eosin (H&E) eller immunhistokemi (IHC). För varje patient finns en WSI av H&E-färgad vävnad och minst en och upp till fyra WSI av motsvarande vävnad som infärgats med de diagnostiska rutininfärgningarna ER, PGR, HER2 och KI67. Datasetet skapades som en del av CHIME-studien (chimestudy.se) och dess primära syfte var att underlätta ACROBAT WSI registration challenge (acrobat.grand-challenge.org). De histopatologiska preparaten kommer från rutinarbetsflödet inom den diagnostiska patologin och digitaliserades för forskningsändamål vid Karolinska Institutet (Stockholm, Sverige). Skapandet av bilderna liknar det rutinmässiga arbetsflödet för digitalisering av patologibilder, med hjälp av tre olika Hamamatsu WSI-skannrar, närmare bestämt en NanoZoomer S360 och två NanoZoomer XR. WSI:erna i detta dataset åtföljs av en datatabell med en r
... Visa mer..Datasetet består av tre delmängder, tränings-, validerings- och testset, baserad på ACROBAT WSI registration challenge. Det finns 750 fall i utbildningssetet, för vart och ett av fallen finns en H&E WSI och en till fyra IHC WSI:er tillgängliga, med totalt 3406 WSI:er. Valideringssetet består av 100 fall med totalt 200 WSI och testsetet av 303 fall med totalt 606 WSI. Både för validerings- och testsetet finns en H&E WSI samt en slumpmässigt utvald IHC WSI tillgänglig.
WSI:erna anonymiserades genom att de associerade makrobilderna raderats, genom att filnamn med slumpmässiga fall-ID genererats och genom att metadatafält med eventuell persondata skrivits över. Hamamatsu NDPI-filerna konverterades sedan med libvips (libvips.org/). WSI:erna finns tillgängliga som generiska TIFF WSI:er (openslide.org/formats/generic-tiff/) med 10X förstoring och lägre bildnivå.
Datasetet är tillgängligt för nedladdning i sju separata ZIP-arkiv, fem för träningsdata (train_part1.zip (71,47 GB), train_part2.zip (70,59 GB), train_part3.zip (75,91 GB), train_part4.zip (71,63 GB) och train_part5.zip (69.09 GB)), ett för valideringsdata (valid.zip 21,79 GB) och ett för testdata (test.zip 68,11 GB).
Fillistningar och kontrollsummor i SHA1-format finns tillgängliga för att kunna kontrollera arkiv/dataintegritet vid nedladdning.
Även om det är hjälpsamt att användare meddelar SND om eventuella publikationer som använder denna datamängd genom att skicka ett e-postmeddelande till request@snd.gu.se, notera att detta inte är ett krav för att använda uppgifterna. Visa mindre..
Data innefattar personuppgifter
Nej
Språk
Analysenhet
Population
Anonymiserade kvinnliga patienter med primär bröstcancer, från Stockholmsregionen
Studiedesign
Observationsstudie
Urvalsmetod
Tidsperiod(er) som undersökts
2012 – 2018
Antal individer/objekt
1153
Dataformat / datastruktur
Geografisk utbredning
Geografisk plats: Stockholms län
Ansvarig institution/enhet
Institutionen för medicinsk epidemiologi och biostatistik
Medverkande
Masi Valkonen - Åbo universitet, Institute of Biomedicine
Kimmo Kartasalo - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Kajsa Ledesma Eriksson - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Leena Latonen - Östra Finlands universitet, Institute of Biomedicine
Constance Boissin - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
... Visa mer..Masi Valkonen - Åbo universitet, Institute of Biomedicine
Kimmo Kartasalo - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Kajsa Ledesma Eriksson - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Leena Latonen - Östra Finlands universitet, Institute of Biomedicine
Constance Boissin - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Yanbo Feng - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Philippe Weitz - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Dusan Rasic - Sjællands universitetshospital, Patologiafdelingen
Sonja Koivukoski - Östra Finlands universitet, Institute of Biomedicine
Pekka Ruusuvuori - Åbo universitet, Institute of Biomedicine
Circe Carr - Åbo universitet, Institute of Biomedicine
Sandra Pouplier - Sjællands universitetshospital, Department of Surgical Pathology
Leslie Solorzano - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Abhinav Sharma - Karolinska Institutet, Institutionen för medicinsk epidemiologi och biostatistik
Anne-Vibeke Laenkholm - Sjællands universitetshospital, Institute of Biomedicine
Aino Kuusela - Åbo universitet, Institute of Biomedicine
Visa mindre..Etikprövning
Stockholm - dnr 2017/2106-31
Tillägg: 2018/1462-32
Forskningsområde
Vetenskap och teknologi (CESSDA Topic Classification)
Informationsteknik (CESSDA Topic Classification)
Medicinsk bildbehandling (Standard för svensk indelning av forskningsämnen 2011)
Medicin och hälsovetenskap (Standard för svensk indelning av forskningsämnen 2011)
Cancer och onkologi (Standard för svensk indelning av forskningsämnen 2011)
Sortera på namn | Sortera efter år
Weitz, P. et al., (2022). ACROBAT -- a multi-stain breast cancer histological whole-slide-image data set from routine diagnostics for computational pathology. doi:10.48550/ARXIV.2211.13621
DOI:
https://doi.org/10.48550/ARXIV.2211.13621
Weitz P, Valkonen M, Solorzano L, Carr C, Kartasalo K, Boissin C, Koivukoski S, Kuusela A, Rasic D, Feng Y, Sinius Pouplier S, Sharma A, Ledesma Eriksson K, Latonen L, Laenkholm AV, Hartman J, Ruusuvuori P, Rantalainen M. A Multi-Stain Breast Cancer Histological Whole-Slide-Image Data Set from Routine Diagnostics. Sci Data. 2023 Aug 24;10(1):562.
DOI:
https://doi.org/10.1038/s41597-023-02422-6