Dane medyczne do trenowania AI: Jak robić to legalnie?

Dynamiczny rozwój systemów sztucznej inteligencji w ochronie zdrowia sprawia, że bezpieczne pozyskiwanie danych medycznych do trenowania AI staje się kluczowym wyzwaniem dla innowacyjnych przedsiębiorstw. Modele wykorzystywane do diagnostyki obrazowej czy predykcji klinicznej wymagają ogromnych zbiorów informacji, jednak dane dotyczące zdrowia podlegają rygorystycznym ograniczeniom. W poniższym artykule wyjaśniamy, jak legalnie pozyskać dane medyczne do trenowania AI w oparciu o przepisy RODO oraz prawo krajowe.

Dane medyczne do trenowania AI- dane dotyczące zdrowia jako szczególna kategoria danych osobowych

Punktem wyjścia jest kwalifikacja danych medycznych jako szczególnej kategorii danych osobowych. Zgodnie z art. 4 pkt 15 rozporządzenia 2016/679 (RODO) dane dotyczące zdrowia obejmują dane osobowe o stanie zdrowia fizycznego lub psychicznego osoby fizycznej, w tym informacje o korzystaniu z usług opieki zdrowotnej. Definicja ta ma charakter szeroki i obejmuje nie tylko klasyczną dokumentację medyczną, lecz także dane pośrednio ujawniające stan zdrowia, jak informacje o przyjmowanych lekach czy wynikach badań diagnostycznych. Równolegle szczególną ochroną objęte są dane genetyczne oraz dane biometryczne, przy czym w przypadku tych ostatnich ochrona dotyczy sytuacji, w których są one wykorzystywane do jednoznacznej identyfikacji osoby fizycznej.

Art. 9 ust. 1 RODO wprowadza generalny zakaz przetwarzania tych kategorii danych. Zakaz ten obejmuje w szczególności dane dotyczące zdrowia oraz dane genetyczne, a w przypadku danych biometrycznych – ich wykorzystanie do celów identyfikacyjnych. Oznacza to, że każdy projekt zakładający wykorzystanie danych medycznych do trenowania modeli AI musi znaleźć podstawę w jednym z wyjątków przewidzianych w art. 9 ust. 2 RODO, przy jednoczesnym spełnieniu przesłanek z art. 6 RODO.

Zobacz też:

Podstawy legalności przetwarzania danych medycznych w projektach AI

Najbardziej oczywistą podstawą przetwarzania danych medycznych jest zgoda osoby, której dane dotyczą, o której mowa w art. 9 ust. 2 lit. a RODO (wraz z właściwą podstawą z art. 6 ust. 1 RODO). W praktyce jednak zastosowanie tej przesłanki napotyka istotne trudności. Zgoda musi być wyraźna, a także dobrowolna, konkretna, świadoma i wyrażona w sposób jednoznaczny, co oznacza także konieczność precyzyjnego określenia celu przetwarzania. Zgoda udzielona na potrzeby leczenia nie obejmuje automatycznie wykorzystania danych do trenowania systemów AI, co wymaga odrębnego, wyraźnego upoważnienia. Dodatkowo w relacji pacjent–podmiot leczniczy pojawia się problem realnej dobrowolności zgody.

Istotną alternatywą jest przetwarzanie do celów badań naukowych, o którym mowa w art. 9 ust. 2 lit. j RODO. Przesłanka ta pozwala na przetwarzanie danych szczególnych kategorii, o ile jest ono niezbędne do realizacji badań naukowych i znajduje podstawę w prawie Unii lub prawie krajowym, a jednocześnie spełnia wymogi art. 89 ust. 1 RODO, w szczególności w zakresie zastosowania odpowiednich zabezpieczeń. Należy jednak podkreślić, że nie każdy projekt wykorzystujący sztuczną inteligencję można automatycznie zakwalifikować jako badanie naukowe. W szczególności projekty o charakterze wyłącznie komercyjnym mogą nie spełniać tego kryterium.

Kolejną potencjalną podstawą jest przetwarzanie ze względów związanych z interesem publicznym w dziedzinie zdrowia publicznego, przewidziane w art. 9 ust. 2 lit. i RODO. Przesłanka ta ma jednak zastosowanie głównie w projektach realizowanych przez podmioty publiczne lub w ścisłej współpracy z nimi i również wymaga oparcia w przepisach prawa.

Ustawa o prawach pacjenta i granice udostępniania dokumentacji medycznej

Na gruncie prawa krajowego kluczowe znaczenie ma ustawa o prawach pacjenta i Rzeczniku Praw Pacjenta. Reguluje ona zasady udostępniania dokumentacji medycznej, wyznaczając jednocześnie granice wykorzystania danych medycznych w celach innych niż leczenie.

Zgodnie z art. 26 ust. 4 tej ustawy dokumentacja medyczna może być udostępniona szkole wyższej lub instytutowi badawczemu do wykorzystania w celach naukowych, bez ujawniania danych umożliwiających identyfikację pacjenta. Przepis ten nie przesądza wprost o konieczności pełnej anonimizacji w rozumieniu RODO, jednak wymaga takiego przetworzenia danych, które uniemożliwia identyfikację osoby przez odbiorcę. W praktyce oznacza to konieczność zastosowania zaawansowanych technik deidentyfikacji lub anonimizacji, przy czym przedmiotem sporów interpretacyjnych pozostaje, czy przepis ten wymaga pełnej anonimizacji, czy dopuszcza pseudonimizację.

Istotnym ograniczeniem jest również krąg podmiotów uprawnionych do otrzymania dokumentacji. Podmioty komercyjne nie są bezpośrednimi adresatami tego przepisu, co oznacza, że ich udział w projektach badawczych wymaga odpowiedniego ukształtowania relacji prawnych, np. poprzez współpracę z uczelnią lub instytutem badawczym.

System informacji w ochronie zdrowia jako dodatkowy reżim regulacyjny

Analiza możliwości wykorzystania danych medycznych w projektach AI nie może pomijać przepisów ustawy o systemie informacji w ochronie zdrowia. Ustawa ta reguluje zasady funkcjonowania systemów teleinformatycznych, w których przetwarzane są dane o charakterze medycznym, w tym jednostkowe dane medyczne obejmujące informacje o stanie zdrowia oraz udzielonych świadczeniach zdrowotnych.

Zgodnie z jej przepisami dane te są przetwarzane w ramach systemów takich jak System Informacji Medycznej, rejestry medyczne czy dziedzinowe systemy teleinformatyczne, a ich przetwarzanie służy realizacji zadań publicznych związanych z ochroną zdrowia. Dostęp do tych danych jest ściśle reglamentowany, a ich udostępnianie podmiotom zewnętrznym wymaga wyraźnej podstawy prawnej. Co więcej, dane te nie podlegają udostępnianiu na zasadach dostępu do informacji publicznej, co dodatkowo podkreśla ich szczególny status.

W praktyce oznacza to, że wykorzystanie danych pochodzących z systemów publicznych do trenowania modeli AI nie może opierać się wyłącznie na konstrukcjach wynikających z RODO, lecz musi uwzględniać ograniczenia wynikające z prawa sektorowego.

Pseudonimizacja, anonimizacja i ich znaczenie dla projektów AI

Kluczowe znaczenie dla oceny legalności przetwarzania danych medycznych ma rozróżnienie pomiędzy anonimizacją a pseudonimizacją. Pseudonimizacja, zdefiniowana w art. 4 pkt 5 RODO, polega na przetworzeniu danych w taki sposób, aby nie można ich było przypisać konkretnej osobie bez użycia dodatkowych informacji. Dane takie nadal pozostają danymi osobowymi i podlegają pełnemu reżimowi RODO.

Anonimizacja natomiast prowadzi do nieodwracalnego pozbawienia danych charakteru danych osobowych. Zgodnie z motywem 26 RODO zasady ochrony danych powinny mieć zastosowanie do wszelkich informacji o zidentyfikowanych lub możliwych do zidentyfikowania osobach fizycznych. Spseudonimizowane dane osobowe, które przy użyciu dodatkowych informacji można przypisać osobie fizycznej, należy uznać za informacje o możliwej do zidentyfikowania osobie fizycznej. Aby stwierdzić, czy dana osoba fizyczna jest możliwa do zidentyfikowania, trzeba wziąć pod uwagę wszelkie rozsądnie prawdopodobne sposoby (w tym wyodrębnienie wpisów dotyczących tej samej osoby), w stosunku do których istnieje uzasadnione prawdopodobieństwo, że zostaną wykorzystane przez administratora lub inną osobę w celu bezpośredniego lub pośredniego zidentyfikowania osoby fizycznej. Aby stwierdzić, czy dany sposób może być z uzasadnionym prawdopodobieństwem wykorzystany do zidentyfikowania danej osoby, należy wziąć pod uwagę wszelkie obiektywne czynniki, takie jak koszt i czas potrzebne do jej zidentyfikowania, oraz uwzględnić zarówno technologię dostępną w momencie przetwarzania danych, jak i postęp technologiczny.

Zasady ochrony danych nie powinny więc mieć zastosowania do informacji anonimowych, czyli informacji, które nie wiążą się ze zidentyfikowaną lub możliwą do zidentyfikowania osobą fizyczną, ani do danych osobowych zanonimizowanych w taki sposób, że osób, których dane dotyczą, w ogóle nie można zidentyfikować lub już nie można zidentyfikować. RODO nie dotyczy więc przetwarzania takich anonimowych informacji, w tym przetwarzania do celów statystycznych lub naukowych.

W praktyce osiągnięcie tego standardu w odniesieniu do danych medycznych jest trudne, zwłaszcza w przypadku danych obrazowych lub genetycznych, które mogą umożliwiać reidentyfikację.

Nie można zatem automatycznie przyjmować, że przetwarzanie danych „zanonimizowanych” wyłącza stosowanie RODO. Każdorazowo konieczna jest ocena rzeczywistego ryzyka identyfikacji.

Tajemnica lekarska jako odrębne ograniczenie

Niezależnie od reżimu ochrony danych osobowych wykorzystanie danych medycznych podlega również ograniczeniom wynikającym z tajemnicy lekarskiej. Obowiązek zachowania tajemnicy obejmuje wszelkie informacje związane z pacjentem uzyskane w związku z wykonywaniem zawodu medycznego. Ujawnienie tych informacji jest dopuszczalne wyłącznie w przypadkach przewidzianych ustawą, w tym za zgodą pacjenta lub na podstawie szczególnych przepisów.

Oznacza to, że nawet jeśli przetwarzanie danych spełnia wymogi RODO, może być niedopuszczalne z punktu widzenia przepisów o tajemnicy zawodowej. W konsekwencji projekt AI musi być projektowany z uwzględnieniem obu reżimów prawnych równolegle.

Przykład 1.

Spółka technologiczna opracowuje system sztucznej inteligencji do wykrywania zmian nowotworowych na podstawie badań tomografii komputerowej i planuje pozyskać dane od kilku szpitali publicznych. Dane mają obejmować obrazy diagnostyczne oraz opisy lekarskie. Spółka nie jest jednostką naukową, lecz deklaruje, że projekt ma charakter badawczo-rozwojowy i w przyszłości doprowadzi do stworzenia wyrobu medycznego. Powstaje pytanie, czy szpitale mogą legalnie udostępnić takie dane. W przedstawionym stanie faktycznym dane stanowią dane dotyczące zdrowia w rozumieniu RODO, co oznacza, że ich przetwarzanie podlega zakazowi z art. 9 ust. 1 RODO, chyba że znajdzie zastosowanie jedna z przesłanek legalizujących. Spółka nie może bezpośrednio powołać się na art. 26 ust. 4 ustawy o prawach pacjenta, gdyż nie jest uczelnią ani instytutem badawczym. Możliwe jest jednak zorganizowanie projektu w taki sposób, aby formalnym odbiorcą danych był podmiot uprawniony, który następnie współpracuje ze spółką. Udostępnienie danych powinno nastąpić w formie uniemożliwiającej identyfikację pacjentów przez odbiorcę, co w praktyce wymaga zastosowania zaawansowanych technik anonimizacji lub deidentyfikacji. Jeżeli projekt nie spełnia przesłanek badań naukowych w rozumieniu RODO, konieczne może być uzyskanie zgód pacjentów. Dodatkowo szpitale jako administratorzy danych są zobowiązane do przeprowadzenia oceny skutków dla ochrony danych zgodnie z art. 35 RODO, a cały proces musi uwzględniać obowiązek zachowania tajemnicy lekarskiej.

AI Act i przyszłe ramy regulacyjne

Dodatkową warstwę regulacyjną wprowadza rozporządzenie 2024/1689 (AI Act), które ustanawia system klasyfikacji systemów AI według poziomu ryzyka. Systemy stosowane w medycynie często będą kwalifikowane jako systemy wysokiego ryzyka, zwłaszcza gdy stanowią element wyrobu medycznego lub są wykorzystywane do podejmowania decyzji dotyczących zdrowia pacjentów. Rozporządzenie to wprowadza liczne obowiązki dotyczące jakości danych treningowych, zarządzania ryzykiem oraz dokumentacji technicznej.

Wdrożenie AI Act ma charakter etapowy, co oznacza, że obowiązki wynikające z tego aktu będą wchodzić w życie stopniowo. Niemniej już obecnie należy uwzględniać jego wymogi przy projektowaniu systemów AI, w szczególności w zakresie jakości i reprezentatywności danych.

Data Act i dodatkowe obowiązki

Odrębną, lecz rosnącą w praktycznym znaczeniu ścieżką pozyskiwania danych medycznych do celów treningowych AI jest rozporządzenie Parlamentu Europejskiego i Rady (UE) 2023/2854 w sprawie zharmonizowanych przepisów dotyczących sprawiedliwego dostępu do danych i ich wykorzystywania (Data Act), stosowane od 12 września 2025 roku. Data Act reguluje dostęp do danych generowanych przez produkty skomunikowane – czyli urządzenia, które pozyskują, generują lub zbierają dane dotyczące swojego działania lub otoczenia i są w stanie komunikować te dane z otoczeniem. Jak wyraźnie wskazują motywy rozporządzenia, w zakresie pojęcia produktu skomunikowanego mieszczą się wyroby medyczne i zdrowotne wyposażone w moduły łączności.

Dla projektów AI medycznego kluczowe jest jednak to, że Data Act nie stanowi samodzielnej podstawy prawnej do przetwarzania danych osobowych.

Polecamy:

Samochody w firmie - zmiany w 2026 roku!

Jak legalnie pozyskać dane medyczne do trenowania AI? Poradnik prawny