Rozwój systemów sztucznej inteligencji (AI) jest jednym z najbardziej dynamicznych i przełomowych zjawisk współczesności, wpływającym na niemal każdą dziedzinę życia – od medycyny i edukacji, przez rynek pracy, po administrację publiczną i wymiar sprawiedliwości. Systemy AI umożliwiają przetwarzanie ogromnych ilości danych w krótkim czasie, identyfikowanie wzorców oraz podejmowanie decyzji w sposób szybki, efektywny, a nierzadko także autonomiczny. Ten postęp technologiczny niesie jednak ze sobą nie tylko obietnicę innowacji i usprawnień, lecz również poważne wyzwania – zwłaszcza w zakresie ochrony danych osobowych i prawa do prywatności.
W świecie, w którym dane stają się jednym z najcenniejszych zasobów, rośnie ryzyko ich niewłaściwego wykorzystywania – zarówno przez podmioty publiczne, jak i prywatne. Algorytmy uczące się na podstawie danych osobowych mogą bowiem prowadzić do profilowania, nieprzejrzystych decyzji opartych na automatycznym przetwarzaniu czy nawet dyskryminacji. W tym kontekście kluczowe znaczenie zyskują przepisy rozporządzenia Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych oraz uchylenia dyrektywy 95/46/WE - ogólne rozporządzenie o ochronie danych (Dz.Urz.UE.L 2016 Nr 119, str. 1), zwanego dalej “RODO”, które mają na celu zagwarantowanie poszanowania podstawowych praw jednostki w obliczu nowych technologii.
W niniejszym artykule podjęta zostanie próba analizy, w jaki sposób rozwój sztucznej inteligencji wpływa na ochronę danych osobowych, jakie zagrożenia wynikają z jej zastosowania, a także jakie środki prawne i techniczne mogą – i powinny – być wdrażane, aby zapewnić zgodność z RODO oraz ochronę prywatności w erze cyfrowej transformacji.
Czym są dane osobowe w kontekście AI?
Zgodnie z art. 4 pkt 1 RODO, dane osobowe to wszelkie informacje o zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej (momożliwa do zidentyfikowania osoba fizyczna to osoba, którą można bezpośrednio lub pośrednio zidentyfikować, w szczególności na podstawie identyfikatora takiego jak imię i nazwisko, numer identyfikacyjny, dane o lokalizacji, identyfikator internetowy lub jeden bądź kilka szczególnych czynników określających fizyczną, fizjologiczną, genetyczną, psychiczną, ekonomiczną, kulturową lub społeczną tożsamość osoby fizycznej).
W kontekście sztucznej inteligencji pojęcie to nabiera nowego wymiaru i staje się bardziej złożone. Systemy AI, zwłaszcza te oparte na modelach uczenia maszynowego i głębokiego uczenia (deep learning), przetwarzają ogromne zbiory danych, często różnorodnych i nieustrukturyzowanych. W takich przypadkach dane wykorzystywane do trenowania modeli mogą nie być bezpośrednio oznaczone jako dane osobowe, a mimo to – po zestawieniu ich z innymi informacjami – umożliwiać identyfikację konkretnych osób. Przykładem może być zbiór danych zawierający cechy biometryczne, wzorce zachowań, sposób pisania lub mówienia, które w połączeniu z innymi danymi kontekstowymi mogą jednoznacznie wskazać na konkretną jednostkę.
Europejska Rada Ochrony Danych (EROD) w swoich opiniach jednoznacznie wskazuje, że potencjalna trudność w zidentyfikowaniu osoby nie oznacza jeszcze, że dane nie mają charakteru osobowego. Istotne jest, czy możliwa jest identyfikacja osoby przy użyciu "rozsądnie prawdopodobnych środków", a nie wyłącznie samych danych źródłowych.
Co więcej, zaawansowane modele językowe i generatywne (jak np. chatboty czy systemy do tworzenia obrazów i tekstów) mogą generować treści, które – nieświadomie – wskazują na konkretne osoby, powielając fragmenty danych osobowych zawartych w zbiorach treningowych. Problem ten jest szczególnie istotny w kontekście przetwarzania danych wrażliwych (np. dane zdrowotne, wyznanie, orientacja seksualna), które podlegają szczególnej ochronie na mocy RODO.
Czy modele AI można uznać za anonimowe?
W dyskusji o ochronie danych często pojawia się pytanie: czy model AI, który został wytrenowany na danych osobowych, a następnie nie przechowuje tych danych jawnie, można uznać za anonimowy?
Zgodnie z opinią EROD nr 28/2024 w sprawie niektórych aspektów ochrony danych związanych z przetwarzaniem danych osobowych w kontekście modeli AI z dnia 17 grudnia 2024r., odpowiedź brzmi: nie zawsze. Anonimizacja to proces nieodwracalny – dane po anonimizacji nie powinny już dawać się powiązać z konkretną osobą. W przypadku modeli AI, które „uczą się” na danych, niemożliwe jest uznanie ich za anonimowe bez uprzedniego zbadania ich właściwości.
W szczególności należy zatem sprawdzić, czy:
- model może ujawnić dane osobowe poprzez odpowiednie zapytania;
- możliwe jest odtworzenie treści danych treningowych (np. poprzez tzw. „model inversion”);
- model może zostać wykorzystany do przewidywania informacji o osobach, które nie wyraziły na to zgody.
Jeśli takie zagrożenia istnieją – model nadal należy traktować jako przetwarzający dane osobowe.
Podstawa prawna przetwarzania danych do trenowania modeli AI
Administratorzy danych muszą posiadać odpowiednią podstawę prawną do przetwarzania danych osobowych, zgodnie z art. 6 ust. 1 RODO. Jedną z najczęściej stosowanych przesłanek w kontekście wdrażania rozwiązań opartych na sztucznej inteligencji jest prawnie uzasadniony interes administratora (art. 6 ust. 1 lit. f RODO). Odwołując się do tej podstawy, administrator zakłada, że przetwarzanie danych jest konieczne do realizacji jego uzasadnionych celów – np. rozwoju technologii, optymalizacji usług, czy poprawy bezpieczeństwa systemów informatycznych.
Jednak Europejska Rada Ochrony Danych (EROD) wielokrotnie podkreślała, że prawnie uzasadniony interes nie może być traktowany jako uniwersalna i automatyczna podstawa legalizująca przetwarzanie danych osobowych, szczególnie w przypadku systemów AI. Zgodnie z jej stanowiskiem, aby móc skutecznie powołać się na tę przesłankę, administrator musi przeprowadzić tzw. test równowagi interesów, w którym zestawia swój interes z prawami i wolnościami osób, których dane dotyczą.
W przypadku systemów AI przetwarzających dane na dużą skalę – często bez wiedzy, świadomości lub zgody osób, których dane są wykorzystywane – test ten wypada zwykle niekorzystnie dla administratora. Szczególne ryzyko pojawia się, gdy dane są wykorzystywane do profilowania, automatycznego podejmowania decyzji, lub gdy przetwarzane są dane wrażliwe. W takich sytuacjach prawnie uzasadniony interes może nie wystarczyć jako podstawa przetwarzania, ponieważ ingerencja w prywatność osób fizycznych może być zbyt głęboka i trudna do przewidzenia przez same podmioty danych.
EROD wskazuje również, że brak przejrzystości i trudność w zrozumieniu działania systemów AI dodatkowo utrudniają spełnienie obowiązków informacyjnych wynikających z art. 13 i 14 RODO, co jeszcze bardziej podważa zasadność opierania się wyłącznie na tej podstawie prawnej. W rezultacie, w wielu przypadkach bardziej adekwatną podstawą przetwarzania może być wyraźna zgoda osoby, której dane dotyczą, zwłaszcza gdy chodzi o nowe, niestandardowe zastosowania AI o potencjalnie istotnym wpływie na prawa jednostki.
Wnioski te prowadzą do istotnego przesłania dla podmiotów wdrażających systemy AI: prawnie uzasadniony interes musi być stosowany z dużą ostrożnością, a każdorazowo powinien być poparty analizą ryzyka, przejrzystością procesu oraz wnikliwym testem proporcjonalności i niezbędności przetwarzania danych. Niezastosowanie się do tych wymogów może skutkować nie tylko naruszeniem przepisów RODO, ale również utratą zaufania ze strony użytkowników.
DPIA – kluczowe narzędzie oceny ryzyka w systemach AI
Opinia 28/2024 Europejskiej Rady Ochrony Danych (EROD) wskazuje jednoznacznie, że w przypadku wdrażania systemów sztucznej inteligencji, które mogą prowadzić do wysokiego ryzyka dla praw i wolności osób fizycznych, administrator danych ma obowiązek przeprowadzenia oceny skutków dla ochrony danych osobowych (Data Protection Impact Assessment – DPIA), zgodnie z art. 35 RODO.
Systemy AI – z uwagi na swoją skalę, autonomiczność oraz zdolność do głębokiego analizowania i korelowania danych – często kwalifikują się jako rozwiązania wymagające DPIA. Dotyczy to w szczególności przypadków, w których dochodzi do:
- systematycznej, kompleksowej oceny czynników osobowych odnoszących się do osób fizycznych, która opiera się na zautomatyzowanym przetwarzaniu, w tym profilowaniu, i jest podstawą decyzji wywołujących skutki prawne wobec osoby fizycznej lub w podobny sposób znacząco wpływających na osobę fizyczną,
- przetwarzania na dużą skalę szczególnych kategorii danych osobowych, o których mowa w art. 9 ust. 1 RODO, lub danych osobowych dotyczących wyroków skazujących i czynów zabronionych, o czym mowa w art. 10 RODO lub
- systematycznego monitorowania na dużą skalę miejsc dostępnych publicznie.
Zgodnie z wytycznymi EROD, poprawnie przeprowadzona DPIA powinna zawierać co najmniej:
- systematyczny opis planowanych operacji przetwarzania i celów przetwarzania, w tym, gdy ma to zastosowanie – prawnie uzasadnionych interesów realizowanych przez administratora,
- ocenę, czy operacje przetwarzania są niezbędne oraz proporcjonalne w stosunku do celów,
- ocenę ryzyka naruszenia praw lub wolności osób, których dane dotyczą oraz
- środki planowane w celu zaradzenia ryzyku, w tym zabezpieczenia oraz środki i mechanizmy bezpieczeństwa mające zapewnić ochronę danych osobowych i wykazać przestrzeganie niniejszego rozporządzenia, z uwzględnieniem praw i prawnie uzasadnionych interesów osób, których dane dotyczą, i innych osób, których sprawa dotyczy.
W przypadkach, gdy ocena DPIA wskazuje na wysokie ryzyko, które nie może być odpowiednio zminimalizowane, administrator ma obowiązek skonsultowania się z organem nadzorczym (art. 36 RODO), zanim rozpocznie przetwarzanie.
Podkreślenia wymaga, że DPIA nie jest jedynie obowiązkiem formalnym – to narzędzie zarządzania ryzykiem, które umożliwia świadome i odpowiedzialne projektowanie oraz wdrażanie rozwiązań AI w sposób zgodny z przepisami i oczekiwaniami społecznymi. Regularne aktualizowanie DPIA, zwłaszcza w przypadku zmiany funkcjonalności systemu lub sposobu przetwarzania danych, stanowi dobrą praktykę i wyraz rozliczalności administratora.
Podsumowanie
Sztuczna inteligencja to nie tylko symbol postępu technologicznego i innowacyjności, lecz także źródło rosnącej odpowiedzialności po stronie podmiotów, które ją projektują i wdrażają. Korzyści płynące z wykorzystania AI – takie jak automatyzacja procesów, personalizacja usług czy poprawa efektywności działań – nie mogą przysłaniać faktu, że systemy te często operują na danych osobowych, a niekiedy ingerują głęboko w sferę prywatności jednostki. W związku z tym ich rozwój musi iść w parze z poszanowaniem podstawowych praw człowieka, w tym prawa do ochrony danych osobowych.
Wdrożenie systemów AI nie może odbywać się kosztem prywatności osób, których dane są przetwarzane. Europejska Rada Ochrony Danych w opinii 28/2024 jednoznacznie podkreśla, że systemy sztucznej inteligencji muszą być zgodne z przepisami RODO na każdym etapie ich funkcjonowania – od projektowania, przez trening modelu, po jego wykorzystanie w praktyce. W praktyce oznacza to natomiast konieczność nie tylko przestrzegania przepisów, ale również działania w duchu etycznego rozwoju technologii. To wyzwanie nie tylko dla legislatorów i organów nadzorczych, ale przede wszystkim dla twórców i użytkowników systemów AI, którzy muszą świadomie projektować swoje rozwiązania z myślą o człowieku – jego godności, autonomii i prawie do prywatności.