Odpowiedzialna Sztuczna Inteligencja jako ramy zamówień AI

– PERSPEKTYWA SEKTORA PUBLICZNEGO W NORWEGII

Artykuł stanowi tłumaczenie tekstu autorstwa Ley Muller (Women in AI Governance w Norwegii) oraz Christophera J. Rose’a (Center for Epidemic Interventions Research oraz Cluster for Health oraz Social Care Interventions, Norwegian Institute of Public Health w Norwegii), przygotowane na potrzeby publikacji w języku polskim. Artykuł został pierwotnie opublikowany w czasopiśmie „Foreningen INIO”.

Podziękowania dla Ley Muller oraz Christophera J. Rose’a za wkład w pierwotną wersję artykułu.

Tłumaczenie: Gabriela Bar[1]

Pozyskiwanie technologii AI w sektorze publicznym jest złożone i obarczone istotnymi ryzykami. Artykuł wskazuje trzy kluczowe zagrożenia związane z wykorzystaniem dużych modeli językowych oraz pokazuje, jak zasady „odpowiedzialnej AI” (Responsible AI) mogą pomóc organizacjom w ich świadomym i etycznym wdrażaniu. Na końcu przedstawiono zestaw pytań, które warto zadać dostawcom

Wstęp

Norweski sektor publiczny znajduje się pod silną presją, aby „wdrażać AI”. Minister ds. cyfryzacji i administracji publicznej wyznaczył cel, zgodnie z którym do końca 2025 r. 80% podmiotów sektora publicznego miało korzystać z AI. Komisja Europejska ogłosiła jakiś czas temu strategię „AI-first” obejmującą wszystkie główne sektory oraz promuje szerokie wdrażanie AI. Wielu dostawców systemów archiwalnych i zarządzania dokumentacją również zapowiada przejście na rozwiązania „AI-first”.

Jednak pojęcie „sztucznej inteligencji” obejmuje wiele różnych technologii, a nadmierne oczekiwania wobec AI mogą przesłaniać rzeczywiste ryzyka. Duże modele językowe (LLM) znajdują się na szczycie krzywej hype’u i stanowią formę AI najczęściej wykorzystywaną przez instytucje publiczne w Norwegii (Rambøll, 2025).

Odwołując się do opracowania Parlamentu Europejskiego dotyczącego ryzyk związanych z AI w sektorze publicznym (Tjerk, Van Veenstra i Bodea, 2021), niniejszy artykuł analizuje trzy podstawowe ryzyka, z jakimi mierzą się archiwiści i specjaliści zarządzania informacją przy korzystaniu z LLM: stronniczość, brak przejrzystości i wyjaśnialności oraz wykluczenie.

Na zakończenie przedstawiono propozycje dotyczące tego, w jaki sposób podmioty sektora publicznego mogą stosować zasady „odpowiedzialnej AI” w procesach zamówień, w tym przykładowe pytania do dostawców tej technologii dotyczące wymagań funkcjonalnych.

„Korzystanie z AI” w archiwistyce i zarządzaniu informacją

Po pierwsze warto odpowiedzieć na pytanie: co właściwie rozumiemy przez „korzystanie z AI”? Nie istnieje jedna powszechnie uzgodniona definicja sztucznej inteligencji, jednak większość międzynarodowych ram opisuje AI jako zbiór różnych technologii. Wspólną ich cechą jest wykonywanie zadań takich jak interpretacja, predykcja czy generowanie – zadań tradycyjnie przypisywanych ludzkiej inteligencji.

W niniejszym artykule pojęcie AI odnosi się do wykorzystania dużych modeli językowych (Large Language Models, LLM). LLM to rodzaj AI, który umożliwia komputerom przetwarzanie i generowanie języka naturalnego – języka, którym posługują się ludzie w mowie i piśmie – zamiast liczb lub innych typów danych. Modele te są zaprojektowane tak, aby identyfikować statystyczny rozkład słów, które z największym prawdopodobieństwem nastąpią po słowach (tzw. „prompt”), wprowadzonych przez człowieka (lub potencjalnie przez inny LLM). Odpowiedź modelu jest próbkowana z tego rozkładu.

Ta niedeterministyczna właściwość wyjaśnia, dlaczego identyczne lub różne prompty mogą prowadzić do odmiennych odpowiedzi oraz dlaczego LLM mogą „halucynować” (tj. generować nieprawidłowe odpowiedzi). Model nie zawiera wbudowanego „obiektywnego punktu odniesienia” (ground truth), a LLM nie są projektowane w celu dostarczania odpowiedzi poprawnych lub opartych na faktach. Kwestia ta zostanie ponownie omówiona przy opisie ryzyka nr 2.

Część lingwistów komputerowych preferuje określanie takich modeli mianem „generatorów syntetycznego tekstu” (synthetic text extruders), aby przeciwdziałać tendencji do przypisywania inteligencji i intencjonalności narzędziu operującemu językiem (Bender i Hanna, 2025; Bender, 2025). Twórca pierwszego na świecie chatbota, ELIZA, przez znaczną część swojej kariery ostrzegał przed przypisywaniem personifikowaniem chatbotów: ludzie mają wyraźną trudność z pamiętaniem, że byt konwersacyjny nie musi posiadać inteligencji (Shrager, 2025).

Z LLMami mamy do czynienia poprzez interfejsy chatbotów (np. ChatGPT, Claude, Perplexity), tzw. „asystentów” zintegrowanych z oprogramowaniem (np. MS Copilot) oraz funkcje tworzone na zamówienie, które streszczają, przepisują lub redagują tekst. LLMy są również wykorzystywane jako komponenty agentów AI, jednak zagadnienie to wykracza poza zakres tego artykułu.

Sektor archiwalny opiera się w dużej mierze na pracy z tekstem. Wykorzystanie LLMów zazwyczaj oznacza, że człowiek czyta lub tworzy mniej tekstu samodzielnie. Może to stanowić funkcję bezpośrednią lub element szerszego narzędzia bądź procesu:

LLM może streszczać jeden lub wiele dokumentów, aby archiwista nie musiał czytać ich w całości,
LLM może proponować tytuły dla dokumentów, które ich nie posiadają,
pracownik archiwum może korzystać z chatbota, aby zadawać pytania dotyczące przepisów lub procedur,
pracownik może korzystać z chatbota w celu uzyskania wskazówek dotyczących obsługi cyfrowego systemu archiwalnego, na podstawie dokumentacji dostawcy,
LLM może proponować lub uzupełniać brakujące metadane na podstawie treści dokumentu,
LLM może przypisywać niezarejestrowane dokumenty do spraw na podstawie ich treści,
LLM może grupować sprawy lub dokumenty tematycznie, umożliwiając pracownikowi przetwarzanie podobnych spraw w określonych częściach.

Korzystanie z LLM nie musi oznaczać automatyzacji całego procesu, tj. wyeliminowania z niego człowieka. W praktyce jednak znaczna oszczędność czasu wynika z tego, że użytkownik czyta lub pisze mniej tekstu, co oznacza, że przynajmniej część jego pracy jest już wykonywana przez AI.

Szczególnej uwagi wymaga wykorzystanie AI w procesach decyzyjnych, zwłaszcza w formie zautomatyzowanego podejmowania decyzji, które wiąże się z podwyższonym ryzykiem i bardziej rygorystycznymi wymogami regulacyjnymi. W odpowiedzi na te wymogi stosuje się model human-in-the-loop, zakładający udział człowieka, który formalnie podejmuje ostateczną decyzję na podstawie wyników generowanych przez LLM. W praktyce jednak udział człowieka może być pozorny. Przy dużej skali pracy i presji efektywności użytkownicy często bezrefleksyjnie akceptują sugestie systemu. W efekcie decyzje są faktycznie kształtowane przez AI, choć formalnie przypisuje się je człowiekowi.

Ryzyko 1: Stronniczość i dyskryminacja

Pierwszym ryzykiem wskazanym przez Komisję Europejską jest stronniczość i dyskryminacja. W tym ujęciu „stronniczość” nie oznacza klasycznego pojęcia z zakresu uczenia maszynowego – czyli odchylenia między danymi treningowymi a wynikami – lecz brak bezstronności: sytuację, w której model generuje treści niepożądane lub sprzeczne z przyjętymi normami społecznymi. Stronniczość jest więc cechą systemu, natomiast dyskryminacja – jej przejawem w działaniu.

Jak może to wyglądać w praktyce?

Różna jakość: streszczenia generowane przez LLM w Bokmål i języku angielskim są często płynne i wysokiej jakości, podczas gdy w Nynorsk lub północnym Saami są wyraźnie słabsze. Wynika to z niedostatecznej reprezentacji tych języków w danych treningowych.
Stronnicze sugestie metadanych lub klasyfikacji: LLM mogą mieć trudności z klasyfikowaniem dokumentów dotyczących niedostatecznie reprezentowanych grup, wydarzeń lub tematów. Skutkiem może być błędna klasyfikacja lub preferowanie „prostszych” danych.
Stronnicze ujmowanie spraw: streszczenia i sugestie mogą prowadzić do zniekształconego obrazu, zależnego od tego, czego i w jaki sposób model się nauczył.
Nowe formy dyskryminacji: badania wskazują, że pracownice korzystające z LLM są oceniane bardziej negatywnie niż ich koledzy używający tych samych narzędzi (Acar i in., 2025). Nie wynika to koniecznie ze stronniczości samego modelu, lecz z utrwalonych oczekiwań płciowych w miejscu pracy, które są reprodukowane przy wykorzystaniu LLM. Ten typ stronniczości określany jest jako niedopasowanie systemowe (misalignment).
Dwupoziomowa struktura zatrudnienia: grupa „pro-AI”, która szybko adaptuje narzędzia i jest za to nagradzana, oraz osoby bardziej ostrożne – z powodu sceptycyzmu lub braku odpowiedniego przygotowania.

Dlaczego tak się dzieje w przypadku LLMów?

LLMy cieszą się popularnością, ponieważ sprawiają wrażenie zdolnych do wypowiadania się na dowolny temat, dzięki ogromnym zbiorom danych treningowych. Jednak „nie ma AI bez danych” (Gröger, 2021), a modele językowe nie istnieją bez Internetu. I to właśnie stanowi źródło problemu (Bender i in., 2021).

Wcześniejsze modele językowe trenowano na mniejszych, starannie dobranych zbiorach danych. Wraz z rozpoczęciem wyścigu o stworzenie największego modelu, twórcy zaczęli bezkrytycznie pozyskiwać dane z całego Internetu, w tym treści niskiej jakości i obciążone uprzedzeniami. W efekcie LLM są w stanie odnosić się do większej liczby tematów, ale jednocześnie odzwierciedlają uprzedzenia obecne w przestrzeni internetowej, zwłaszcza w mediach społecznościowych.

Wszystkie modele językowe generują teksty podobne do tego, na czym zostały wytrenowane. Problem nie polega zatem na tym, że model „jest” uprzedzony, lecz na tym, że uprzedzone są źródła, na których został wytrenowany, czyli treści wytworzone przez ludzi. Badania przeglądowe wskazują, że LLMy reprodukują stereotypy dotyczące płci, mniejszości etnicznych i dominujących ideologii (zob. Haque i in., 2025; Lin i in., 2024; Bender i in., 2021).

Jak pokażemy w części dotyczącej ryzyka nr 3, LLM sprzyjają „spłaszczaniu” różnorodności, ograniczając m.in. reprezentację mniejszości kulturowych i językowych. W sytuacji dominacji języka angielskiego w Internecie język norweski może stać się językiem mniejszościowym nawet w kontekście krajowym (Kummervold i in., 2021). Analogicznie, gdy sektor publiczny jest zdominowany przez Bokmål, języki Nynorsk i Saami stają się językami mniejszościowymi (Øyen i Nyttingnes, nr 1/2024).

Walderhaug i Sødring (2024) ujmują to następująco: „dysponujemy obecnie narzędziami zdolnymi do przetwarzania i wykorzystywania źródeł tekstowych na poziomie wcześniej niespotykanym.” Tym bardziej należy pamiętać, że bez świadomej uwagi i testowania uprzedzenia są reprodukowane szybciej i na większą skalę.

Co więcej, LLM same generują dziś ogromne ilości nowych treści w Internecie. W efekcie przechodzimy od zasady „garbage in, garbage out” do „garbage in, garbage out, and back in again” – samowzmacniającej się pętli, która dodatkowo pogarsza jakość (Luo, 2024; Bender i in., 2021; Chen i in., 2025).

Środki w ramach „odpowiedzialnej AI”

Uwzględnianie ryzyka stronniczości od początku: istnieją metody pomiaru stronniczości w zbiorach danych. Zróżnicowane grupy użytkowników często potrafią identyfikować ją jakościowo.
Pokrycie językowe i kontekst lokalny: technologia musi obsługiwać wszystkie istotne języki i dialekty. Jeżeli archiwum obsługuje użytkowników posługujących się północnym Saami, technologia powinna być trenowana i testowana w tym języku. Zasada uniwersalnego projektowania ma zastosowanie również do AI – systemy muszą uwzględniać pełne spektrum ludzkich zdolności, kompetencji i potrzeb.
Zaangażowanie interesariuszy: osoby dotknięte działaniem technologii powinny uczestniczyć w jej projektowaniu i testowaniu. Archiwiści, pracownicy merytoryczni oraz przedstawiciele mniejszości powinni brać udział w warsztatach etycznych lub testach.
Testowanie adwersarialne (adversarial testing): należy sprawdzać, czy rozwiązanie można „złamać”, np. skłonić do generowania treści stronniczych lub niebezpiecznych. Należy żądać od dostawcy wyników takich testów. Można również przeprowadzić testy samodzielnie: czy chatbot reaguje inaczej na pytania dotyczące „Hansa” niż „Mohammeda”? Jeśli niewielka grupa testowa jest w stanie wywołać stronnicze zachowanie, użytkownicy również będą w stanie to zrobić.
Czy LLM jest rzeczywiście potrzebny? Mniejsze, wyspecjalizowane modele językowe mogą być równie użyteczne, potencjalnie przy mniejszej stronniczości i większej kontroli. Możliwe, że nastąpi powrót do bardziej precyzyjnych, lokalnych modeli w miejsce wykorzystania jednego uniwersalnego rozwiązania.

Ryzyko 2: Brak przejrzystości i wyjaśnialności

Bez wykorzystania AI lub modeli językowych archiwiści i specjaliści zarządzania informacją opierają decyzje na wiedzy eksperckiej oraz znajomości przepisów prawa lub regulacji wewnętrznych. Gdy decyzje są kwestionowane, mogą wskazać procedury i przepisy wyjaśniające, w jaki sposób i dlaczego dana decyzja została podjęta. Procesy te – przyswajanie prawa, analiza sprawy, sporządzanie opisu – mają w dużej mierze charakter tekstowy.

Gdy do usprawniania tych zadań wykorzystywane są LLMy, często poprzez ograniczenie ilości tekstu przetwarzanego manualnie, trudniejsze staje się wyjaśnienie i udokumentowanie decyzji. Wynika to z faktu, że LLMy generują tekst brzmiący wiarygodnie, lecz niegwarantujący prawdziwości. Im bardziej archiwista integruje wyniki modelu językowego ze swoim przepływem pracy, tym większa spoczywa na nim odpowiedzialność za wyjaśnienie, w jaki sposób (i dlaczego) wykorzystano te wyniki: jaki tekst został użyty jako dane wejściowe? Którego modelu użyto?

Problem nie dotyczy tylko trudności w wyjaśnianiu działania samych LLMów – choć takie trudności istnieją – lecz ryzyka, że wykorzystanie LLMów w procesach roboczych utrudnia dokumentowanie i odtwarzanie sposobu podjęcia decyzji. Zagadnienia te są ze sobą powiązane. Jak wskazano w opracowaniu Parlamentu Europejskiego prawo do uzyskania wyjaśnienia decyzji staje się trudniejsze do realizacji wraz ze wzrostem wykorzystania AI oraz algorytmów typu „black box” w procesach wspomagania lub automatyzacji podejmowania decyzji.

Jak może to wyglądać w praktyce?

Niewidoczny wpływ: chatbot zintegrowany z systemem archiwalnym sugeruje, że załącznik do wiadomości e-mail powinien zostać sklasyfikowany jako „wyłączony z dostępu publicznego”. Zajęty archiwista akceptuje sugestię. Gdy mieszkaniec później występuje o dostęp, archiwista nie potrafi wyjaśnić, dlaczego załącznik został wyłączony. Jeśli sugestia była błędna – kto ponosi odpowiedzialność: archiwista czy dostawca systemu AI?
Zmiany niemożliwe do prześledzenia: gmina wdraża narzędzie oparte na LLM, które odczytuje niezarejestrowane dokumenty i nadaje tytuły tym, które ich nie posiadają. Narzędzie działa nocą i przetwarza tysiące rekordów, pomagając ograniczyć zaległości. Po kilku miesiącach wykryty zostaje błąd, lecz brak jest rejestru zmian i informacji o użytej wersji modelu.
Trudności audytowe: norweska ustawa archiwalna wprowadza rygorystyczne wymogi, aby wszystkie informacje wykorzystywane w procesach decyzyjnych, w tym metadane, „fragmenty danych” oraz sugestie generowane przez AI, były archiwizowane i podlegały audytowi. W sytuacji zaangażowania wielu dostawców pojawia się pytanie, kto faktycznie odpowiada za realizację tych wymogów.

Dlaczego to ma znaczenie?

Można pokusić się o stwierdzenie, że archiwiści i specjaliści zarządzania dokumentacją są strażnikami rozliczalności w demokratycznym państwie prawa. Dzięki ich pracy świadczenie usług publicznych jest dokumentowane w sposób przejrzysty, zrozumiały i podlegający kontroli. To z kolei zapewnia każdemu obywatelowi prawo do uzyskania informacji, w jaki sposób decyzja została podjęta, kto ją podjął, na jakiej podstawie oraz jak można się od niej odwołać.

W opisie ryzyka nr 1 wskazano, że stronniczość danych treningowych jest jedną z konsekwencji skali danych, na których opierają się LLMy. Inną konsekwencją są tzw. „halucynacje” – wyniki, które wydają się poprawne, lecz takie nie są. Nawet najwięksi uczestnicy rynku AI przyznają obecnie, że jest to immanentna cecha modeli językowych, a nie wada, którą można wyeliminować (Kalai i in., 2025). Kluczowe jest zatem zrozumienie, że duże modele językowe nie generują faktów – generują tekst, który imituje dane treningowe, w tym ogromne zasoby informacji dostępnych w Internecie, zarówno błędnych jak i rzetelnych.

Nowa norweska ustawa o administracji publicznej, art. 22 RODO oraz art. 86 AI Act przyznają jednostkom prawo do uzyskania wyjaśnień, które są zrozumiałe i nietechniczne, w przypadku decyzji podejmowanych w sposób zautomatyzowany. W praktyce prowadzi to do napięcia między obowiązkiem wyjaśnialności a wykorzystaniem narzędzi, których wyniki nie mają gwarancji poprawności.

Środki w ramach „odpowiedzialnej AI”

Przejrzystość modeli: dostawcy powinni dokumentować zbiory danych (treningowe. walidacyjne i testowe) oraz respektować prawa autorskie. W odniesieniu do części dostawców jest to wymóg wynikający z prawa UE.
Przejrzystość wykorzystania: użycie technologii AI w procesie musi być jednoznacznie komunikowane. Użytkownicy nie powinni mieć wątpliwości, czy komunikują się z maszyną. Wyniki generowane przez AI nie mogą być mylone z wkładem człowieka.
Wyjaśnialność decyzji: podmioty publiczne muszą zapewniać zrozumiałe wyjaśnienia sposobu podjęcia decyzji oraz jej merytoryczne uzasadnienie. Przykład: „Nasze narzędzie AI zasugerowało klasyfikację X z uwagi na A, B i C. Pracownik dokonał weryfikacji i potwierdził tę klasyfikację.”
Nadzór człowieka i odpowiedzialność: narzędzia AI muszą pozwalać na ostateczną decyzję człowiekowi – i musi to być rzeczywista, a nie wyłącznie formalna kontrola. Personel powinien być szkolony w zakresie rozpoznawania i ograniczania nadmiernego polegania na wynikach AI (overreliance), co wymaga zarówno odpowiedniej kultury organizacyjnej, jak i rozwijania kompetencji krytycznej oceny. Z perspektywy prawnej odpowiedzialność za decyzje zawsze spoczywa na organizacji, jednak jeśli decyzja organizacji opiera się na wynikach generowanych przez LLM, konieczne jest wyraźne przypisanie ról i zakresów odpowiedzialności z nimi związanych.

Ryzyko 3: Dehumanizacja i wykluczenie

Jak wskazali Øyen i Nyttingnes (2024), archiwa publiczne są instytucjami demokratycznymi o fundamentalnym znaczeniu, kluczowymi dla dokumentowania i zapewnienia dostępności wiedzy o społeczeństwie, przeszłości, teraźniejszości i przyszłości. Haraldsen (2021, nr 2) zachęcał do przyjęcia perspektywy, zgodnie z którą w pełni cyfrowe archiwa zmienią podział zadań między pracownikami merytorycznymi a archiwistami, przesuną punkt ciężkości z obsługi retrospektywnej na bardziej proaktywne zarządzanie dokumentacją oraz przekształcą sposoby śledzenia i udostępniania informacji.

Niezależnie od szczegółowych podziałów ról czy definicji danych, to archiwa publiczne odpowiadają za integralność dokumentacji, a tym samym za budowanie zaufania między obywatelami a państwem. Zaufanie to opiera się na pogłębionym rozumieniu przez archiwistów funkcjonowania administracji publicznej oraz znajomości całej populacji, w tym grup mniejszościowych, które historycznie – i często nadal – pozostają niedostatecznie reprezentowane w dokumentacji.

Jak może to wyglądać w praktyce?

Homogenizacja i wykluczenie różnorodności: treści archiwalne mogą ulegać coraz większemu ujednoliceniu, jeśli LLMy są wykorzystywane do masowego wyszukiwania, streszczania i upraszczania dokumentów. Historie i grupy już niedostatecznie reprezentowane mogą zostać dodatkowo zmarginalizowane. Øyen i Nyttingnes (2024) wskazują na mniejszości narodowe, natomiast Jensen (2024, nr 1) zwraca uwagę na osoby LGBTQ+.
Sztywne „ścieżki standardowe”: LLMy bardzo dobrze generują tekst sprawiający wrażenie racjonalnego i dobrze napisanego, lecz słabo radzą sobie z mniej powszechnymi językami, stylami i formatami. Narzędzia oparte na LLMach mają zatem tendencję do wymuszania dopasowania nietypowych dokumentów i spraw do standardowych szablonów. Peters i Chin-Yee (2025) określają to jako „nadmierną generalizację” (overgeneralisation). Prowadzi to do ograniczenia przestrzeni dla wyjątków, uznaniowości oraz indywidualnych przypadków. Gdy pracownicy merytoryczni i archiwiści tracą doświadczenie w obsłudze spraw złożonych lub nietypowych, spada jakość usług świadczonych na rzecz grup częściej występujących w takich „przypadkach brzegowych”, np. osób posługujących się językami mniejszościowymi czy obywateli słabiej reprezentowanych w systemach publicznych.
Zmiana roli i utrata kompetencji: rola archiwisty może stopniowo ograniczać się do zatwierdzania sugestii generowanych przez LLM, zamiast opierać się na samodzielnym stosowaniu profesjonalnego osądu oraz wykonywaniu klasyfikacji i oceny.
Stronniczość automatyzacji przedstawiana jako wsparcie decyzyjne: organizacje mogą deklaratywnie utrzymywać model human-in-the-loop, podczas gdy w praktyce stopniowo uzależniają się od sugestii AI. Dostawcy mogą prezentować narzędzia AI jako wsparcie decyzji, lecz przy dużej presji pracy i nadmiarze zadań naturalne staje się akceptowanie rekomendacji systemu. W takiej sytuacji realna kontrola człowieka zanika, ale odpowiedzialność nadal pozostaje przypisana pracownikowi.

Dlaczego to ma znaczenie?

Øyen i Nyttingnes wskazują, że etyczna praktyka archiwalna wymaga aktywnego zaangażowania wobec osób reprezentowanych w dokumentacji, a nie zdystansowanej, abstrakcyjnej automatyzacji. Osłabienie, pominięcie lub marginalizacja tego zaangażowania zagraża relacji między jednostką a administracją publiczną.

Przepływy pracy oparte na LLM, które eliminują lub zaciemniają rolę ludzkiego osądu w dokumentowaniu doświadczeń mniejszości, pozostają w bezpośredniej sprzeczności z praktyką archiwalną opartą na dialogu i współtworzeniu. Grupa ekspertów Komisji Europejskiej wiąże to z ryzykiem naruszenia praw podstawowych, w szczególności zasady równości, niedyskryminacji i solidarności, w tym praw osób zagrożonych wykluczeniem.

Ryzyka te bezpośrednio podważają zaufanie. Obywatele oczekują, że decyzje sektora publicznego będą możliwe do wyjaśnienia i uzasadnienia. Jeśli archiwista nie potrafi wskazać podstawy klasyfikacji, ograniczając się do stwierdzenia, że „tak wskazał system”, podważa to wiarygodność jego działania.

Jednocześnie utrudnia to uczenie się organizacji. Bez zrozumienia przyczyn błędów nie da się usprawniać procesów. W praktyce prowadzi to do sytuacji, w której odpowiedzialność za decyzje wspierane przez AI pozostaje po stronie ludzi i instytucji, nawet jeśli nie mają oni realnej kontroli nad ich przebiegiem

Środki w ramach „odpowiedzialnej AI”

Projektowanie zorientowane na człowieka i nadzór: systemy powinny być projektowane wokół potrzeb archiwistów, a nie odwrotnie. Narzędzia powinny wspierać, a nie zastępować profesjonalny osąd. Ocena dokonywana przez człowieka musi odgrywać rzeczywistą rolę we wszystkich procesach, zwłaszcza tam, gdzie występuje wrażliwość kulturowa, kontekst historyczny lub przypadki złożone i nietypowe. Należy unikać założeń projektowych, które bezkrytycznie utożsamiają automatyzację z poprawą jakości.
Zaangażowanie interesariuszy: w proces tworzenia i oceny narzędzi archiwalnych wspieranych przez AI należy włączać grupy zagrożone wykluczeniem – bezpośrednio lub pośrednio. Przypadki nietypowe lub „odbiegające od normy” powinny być traktowane jako wartościowe, a nie jako odchylenia.
Etyczne określenie ról i ochrona kompetencji zawodowych: należy jasno określić zakres odpowiedzialności zawodowej, którego nie można delegować na AI. Osąd i doświadczenie archiwistów muszą pozostać rozstrzygające w procesach oceny i podejmowania decyzji.
Przeciwdziałanie nadmiernej generalizacji: należy wdrażać zabezpieczenia przed nadmierną generalizacją poprzez projektowanie systemów AI, które identyfikują – zamiast upraszczać – przypadki nietypowe lub złożone oraz odpowiadające im procesy. Złożoność, sprzeczności oraz niestandardowe przypadki powinny być traktowane jako wartościowy zasób archiwalny. Kryteria oceny powinny premiować właściwe traktowanie wyjątków, a nie wyłącznie efektywne przetwarzanie przypadków typowych.

Zgodność z AI Act to za mało

Rozporządzenie UE w sprawie sztucznej inteligencji (AI Act) klasyfikuje systemy AI według poziomu ryzyka oraz nakłada bardziej rygorystyczne wymogi na dostawców i podmioty stosujące systemy AI wysokiego ryzyka (high-risk AI). Wszystkie systemy AI wprowadzane na rynek UE będą musiały zostać poddane ocenie ryzyka przez dostawcę w oparciu o ich konkretne i zamierzone zastosowania. Nie jest zatem możliwe oznaczenie systemu, np. jako „minimalnego ryzyka”, bez analizy sposobu jego wykorzystania.

AI Act nie przypisuje systemom AI automatycznie statusu wysokiego lub ograniczonego ryzyka, lecz uzależnia kwalifikację od konkretnego zastosowania. Jednocześnie wskazuje obszary, w których ryzyko co do zasady uznaje się za wysokie, w szczególności w kluczowych usługach publicznych, takich jak ochrona zdrowia, zatrudnienie czy wymiar sprawiedliwości.

W tych obszarach systemy AI będą kwalifikowane jako wysokiego ryzyka zwłaszcza wtedy, gdy mają istotny wpływ na wynik procesu decyzyjnego lub zastępują ocenę dokonywaną przez człowieka. Nie dotyczy to jednak rozwiązań o charakterze pomocniczym, które nie stwarzają znaczącego ryzyka dla zdrowia, bezpieczeństwa lub praw podstawowych, np. systemów wykonujących wąsko określone zadania proceduralne, wspierających uprzednio zakończoną ocenę lub realizujących funkcje przygotowawcze.

W praktyce dostawcy często opisują swoje rozwiązania jako narzędzia wspomagające decyzje, oferujące jedynie sugestie i rekomendacje, aby wykazać, że system nie wywiera istotnego wpływu np. na prawa podstawowe. Taka kwalifikacja może pozwolić uniknąć reżimu systemów wysokiego ryzyka, które podlegają rygorystycznym wymogom w zakresie testowania, dokumentacji, nadzoru i monitorowania, podczas gdy systemy o ograniczonym ryzyku objęte są głównie obowiązkami przejrzystości i oznakowania.

Warto przy tym zauważyć, że większość archiwistów nie działa bezpośrednio w obszarach wskazanych jako wysokiego ryzyka, co w praktyce sprzyja klasyfikowaniu stosowanych przez nich narzędzi jako rozwiązań o ograniczonym ryzyku.

Istotnym uzupełnieniem regulacji systemów high-risk AI jest objęcie rosnącego wykorzystania i wpływu LLM przepisami dotyczącymi „modeli AI ogólnego przeznaczenia” (GPAIS). Modele te nie mają jednego, określonego celu i mogą realizować szeroki zakres zadań, niezależnie od sposobu ich udostępnienia na rynku (art. 3 pkt 63 AI Act). Motyw 99 preambuły rozporządzenia wprost wskazuje, że duże generatywne modele AI są typowym przykładem modelu AI ogólnego przeznaczenia, biorąc pod uwagę, że umożliwiają elastyczne generowanie treści, np. w postaci tekstu, dźwięku, obrazów lub materiałów wideo, i mogą z łatwością wykonywać szeroki zakres różnych zadań. Wiele z LLMów będzie również klasyfikowana jako modele AI ogólnego przeznaczenia z ryzykiem systemowym (art. 51 AI Act), ze względu na zdolności dużego oddziaływania.

AI Act koncentruje się przede wszystkim na zapewnieniu zgodności dostawców systemów AI wysokiego ryzyka z wymogami regulacyjnymi. Z doświadczenia wynika jednak, że dostawcy systemów AI takich jak chatboty oparte na LLM, wykorzystywane do wspomagania decyzji lub systemy oceniające zasadność wyłączenia dokumentów z dostępu publicznego, klasyfikują je jako systemy „ograniczonego ryzyka”. W odniesieniu do zamówień i wykorzystania takich systemów istnieje niewiele konkretnych wytycznych, co w praktyce pozostawia istotną część decyzji po stronie zamawiających i zwiększa ryzyko niejednolitego podejścia, niedoszacowania ryzyk oraz nadmiernego polegania na deklaracjach dostawców. Tymczasem również tego rodzaju systemy mogą wiązać się z ryzykami stronniczości, dyskryminacji, braku przejrzystości i wyjaśnialności, dehumanizacji oraz wykluczenia. Z tego względu stosowanie jasnego zestawu zasad „odpowiedzialnej AI” lub zasad etycznych AI może mieć istotną wartość.

Wykorzystanie zamówień do egzekwowania zasad „odpowiedzialnej AI”

Wsparcie podmiotów sektora publicznego w opracowywaniu wytycznych oraz programów szkoleniowych dotyczących odpowiedzialnego wykorzystania AI jest procesem złożonym i rozłożonym w czasie. Istnieje jednak obszar, w którym działania można podjąć relatywnie szybko – jest nim strategiczne wykorzystanie procesu zamówień jako instrumentu kształtowania wymagań wobec technologii i dostawców. W tym kontekście zasady Responsible AI powinny być przekładane na konkretne wymagania jakościowe właśnie na etapie, w którym sektor publiczny dysponuje realną siłą negocjacyjną – czyli przy formułowaniu wymagań funkcjonalnych oraz oczekiwań wobec dostawców.

Unia Europejska określiła siedem zasad mających zapewnić, że AI jest godna zaufania (High-Level Expert Group, Guidelines on Trustworthy AI, 2019). W poniższej tabeli przedstawiono przykładowe pytania, które podmioty publiczne mogą kierować do dostawców. Dostawcy powinni udzielać odpowiedzi na te pytania obok dokumentowania zgodności z AI Act, RODO, ustawą o administracji publicznej oraz ustawą archiwalną.

Wymagania zapewniające „odpowiedzialną AI”	Przykładowe pytania lub wymagania wobec dostawcy
Sprawczość i nadzór człowieka	Jak użytkownicy są informowani o wykorzystaniu AI i jakiej technologii to dotyczy? Które decyzje wcześniej podejmowane przez ludzi są obecnie zautomatyzowane? W jaki sposób użytkownicy mogą zmienić lub skorygować decyzje automatyczne? W jaki sposób można kwestionować decyzje? Czy przeprowadzono ocenę wpływu na prawa podstawowe? Jeśli nie – dlaczego? W jaki sposób zbierane są informacje zwrotne dotyczące potencjalnych naruszeń praw? Czy system może automatycznie kierować przypadki o niskim poziomie pewności lub wrażliwe do manualnej weryfikacji?
Solidność i bezpieczeństwo	Jak definiują Państwo minimalne wymagania dotyczące wydajności? Co oznacza „wystarczająco dobre”? Jakie testy bezpieczeństwa zostały przeprowadzone, w szczególności w odniesieniu do technologii LLM? Jak system wypada na tle konkurencji? Jak często powtarzane są testy przy aktualizacjach modeli i co dzieje się w przypadku pogorszenia wyników? Które mechanizmy bezpieczeństwa z modelu bazowego zostały zachowane, a które zmienione?
Przejrzystość i identyfikowalność	Proszę przedstawić przykład, w którym wynik AI można prześledzić do danych wejściowych i kontekstu. Czy można oczekiwać, że te same dane wejściowe wygenerują ten sam wynik? Proszę pokazać, w jaki sposób proces: dane wejściowe → procedura → wersja modelu → wynik → działanie człowieka może być rejestrowany i eksportowany do celów audytu. W jaki sposób treści generowane przez AI są oznaczane w interfejsie i w archiwum? Czy oznaczenia są przenoszone wraz z treścią do systemu archiwalnego (np. jako metadane)? W jaki sposób utrzymywane są logi wejścia/wyjścia oraz jak chronione są w nich dane osobowe? Czy wersja modelu może zostać „zamrożona” na określony czas i czy użytkownik będzie informowany o zmianach?
Różnorodność, niedyskryminacja i sprawiedliwość	Jakie typy stronniczości zostały zidentyfikowane i w jaki sposób? Jakie środki stosowane są w celu wykrywania i ograniczania stronniczości? Jakie wskaźniki stronniczości są monitorowane, jakie progi obowiązują i co dzieje się w przypadku ich przekroczenia? Czy interesariusze są angażowani w ocenę ryzyka i sposobów wykorzystania? W jaki sposób zapewniana jest jakość danych? Czy przeprowadzono ocenę ryzyka specyficzną dla AI? Czy rozwiązanie zostało zaprojektowane zgodnie z zasadą uniwersalnego projektowania i przetestowane pod kątem języka, wieku, kultury, neuroróżnorodności oraz zróżnicowanego poziomu doświadczenia użytkowników? Proszę przedstawić wyniki testów wykorzystania AI w zadaniach archiwalnych przed wdrożeniem.
Dobrostan społeczny i środowiskowy	Jaki jest szacowany ślad środowiskowy rozwiązania w porównaniu z alternatywami (lub obecnymi procesami)? Czy dokonano mapowania kosztów klimatycznych i zasobowych w łańcuchu dostaw? Czy oceniono wpływ technologii AI na grupy, które nie są bezpośrednimi użytkownikami?
Odpowiedzialność	Jakie są procedury zgłaszania stronniczości, błędów, szkód lub niezadowolenia? Kto może dokonywać takich zgłoszeń i w jaki sposób są one rozpatrywane? W jaki sposób monitorowane i komunikowane są nowe błędy lub podatności? Jak system reaguje na sytuacje, w których dostawca modelu bazowego zgłasza poważne problemy? Jakie są wymagania dotyczące kompetencji AI użytkowników i w jaki sposób są one zapewniane? W jaki sposób wykrywane jest niewłaściwe użycie lub użycie w nieprzewidzianych kontekstach?
Prywatność i zarządzanie danymi	*Uwaga:* prywatność jest kluczowym wymogiem i wymaga odrębnych kompetencji. Należy zaangażować inspektora ochrony danych w rozmowy z dostawcami. W jaki sposób dane użytkowników końcowych i obywateli przepływają do systemu i z systemu? Kto ma dostęp do tych danych? Czy którykolwiek z dostawców AI ma dostęp do danych użytkowników?

Zakończenie

W badaniu Mikalefa i in. przeprowadzonym wśród norweskich gmin najczęściej wskazywanym wyzwaniem we wdrażaniu AI były obawy dotyczące jakości danych (2019). Rzeczywiście jakość danych treningowych – a w konsekwencji również wyników generowanych przez LLM – stanowi fundament dwóch najistotniejszych zidentyfikowanych ryzyk: stronniczości i dyskryminacji oraz dehumanizacji i wykluczenia. Trzecim ryzykiem jest rosnąca trudność w wyjaśnianiu i odtwarzaniu tego, w jaki sposób i dlaczego archiwiści realizują swoje społecznie kluczowe zadania.

Od kilku lat ściśle współpracujemy ze specjalistami zarządzania informacją i archiwistami zarówno w administracji rządowej, jak i samorządowej, w tym w środowiskach IT i archiwalnych dużej jednostki samorządu terytorialnego. Nasze doświadczenia wskazują, że archiwiści posiadają unikalne rozumienie podstawowych elementów AI, w tym wymogów co do jakości i minimalizacji danych, co sprawia, że są dobrze przygotowani do tego, by nie przeceniać faktycznej poprawności odpowiedzi generowanych przez LLM.

Jednocześnie, w warunkach rosnącej presji na sektor publiczny – większej liczby obywateli do obsłużenia przy ograniczonych zasobach – zrozumiałe jest, że pracownicy oczekują, że AI przyniesie odciążenie, poprawę jakości lub zwiększenie efektywności.

Stąd kluczowe jest strategiczne wykorzystanie momentu składania zamówienia na określone rozwiazanie jako punktu, w którym można ustanowić wymagania dotyczące „odpowiedzialnej AI”. Norwegia posiada już politykę innowacyjnych zamówień publicznych jako narzędzia rozwoju sektora publicznego. W analogiczny sposób zamówienia oparte na zasadach „odpowiedzialnej AI” mogą stać się instrumentem, dzięki któremu sektor publiczny będzie kształtował rozwój etycznej i społecznie użytecznej sztucznej inteligencji.

Operacjonalizacja zasad „odpowiedzialnej AI” poprzez otwarte i konkretne pytania tworzy pragmatyczne ramy równoważące innowacyjność i etykę. Pomaga to podmiotom publicznym zachować dystans wobec nadmiernych oczekiwań związanych z AI, egzekwować przejrzystość oraz chronić godność i zaufanie – wartości fundamentalne dla administracji publicznej. Wyrażamy nadzieję, że sektor publiczny będzie nadal stawiał dostawcom AI wymagania równie wysokie, jak te, które obywatele stawiają wobec niego.

Bibliografia

Acar, O. A., Gai, P. J., Tu, Y., & Hou, J. (2025). “The Hidden Penalty of Using AI at Work”. Harvard Business Review. https://hbr.org/2025/08/research-the-hidden-penalty-of-using-ai-at-work
Bender, E. M. (2025). “Understanding and addressing threats from synthetic text extruding machines.” Presentation to European Parliament Special Committee on the European Democracy Shield, 17 July 2025. https://www.europarl.europa.eu/cmsdata/297295/Bender-LLMs-slides.pdf
Bender, E. M., Gebru, T., McMillan-Major, A. et al. (2021). “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜”. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT ’21). Association for Computing Machinery, New York, NY, USA, 610–623. https://doi.org/10.1145/3442188.3445922
Bender, E. M. & Hanna, A. (2025). The AI Con: How to Fight Big Tech’s Hype and Create the Future We Want. The Bodley Head.
Bolstad, I. & Akerhaugen, Ø. (2023). “Kan vi stole på staten hvis den bruker kunstig intelligens?” Arkivråd (2):18.
Chen, Z., Wang, W., Xiao, T. et al. (2025). “Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies.” In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 23881–23899, Vienna, Austria. Association for Computational Linguistics.
Gröger, C. (2021). “There is no AI without data.” Commun. ACM 64(11), 98–108. https://doi.org/10.1145/3448247
Haraldsen, A. (2021). “Fremtidens digitale arkiv – uten arkiv og uten arkivar?” Arkivråd (2):14.
Haque, F., Xu, D., Niu, X. (2025). “A Comprehensive Survey on Bias and Fairness in Large Language Models.” In: Yuan, S., Malliaros, F., Zheng, X. (eds) Trends and Applications in Knowledge Discovery and Data Mining. PAKDD 2025. Lecture Notes in Computer Science, vol 15835. Springer, Singapore. https://doi.org/10.1007/978-981-96-8197-6_7
High-Level Expert Group on AI (2019). “Ethics Guidelines for Trustworthy AI”. European Commission. https://www.europarl.europa.eu/cmsdata/196377/AI%20HLEG_Ethics%20Guidelines%20for%20Trustworthy%20AI.pdf
Jensen, I. M. (2023). “Skeiv i Nordland”. Arkivråd (1):42.
Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). “Why language models hallucinate.” arXiv preprint arXiv:2509.04664.
Kummervold, P. E., la Rosa, J. D., Wetjen, F., Bryfjeld, S. A. (2021). “Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model.” In Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa), 20–29, Reykjavik, Iceland (Online). Linköping University Electronic Press, Sweden.
Lin, Z., Guan, S., Zhang, W. et al. (2024). “Towards trustworthy LLMs: a review on debiasing and dehallucinating in large language models.” Artif Intell Rev 57:243. https://doi.org/10.1007/s10462-024-10896-y
Luo, C. (2024). “Has llm reached the scaling ceiling yet? unified insights into llm regularities and constraints.” arXiv preprint arXiv:2412.16443.
Mikalef, P., Fjørtoft, S. & Torvatn, H. (2019). Artificial Intelligence in the Public Sector: A Study of Challenges and Opportunities for Norwegian Municipalities. 10.1007/978-3-030-29374-1_22
Peters, U. & Chin-Yee, B. (2025). “Generalization bias in large language model summarization of scientific research”. Royal Society Open Science, 12(4), 241776.
Rambøll Management Consulting & Comte Bureau (2025). “Kunnskapsgrunnlag om generativ KI i statlige virksomheter.” Commissioned by the Ministry of Digitalisation and Public Governance. 18 June 2025.https://www.regjeringen.no/contentassets/8c061b0d421f4894b92b1ffa5fb84912/kunnskapsgrunnlag-om-generativ-ki-i-statlige-virksomheter_ramboll.pdf
Shrager, J. (2024). “ELIZA Reinterpreted: The world’s first chatbot was not intended as a chatbot at all.” arXiv preprint arXiv:2406.17650.
Tjerk, T., Van Veenstra, A. F., Bodea, G. (2021). “Artificial intelligence and public services”. Policy Department for Economic, Scientific and Quality of Life Policies. Briefing to the European Parliament. https://www.europarl.europa.eu/RegData/etudes/BRIE/2021/662936/IPOL_BRI%282021%29662936_EN.pdf
Walderhaug, G. M. & Sødring, T. (2024). “Kunstig intelligens (KI) – til glede og besvær.” Arkivråd (1):40. https://www.arkivrad.no/sites/arkivrad/files/arkivrad_01_2024.pdf
Øyen, G. & Nyttingnes, I. L. (2024). “Strategier for å synliggjøre nasjonal minoritetskultur, overføringsverdi og formidling fra museumsfeltet?” Arkivråd (1):31.

^[1] Dr nauk prawnych, radczyni prawna, założycielka kancelarii Gabriela Bar Law & AI, AI doradczyni etyczna w projektach UE. Ekspertka w zakresie prawa nowych technologii oraz prawa i etyki AI. Wykładowczyni akademicka i autorka licznych publikacji z obszaru AI, usług cyfrowych i ochrony danych osobowych. Członkini Polskiego Towarzystwa Informatycznego – Sekcja Aktualnych Problemów Sztucznej Inteligencji, Women in AI oraz Association of AI Ethicists (AAIE).

Odpowiedzialna Sztuczna Inteligencja jako ramy zamówień AI

Najważniejsze informacje

Pierwsze posiedzenie Zarządu Głównego PTI nowej kadencji

Zaproszenie na jubileuszową, XX edycję konferencji TERW

List gratulacyjny od Ministra Dariusza Standerskiego

Spotkanie z cyklu Digital Talks o cyfryzacji edukacji

Nowo wybrani Członkowie Honorowi PTI

XV Zjazd Delegatów wybrał nowe władze PTI

Informacje z oddziałów

Zaproszenie na jubileuszową, XX edycję konferencji TERW

Ogólnopolski Konkurs na najlepsze prace i projekty inżynierskie z informatyki

Mythos Preview – „efekt motyla” w globalnym cyberbezpieczeństwie?

Kiedy wszystko się sypie: co różni, a co łączy kryzysy w firmach i instytucjach?

Prof. Kacprzyk z nagrodą MNiSW za całokształt dorobku

Marcowy Klub Informatyka o komputerach kwantowych

Dane kontaktowe