Surrealistyczna ilustracja rządowego raportu na stole audytowym, z przypisami zamieniającymi się w puste cyfrowe ślady i cieniem znaku zapytania.
Artykuł

Deloitte, AI i raport za A$440 tys.: najgłośniejsza afera konsultingowa z halucynacjami w tle

Raport Deloitte dla australijskiego rządu miał sprawdzić system automatycznych sankcji w polityce społecznej. Zamiast spokojnie zamknąć temat, stał się przykładem tego, jak generatywna AI może produkować pozór wiedzy: przypisy, źródła i sądowe odniesienia, które nie przechodzą weryfikacji. Sprawdzamy, co wiadomo na pewno, czego nie wolno dopowiadać i dlaczego ta historia jest groźniejsza niż zwykła wpadka z ChatGPT.

Raport miał dać rządowi pewność. Zamiast tego sam stał się dowodem ostrzegawczym.

W Australii Deloitte przygotowało dla Department of Employment and Workplace Relations przegląd Targeted Compliance Framework, czyli systemu związanego z obowiązkami osób pobierających świadczenia i mechanizmami automatycznego egzekwowania sankcji. To nie był tekst marketingowy ani luźna analiza trendów. Chodziło o państwowy system, prawo, informatykę i decyzje, które mogą wpływać na dostęp ludzi do pieniędzy potrzebnych do życia.

I właśnie dlatego ta afera wybrzmiała tak mocno. Bo problemem nie było samo użycie AI. Problemem było to, że w raporcie dla państwa znalazły się błędy wyglądające jak solidna warstwa ekspercka: przypisy, bibliografia, odniesienia do publikacji i fragment dotyczący sprawy sądowej.

Co się stało

W grudniu 2024 roku Deloitte zostało zaangażowane przez australijski DEWR do przygotowania niezależnego przeglądu Targeted Compliance Framework. Prace trwały od grudnia 2024 do czerwca 2025 roku, a raport dotyczył zgodności działania systemu z politykami operacyjnymi, regułami biznesowymi i rozwiązaniami informatycznymi.

W lipcu 2025 roku raport opublikowano. Według relacji AP miał 237 stron. Z zewnątrz wyglądał jak typowy dokument wielkiej firmy doradczej: formalny, rozbudowany, z aparatem źródłowym. Potem pojawił się pierwszy zgrzyt. Chris Rudge, badacz prawa zdrowia i opieki społecznej z Uniwersytetu w Sydney, zaczął wskazywać błędne lub nieistniejące odniesienia. Wśród problemów wymieniano fikcyjne publikacje akademickie, błędne przypisy i kwestię cytowania lub streszczania sprawy sądowej Deanna Amato przeciwko Commonwealth of Australia.

To ważny moment. Wpadka nie została wykryta dlatego, że system sam się zatrzymał. Wykrył ją człowiek, który znał dziedzinę i rozpoznał, że pewne tytuły oraz przypisy po prostu nie brzmią jak prawdziwe źródła.

Co wiadomo na pewno

W dokumentach ujawnionych w trybie FOI Deloitte opisało użycie narzędzi generatywnej AI. Firma wskazywała, że DEWR zgodził się na użycie łańcucha narzędzi opartego na dużym modelu językowym ChatGPT, licencjonowanego przez DEWR i hostowanego w dzierżawie Azure departamentu, do wsparcia analizy bazy kodu.

Ten sam dokument mówi też o użyciu narzędzi MyAssist i ChatGPT przy zadaniach publikacyjnych: dalszym streszczeniu przygotowanego opisu postępowania Deanna Amato przeciwko Commonwealth of Australia oraz uzupełnianiu i formatowaniu cytowań w wersjach roboczych. W piśmie Deloitte znalazło się również stwierdzenie, że użycie narzędzi generatywnej AI doprowadziło do nieprawidłowych wyników, w których część cytowań, przypisów i pozycji bibliograficznych zawierała błędy.

To jest rdzeń sprawy. Nie musimy dopisywać teorii. Wystarczy mechanizm.

Model językowy potrafi generować tekst, który brzmi jak dokument ekspercki. Potrafi stworzyć tytuł publikacji w odpowiednim stylu, dobrać nazwisko pasujące do dziedziny i ułożyć przypis w poprawnym formacie. Problem polega na tym, że wiarygodny kształt nie jest tym samym, co prawdziwe źródło. Halucynacja AI często nie wygląda jak bełkot. Ona wygląda jak coś, co aż prosi się o zaufanie.

Czego nie wiadomo

Nie wiadomo publicznie w pełnym zakresie, które konkretne błędy powstały bezpośrednio z odpowiedzi modelu, które z ludzkiej edycji, a które z procesu przepisywania, streszczania i formatowania. Deloitte nie powinno być automatycznie oskarżane o celową manipulację bez twardych dowodów.

Wiadomo jednak, że Deloitte samo wskazało związek między użyciem narzędzi generatywnej AI a nieprawidłowymi wynikami w obszarze przypisów i bibliografii. Wiadomo też, że poprawiano raport i że Deloitte zgodziło się zwrócić końcową część wynagrodzenia. AP i The Guardian relacjonowały, że chodziło o kontrakt o wartości około A$440 tys., a departament oraz Deloitte utrzymywali, że zasadnicze ustalenia i rekomendacje raportu nie uległy zmianie.

Tu pojawia się druga warstwa problemu. Jeżeli wnioski raportu są trafne, ale część przypisów jest fałszywa lub błędna, to czy raport traci wiarygodność w całości? To nie jest pytanie z prostą odpowiedzią. Chris Rudge sam miał wskazywać, że niekoniecznie cały dokument należy uznać za nieważny, bo część konkluzji może pokrywać się z innymi dowodami. Ale zaufanie działa inaczej niż korekta edytorska. Gdy pęka bibliografia, czytelnik zaczyna pytać, co jeszcze zostało oparte na pozorze.

Reakcje i konsekwencje

Departament opublikował poprawione wersje dokumentów. W korespondencji z 26 września 2025 roku Deloitte informowało, że przeprowadzono niezależny przegląd pod kierunkiem Chief Risk Officer, poprawiono przypisy i bibliografię, zrewidowano fragment dotyczący sprawy Amato oraz doprecyzowano metodologię o użycie narzędzi generatywnej AI. Deloitte podtrzymywało, że aktualizacje nie zmieniają ustaleń i rekomendacji.

W październiku 2025 roku Deloitte Australia wystosowało przeprosiny do sekretarz departamentu. W piśmie firma przyznała, że jakość raportu nie spełniła standardów oczekiwanych przez klienta i deklarowanych przez samą Deloitte, oraz że odpowiednie procesy przeglądu i nadzoru nie zostały w tym przypadku zastosowane.

Politycznie sprawa była łatwa do zapalenia. Bo zderzyły się trzy wrażliwe tematy: konsulting publiczny, automatyzacja państwa i generatywna AI. Każdy z nich osobno budzi pytania o odpowiedzialność. Razem tworzą mieszankę wybuchową.

Co warto zapisać

Najprostszy mechanizm tej afery wygląda tak:

AI nie musi „wymyślić całego raportu”, żeby narobić szkód. Wystarczy, że stworzy wiarygodnie brzmiące przypisy, błędnie streści fragment prawny albo uzupełni bibliografię źródłami, których człowiek nie sprawdzi. Im bardziej formalny jest dokument, tym groźniejszy bywa pozór poprawności.

To lekcja nie tylko dla Deloitte. To lekcja dla każdej instytucji, która chce używać AI do dokumentów eksperckich. W takich pracach nie wystarczy zasada: „człowiek był w procesie”. Trzeba wiedzieć, jaki człowiek, na którym etapie, z jaką wiedzą, z jaką listą kontrolną i z jaką odpowiedzialnością za końcowy podpis.

Wnioski

Najuczciwszy opis tej sprawy brzmi: Deloitte Australia przygotowało dla rządu raport, w którym po publikacji wykryto poważne błędy w aparacie źródłowym i fragmencie prawnym. Dokumenty FOI pokazują, że przy pracy używano narzędzi generatywnej AI, a Deloitte wskazało, że ich użycie doprowadziło do części nieprawidłowych wyników. Raport poprawiono, Deloitte przeprosiło i zgodziło się na częściowy zwrot wynagrodzenia. Jednocześnie firma oraz departament utrzymywały, że sedno raportu nie zostało zmienione.

To nie jest dowód, że AI nie nadaje się do pracy eksperckiej. To dowód, że AI bez ostrego reżimu weryfikacji potrafi zamienić dokument ekspercki w scenografię dokumentu eksperckiego.

A w państwowych systemach, które dotykają prawa i pieniędzy obywateli, scenografia to za mało.

To nie jest porada prawna.

ŹRÓDŁA

Ocena źródeł A/B/C i ryzyko błędu

  • A: strony DEWR, dokument FOI Department of Finance, korespondencja parlamentarna, AusTender. To źródła instytucjonalne lub pierwotne.
  • B: AP i The Guardian. To renomowane media, przydatne do chronologii, reakcji i kontekstu publicznego.
  • C: ACOSS jako źródło perspektywy społecznej i krytycznej wobec TCF, nie jako neutralny arbitraż faktów technicznych. Blogi i wpisy social mediowe nie były podstawą ustaleń.
  • Ryzyko błędu: średnie. Rdzeń sprawy jest dobrze potwierdzony dokumentami, ale szczegółowe przypisanie każdego błędu do konkretnego narzędzia AI, człowieka lub etapu pracy nie jest w pełni publiczne.
  • Co by to rozstrzygnęło: pełny audyt wersji raportu przed i po korektach; rejestr użytych promptów i odpowiedzi narzędzi AI; niezależna kontrola wszystkich przypisów, cytowań, streszczeń prawnych i decyzji akceptacyjnych.