Większość botów AI działa bez przejrzystych informacji o bezpieczeństwie

Nowe badanie naukowców z Uniwersytetu w Cambridge pokazuje, że rozwój agentów sztucznej inteligencji wyprzedza standardy bezpieczeństwa. Choć narzędzia AI coraz częściej pomagają nam w codziennych zadaniach, od planowania podróży po automatyzację pracy, wiele z nich działa bez publicznie dostępnych informacji o potencjalnym ryzyku.

AI w codziennym życiu

Chatboty pomagają dziś pisać e-maile, planować posiłki czy organizować dzień. Przeglądarki internetowe wspierane przez sztuczną inteligencję potrafią wyszukiwać i kupować bilety, rezerwować noclegi czy wypełniać formularze online. W środowisku pracy narzędzia AI przygotowują raporty, generują faktury i automatyzują wiele powtarzalnych zadań. Wraz z rosnącą popularnością takich systemów pojawia się jednak pytanie: na ile są one bezpieczne i czy ich twórcy otwarcie informują o potencjalnych zagrożeniach?

Badanie 30 czołowych agentów AI

Odpowiedzi na to pytanie próbowali znaleźć badacze pracujący nad projektem AI Agent Index. W inicjatywie uczestniczą naukowcy m.in. z Uniwersytetu w Cambridge, MIT, Uniwersytetu Stanforda oraz Uniwersytetu Hebrajskiego w Jerozolimie.

Zespół przeanalizował 30 zaawansowanych agentów AI – od chatbotów, przez inteligentne przeglądarki internetowe, po narzędzia automatyzujące pracę. Analiza opierała się na publicznych informacjach oraz bezpośrednim kontakcie z twórcami systemów.

Wyniki nie są optymistyczne. Spośród wszystkich badanych agentów tylko cztery posiadają opublikowane szczegółowe dokumenty dotyczące bezpieczeństwa i oceny działania. Takie dokumenty – nazywane „kartami systemowymi” – opisują m.in. poziom autonomii systemu, jego zachowanie oraz możliwe ryzyka w realnych zastosowaniach.

Duża luka w przejrzystości

Badacze wskazują na wyraźną lukę w transparentności. W wielu przypadkach firmy chętnie prezentują możliwości swoich systemów, ale znacznie rzadziej ujawniają informacje dotyczące bezpieczeństwa.

Najważniejsze ustalenia badania:

25 z 30 agentów AI nie publikuje wyników wewnętrznych testów bezpieczeństwa.
23 z 30 nie udostępnia danych z niezależnych testów przeprowadzonych przez strony trzecie.
Informacje o rzeczywistych incydentach bezpieczeństwa opublikowano jedynie dla 5 agentów.

Naukowcy zwracają też uwagę na podatność na tzw. prompt injection – technikę, w której złośliwe instrukcje mogą skłonić system AI do ignorowania zabezpieczeń. Udokumentowano ją jedynie w dwóch analizowanych systemach, co nie oznacza jednak, że pozostałe są od niej wolne, często po prostu brak danych.

Problem nie dotyczy tylko modeli językowych

Zdaniem głównego autora raportu, badacza z Cambridge Leona Staufera, wielu twórców skupia się na bezpieczeństwie samych modeli językowych, takich jak GPT czy inne duże modele AI. Tymczasem rzeczywiste ryzyko często pojawia się dopiero na poziomie agentów, czyli systemów korzystających z modeli i wykonujących konkretne zadania.

Jak wyjaśnia Staufer, zachowanie agenta zależy nie tylko od modelu językowego, lecz także od wielu innych elementów: sposobu planowania zadań, narzędzi, pamięci systemu czy przyjętych zasad działania. Mimo to niewiele firm publikuje szczegółowe analizy tych aspektów. Co więcej, badacze zidentyfikowali 13 agentów AI o bardzo wysokim poziomie autonomii, jednak tylko cztery z nich udostępniają jakiekolwiek oceny bezpieczeństwa.

„Safety washing” – bezpieczeństwo tylko na papierze?

Raport sugeruje również zjawisko określane jako „safety washing”. Polega ono na publikowaniu ogólnych deklaracji dotyczących etyki i bezpieczeństwa AI, które brzmią uspokajająco, ale nie są poparte konkretnymi danymi ani wynikami testów. Innymi słowy, firmy chętnie mówią o bezpieczeństwie, ale rzadziej przedstawiają dowody pokazujące, jak rzeczywiście je zapewniają.

Kilka modeli kontroluje większość rynku

Analiza wskazuje także na duże uzależnienie agentów AI od kilku podstawowych modeli, takich jak GPT, Claude czy Gemini. Poza chińskimi systemami większość analizowanych narzędzi korzysta właśnie z tych technologii.

Takie skupienie technologii w rękach kilku dostawców może mieć konsekwencje systemowe. Awaria jednego modelu, zmiana jego ceny lub pogorszenie bezpieczeństwa mogą wpłynąć jednocześnie na setki usług opartych na tej samej technologii.

Najmniej przejrzyste: inteligentne przeglądarki

Największy brak informacji o bezpieczeństwie dotyczy agentów przeglądarkowych, czyli systemów AI wykonujących zadania w internecie w imieniu użytkownika np. kupujących bilety czy monitorujących aukcje.

W ich przypadku aż 64% danych dotyczących bezpieczeństwa pozostaje nieujawnionych. Jednocześnie są to systemy o bardzo wysokim poziomie autonomii.

Niewiele lepiej wypadają agenci biznesowi, wykorzystywani w firmach do automatyzacji procesów. Brakuje w nich 63% informacji dotyczących bezpieczeństwa.

Najbardziej przejrzyste, choć wciąż dalekie od ideału, są chatboty, w których brakuje około 43% danych dotyczących bezpieczeństwa.

Co dalej z bezpieczeństwem AI?

Według autorów raportu rozwój agentów AI postępuje znacznie szybciej niż standardy dotyczące ich przejrzystości i oceny ryzyka. W miarę jak systemy te przejmują coraz więcej zadań wykonywanych wcześniej przez ludzi, rosną też oczekiwania wobec ich twórców w zakresie transparentności i odpowiedzialności.

Badacze podkreślają, że większa otwartość firm technologicznych – zwłaszcza w publikowaniu wyników testów i analiz bezpieczeństwa – będzie kluczowa dla budowania zaufania do sztucznej inteligencji w nadchodzących latach.

Źródło: Uniwersytet w Cambridge