ChatGPT na testach naukowych: dobre wyniki, ale duże wątpliwości

Sztuczna inteligencja coraz śmielej wkracza w nasze życie — od pomocy w nauce, przez analizę danych, aż po wsparcie w biznesie. Jednak najnowsze badania pokazują, że jej możliwości mogą być znacznie bardziej ograniczone, niż wielu zakłada. Zespół naukowców pod kierownictwem Mesuta Cicka z Washington State University postanowił sprawdzić, jak dobrze popularne narzędzia AI radzą sobie z oceną prawdziwości hipotez naukowych. Wyniki są… co najmniej niepokojące.

AI zdaje, ale ledwo

Badacze wykorzystali ponad 700 hipotez pochodzących z artykułów naukowych i wielokrotnie zadawali ChatGPT to samo pytanie: czy dana hipoteza została potwierdzona przez badania? Każdą z nich testowano aż 10 razy, aby sprawdzić nie tylko trafność odpowiedzi, ale też ich powtarzalność. Wyniki?

W 2024 roku AI odpowiadała poprawnie w 76,5% przypadków. W 2025 roku wynik wzrósł do 80%. Jednak po uwzględnieniu losowego zgadywania realna skuteczność spada do około 60%

Problem większy niż błędy: brak spójności

Jeszcze bardziej niepokojąca okazała się… niespójność odpowiedzi. Nawet przy identycznych pytaniach AI potrafiła udzielać zupełnie różnych odpowiedzi — raz uznając hipotezę za prawdziwą, a chwilę później za fałszywą. W wielu przypadkach rozkład odpowiedzi wynosił dokładnie pół na pół. Średnio tylko 73% odpowiedzi było spójnych przy powtórzeniach. Jak zauważa Cicek: Jeśli zadasz to samo pytanie wielokrotnie, możesz otrzymać różne odpowiedzi.

Największa słabość: rozpoznawanie fałszu

AI szczególnie słabo radziła sobie z identyfikacją błędnych hipotez. Trafność w tym przypadku wyniosła zaledwie 16,4%. To oznacza, że system znacznie częściej uznaje coś za prawdziwe, niż faktycznie potrafi wykryć, że jest fałszywe — co może mieć poważne konsekwencje w praktyce.

Płynny język ≠ prawdziwe zrozumienie

Badanie pokazuje istotną różnicę między tym, jak AI mówi, a tym, jak rozumuje. Modele językowe, takie jak ChatGPT, świetnie radzą sobie z tworzeniem przekonujących i płynnych wypowiedzi. Problem w tym, że za tą elokwencją nie zawsze stoi rzeczywiste zrozumienie. Jak podkreśla Cicek: AI nie rozumie świata tak jak człowiek. Nie ma „mózgu” — raczej zapamiętuje wzorce i je odtwarza. W efekcie potrafi generować bardzo przekonujące… ale błędne wyjaśnienia.

Co to oznacza dla użytkowników?

Wnioski z badania są jasne: sztucznej inteligencji nie należy traktować jako nieomylnego źródła wiedzy — szczególnie w zadaniach wymagających analizy, interpretacji czy niuansów.

Eksperci zalecają: weryfikowanie odpowiedzi AI w wiarygodnych źródłach, zachowanie sceptycyzmu wobec jej wniosków oraz świadomość ograniczeń tej technologii.

AI jeszcze nie „myśli”

Choć często mówi się o nadchodzącej erze sztucznej inteligencji zdolnej do samodzielnego myślenia, badanie sugeruje, że jesteśmy od tego wciąż daleko. Dzisiejsze systemy potrafią imponować językiem, ale ich zdolność do rzeczywistego rozumowania pozostaje ograniczona. Czy to oznacza, że AI jest bezużyteczna? Absolutnie nie. Ale jedno jest pewne — warto korzystać z niej mądrze i ostrożnie.

Źródło: Washington State University