Sztuczna inteligencja. Jak wiarygodne są chatboty?
20 maja 2025
„Hej, @Grok, czy to prawda?” – takie pytanie zadawały tysiące użytkowników platformy X (dawnego Twittera) odkąd w listopadzie 2023 roku firma xAI Elona Muska uruchomiła generatywnego chatbota Grok i udostępniła go wszystkim użytkownikom w grudniu 2024 r. System oparty na sztucznej inteligencji (AI) pozwala szybko sprawdzać informacje.
Niedawna ankieta przeprowadzona przez brytyjski portal technologiczny TechRadar ujawniła, że 27 procent Amerykanów korzysta z narzędzi AI, takich jak ChatGPT firmy OpenAI, MetaAI firmy Meta, Gemini firmy Google, Copilot firmy Microsoft lub aplikacji takich jak Perplexity. Zastępują one konwencjonalne wyszukiwarki, takie jak Google czy Yahoo.
Ale jak dokładne i wiarygodne są odpowiedzi udzielane przez sztuczną inteligencję? Wiele osób zadało sobie to pytanie w świetle ostatnich komentarzy Groka na temat „ludobójstwa białych” w RPA. Oprócz problematycznej odpowiedzi Groka w tej kwestii, użytkownicy X byli również zirytowani faktem, że bot zaczął o tym mówić, gdy zapytano go o zupełnie inne tematy, jak w poniższym przykładzie:
Dyskusja na temat rzekomego „ludobójstwa białych” rozgorzała po tym, jak administracja prezydenta USA Donalda Trumpa sprowadziła białych mieszkańców RPA do Stanów Zjednoczonych jako „uchodźców”. Prezydent USA oświadczył, że są oni poddawani „ludobójstwu” w swoim kraju ojczystym. To twierdzenie oparte na rasistowskich teoriach spiskowych, na które nie ma dowodów.
Firma xAI tłumaczyła, że za niezlecone odpowiedzi Groka na temat „ludobójstwa białych” odpowiedzialna jest „nieautoryzowana zmiana” i że „przeprowadziła dokładne dochodzenie”.
Ale czy takie błędy zdarzają się regularnie? Jaką pewność mogą mieć użytkownicy, że otrzymują wiarygodne informacje, gdy chcą coś sprawdzić za pomocą sztucznej inteligencji?
Błędy merytoryczne, zniekształcone cytaty
Dwa badania przeprowadzone w tym roku przez brytyjskiego nadawcę publicznego BBC i Tow Centre for Digital Journalism na Uniwersytecie Columbia w Nowym Jorku wykazały znaczące niedociągnięcia dotyczące chatbotów AI. W lutym badanie BBC wykazało, że „odpowiedzi asystentów AI zawierały znaczące nieścisłości i stronnicze treści”.
Gdy ChatGPT, Copilot, Gemini i Perplexity zostały poproszone o udzielenie odpowiedzi na pytania dotyczące najświeższych wiadomości przy użyciu artykułów BBC jako źródeł, w 51 procent odpowiedzi chatbotów stwierdzono „znaczące problemy różnego rodzaju”.
19 procent odpowiedzi zawierało błędy merytoryczne, podczas gdy 13 procent cytatów zostało zmienionych lub w ogóle nie pojawiło się w cytowanych artykułach.
„Obecnie nie można polegać na asystentach sztucznej inteligencji w zakresie dokładnego przekazywania wiadomości i istnieje ryzyko, że mogą one wprowadzać odbiorców w błąd” – podsumowuje Pete Archer, dyrektor programowy ds. generatywnej sztucznej inteligencji w BBC.
Fałszywe odpowiedzi udzielane z niepokojącą pewnością
Badanie przeprowadzone przez Tow Center for Digital Journalism, opublikowane w marcu w Columbia Journalism Review (CJR), wykazało również, że osiem narzędzi AI nie było w stanie poprawnie zidentyfikować pochodzenia fragmentów artykułów w 60 proc. przypadków.
Perplexity wypadło najlepiej z poziomem błędu wynoszącym „tylko” 37 procent, podczas gdy Grok odpowiedział niepoprawnie na 94 procent zapytań. CJR był szczególnie zaniepokojony „alarmującą pewnością”, z jaką narzędzia AI udzielały nieprawidłowych odpowiedzi.
Na przykład ChatGPT błędnie zidentyfikował 134 artykuły, ale tylko 15 razy z 200 odpowiedzi zasygnalizował brak pewności i nigdy nie odmówił udzielenia odpowiedzi. Ogólnie rzecz biorąc, badanie wykazało, że chatboty „generalnie słabo radzą sobie z odmową odpowiedzi na pytania, na które nie są w stanie odpowiedzieć dokładnie”, stwierdzili naukowcy.
Tak dobre, jak ich dane wejściowe
A skąd sama sztuczna inteligencja czerpie informacje? Jest ona zasilana z różnych źródeł, takich jak obszerne bazy danych i wyszukiwarki internetowe. W zależności od sposobu szkolenia i programowania chatbotów AI, jakość i dokładność ich odpowiedzi może się różnić.
– Jednym z problemów, który ostatnio się pojawił, jest zalewanie LLM (dużych modeli językowych) rosyjską dezinformacją i propagandą. Istnieje więc wyraźny problem z „danymi wejściowymi” LLM – powiedział DW Tommaso Canetta, zastępca dyrektora włoskiego projektu sprawdzania faktów Pagella Politica i koordynator sprawdzania faktów w Europejskim Obserwatorium Mediów Cyfrowych (EDMO).
– Jeśli źródła nie są godne zaufania i nie mają wysokiej jakości, odpowiedzi najprawdopodobniej będą tego samego rodzaju – dodał. Canetta wyjaśnia, że sam regularnie spotyka się z odpowiedziami, które są „niekompletne, niedokładne, wprowadzające w błąd lub nawet błędne”.
Gdy sztuczna inteligencja się myli
Szczególnie drastyczne było jedno twierdzenie wygłoszone przez wspieranego przez sztuczną inteligencję chatbota Meta AI w kwietniu 2024 r. Chatbot powiedział nowojorskiej grupie rodziców na Facebooku, że ma on uzdolnione akademicko dziecko z niepełnosprawnością. Później wprawdzie przeprosił i przyznał, że nie ma „osobistego doświadczenia ani dzieci”. Meta wyjaśniła to magazynowi online „404media”, który poinformował o incydencie.
– To nowa technologia, która nie zawsze daje odpowiedź, jakiej oczekujesz. Od czasu jej uruchomienia stale publikujemy aktualizacje i ulepszenia naszych modeli i nadal pracujemy nad ich ulepszaniem – oświadczyła firma.
Dezinformacja może mieć poważne konsekwencje. Na przykład w sierpniu 2024 r., po wycofaniu się ówczesnego prezydenta USA Joe Bidena z kampanii wyborczej, Grok rozpowszechnił fałszywą informację, że wiceprezydentka Kamala Harris nie może już pojawiać się na kartach do głosowania w kilku stanach. Po tym incydencie sekretarz stanu Minnesota Steve Simon napisał publiczny list do Elona Muska.
Grok nie rozpoznaje zdjęć wygenerowanych przez AI
Chatboty AI nie tylko wydają się mieć trudności z wiadomościami, ale także wykazują poważne ograniczenia, jeśli chodzi o identyfikację obrazów generowanych przez AI.
W krótkim eksperymencie DW poprosił Groka o zidentyfikowanie daty, lokalizacji i pochodzenia wygenerowanego przez AI zdjęcia pożaru w zniszczonym hangarze lotniczym, zaczerpniętego z wideo TikTok. w odpowiedziach Grok twierdził, że obraz pokazywał różne incydenty w różnych lokalizacjach, od małego lotniska w Salisbury w Anglii, przez międzynarodowe lotnisko w Denver w Kolorado, po międzynarodowe lotnisko Tan Son Nhat w Ho Chi Minh City w Wietnamie.
W ostatnich latach w tych lokalizacjach rzeczywiście miały miejsce wypadki i pożary, ale zdjęcie, o którym mowa, nie pokazywało żadnego z nich. Co bardziej niepokojące, Grok rozpoznał część znaku wodnego „TikTok” w rogu zdjęcia i stwierdził, że „przemawia to za jego autentycznością”.
W zakładce „Więcej szczegółów” Grok wyjaśnił jednak, że TikTok jest „platformą często wykorzystywaną do szybkiej dystrybucji treści wiralowych, co może prowadzić do dezinformacji, jeśli nie zostanie odpowiednio zweryfikowane”.
14 maja Grok potwierdził (w języku portugalskim) autentyczność wiralowego wideo, które wydaje się przedstawiać kilkusetmetrową anakondę w Amazonii. Film został on jednak stworzony przy pomocy sztucznej inteligencji.
Chatboty AI nie nadają się do sprawdzania faktów
Chatboty AI mogą wydawać się wszechwiedzącą istotą, ale tak nie jest. Popełniają błędy, źle rozumieją rzeczy, a nawet można nimi manipulować. Felix Simon, badacz sztucznej inteligencji i wiadomości cyfrowych oraz pracownik naukowy Oxford Internet Institute (OII), podsumowuje: „Systemy sztucznej inteligencji, takie jak Grok, Meta AI lub ChatGPT, nie powinny być uważane za narzędzia do sprawdzania faktów. Chociaż mogą być wykorzystywane do tego celu z pewnym powodzeniem, nie jest jasne, jak dobrze i konsekwentnie spełniają to zadanie, zwłaszcza w przypadkach granicznych".
Według Canetty chatboty AI mogą być przydatne do bardzo prostego sprawdzania faktów. Odradza jednak całkowite ufanie im. Obaj eksperci twierdzą, że użytkownicy powinni zawsze sprawdzać odpowiedzi w innych źródłach.
Współpraca: Daniel Ebertz