1. Zum Inhalt springen
  2. Zur Hauptnavigation springen
  3. Zu weiteren Angeboten der DW springen
GesellschaftGlobal

Faktencheck: Wie zuverlässig sind KI-Chatbots?

20. Mai 2025

Immer mehr Menschen nutzen KI-Chatbots, um Informationen schnell zu überprüfen. Doch wie genau und zuverlässig sind die Antworten von Grok, Meta AI, ChatGPT & Co?

Frau, die in der Nacht den Inhalt ihres Smartphones überprüft
Fakt oder Fake? Das zu unterscheiden wird immer schwieriger. Auch Künstliche Intelligenz kann nicht immer helfen

"Hey, @Grok, stimmt das?" Seit Elon Musks KI-Unternehmen xAI im November 2023 den generativen Chatbot Grok auf den Markt gebracht und im Dezember 2024 auch für alle Nicht-Premium-Nutzende freigegeben hat, stellen Tausende X-Nutzende (ehemals Twitter) genau diese Frage. Sie wollen mit Hilfe des auf Künstlicher Intelligenz (KI) basierten Systems Informationen schnell überprüfen. 

Eine kürzlich vom britischen Technologie-Portal TechRadar durchgeführte Umfrage ergab: 27 Prozent der Amerikaner verwenden KI-Tools wie ChatGPT von OpenAI, MetaAI von Meta, Gemini von Google, Copilot von Microsoft oder Apps wie Perplexityanstelle herkömmlicher Suchmaschinen wie Google oder Yahoo.

Aber wie genau und zuverlässig sind die Antworten der KI? Diese Frage haben sich viele etwa angesichts der jüngsten Äußerungen von Grok zum "weißen Völkermord" in Südafrika gestellt. Abgesehen von Groks problematischer Haltung zu diesem Thema waren X-Nutzende auch darüber irritiert, dass der Bot anfing, darüber zu sprechen, wenn er zu ganz anderen Themen befragt wurde, wie im folgenden Beispiel:

Ungewöhnliches Verhalten: Ein X-Nutzender fragte Grok nach HBO und erhielt ungewollt Informationen über den "weißen Genozid" in SüdafrikaBild: x

Die Diskussion um den angeblichen "weißen Genozid" kam auf, nachdem die Trump-Administration weiße Südafrikaner als "Flüchtlinge" in die Vereinigten Staaten geholt hatte. Der US-Präsident hatte erklärt, sie seien in ihrer Heimat einem "Völkermord" ausgesetzt - eine an rassistische Verschwörungsmythen andockende Behauptung, für die es keine Beweise gibt.  

xAI machte eine "nicht autorisierte Änderung" für Groks Besessenheit mit dem Thema "weißer Völkermord" für die unerbetenen Antworten verantwortlich und erklärte, "eine gründliche Untersuchung durchgeführt zu haben".

Aber kommen solche Fehler regelmäßig vor? Wie sicher können Nutzende sein, dass sie zuverlässige Informationen erhalten, wenn sie etwas mit Hilfe von KI überprüfen wollen? Das klären wir in diesem DW-Faktencheck.

Studie zeigt sachliche Fehler und verfälschte Zitate

Zwei in diesem Jahr durchgeführte Studien des britischen öffentlich-rechtlichen Rundfunks BBC und des Tow Center for Digital Journalism von der Columbia University in New Yorkhaben erhebliche Defizite bei KI-Chatbots festgestellt. Im Februar stellte eine BBC-Studiefest, dass "die Antworten der KI-Assistenten erhebliche Ungenauigkeiten und verzerrte Inhalte enthielten".

Als ChatGPT, Copilot, Gemini und Perplexity gebeten wurden, auf Fragen zu aktuellen Nachrichten zu antworten und dabei BBC-Artikel als Quellen zu verwenden, wurde festgestellt, dass 51 Prozent der Antworten der Chatbots "signifikante Probleme verschiedener Art" aufwiesen.

Bei 19 Prozent der Antworten wurde festgestellt, dass sie eigene sachliche Fehler hinzugefügt hatten, während 13 Prozent der Zitate entweder verändert wurden oder in den zitierten Artikeln überhaupt nicht vorkamen.

"Bei KI-Assistenten kann man sich derzeit nicht darauf verlassen, dass sie Nachrichten korrekt wiedergeben, und es besteht die Gefahr, dass sie das Publikum in die Irre führen", schlussfolgert Pete Archer, Programmdirektor für generative KI bei der BBC.

Diese "Anakonda" ist zu groß, um wirklich zu existieren. Wenn man bedenkt, wie groß sie ist und wie tief das Wasser sein muss, damit sie darin schwimmen kann, ergibt es keinen Sinn. Grok hat das Bild aber nicht als "falsch" erkannt.Bild: x

Falsche Antworten mit "alarmierender Sicherheit"

Auch eine Untersuchung des Tow Center for Digital Journalism, die im März in der Columbia Journalism Review (CJR)veröffentlicht wurde, ergab, dass acht KI-Tools in 60 Prozent der Fälle nicht in der Lage waren, die Herkunft von Artikelauszügen korrekt zu identifizieren.

Perplexity schnitt mit einer Fehlerquote von "nur" 37 Prozent am besten ab, während Grok 94 Prozent der Abfragen falsch beantwortete. Das CJR zeigte sich besonders besorgt über die "alarmierende Zuversicht", mit der die KI-Tools falsche Antworten gaben.

"ChatGPT identifizierte 134 Artikel falsch, signalisierte aber nur fünfzehn Mal von seinen zweihundert Antworten einen Mangel an Vertrauen und lehnte niemals eine Antwort ab". Insgesamt ergab die Studie, dass Chatbots "im Allgemeinen schlecht darin sind, sich zu weigern, Fragen zu beantworten, die sie nicht genau beantworten können. 

KI-Chatbots sind nur so gut wie ihr Input

Und woher bezieht die KI selbst ihre Informationen? Sie wird aus verschiedenen Quellenwie umfangreichen Datenbanken und Websuchen gespeist. Je nachdem, wie KI-Chatbots trainiert und programmiert werden, kann die Qualität und Genauigkeit ihrer Antworten variieren.

"Ein Problem, das kürzlich aufgetaucht ist, ist die Flutung von LLMs [Anmerkung der Redaktion: Large Language Models] durch russische Desinformation und Propaganda. Es gibt also eindeutig ein Problem mit dem 'Input' der LLMs", sagt Tommaso Canetta der DW. Er ist stellvertretender Direktor des italienischen Fact-Checking-Projekts Pagella Politicaund Fact-Checking-Koordinator beim European Digital Media Observatory (EDMO).

"Wenn die Quellen nicht vertrauenswürdig und qualitativ hochwertig sind, werden die Antworten höchstwahrscheinlich von der gleichen Art sein". Canetta erklärt, dass er selbst regelmäßig auf Antworten stößt, die "unvollständig, ungenau, irreführend oder sogar falsch" sind.

Grok räumt selbst ein, dass KI-Chatbots nicht immer zuverlässig sindBild: X

Wenn die KI sich irrt

Besonders drastisch war eine Behauptung des KI-gestützten Chatbots Meta AI im April 2024. Der Chatbot teilte in einer New Yorker Elterngruppe auf Facebook, dass er ein akademisch begabtes Kind mit einer Behinderung habe. Später entschuldigte sich der Chatbot wohl und gab zu, dass er keine "persönlichen Erfahrungen oder Kinder" hat. Das erklärte Meta gegenüber dem Onbline-Magazin 404media, das über den Vorfall berichtet hatte.

"Es handelt sich um eine neue Technologie, die möglicherweise nicht immer die gewünschte Antwort liefert. Seit der Markteinführung haben wir ständig Updates und Verbesserungen für unsere Modelle veröffentlicht und arbeiten weiter daran, sie zu verbessern."

Die Fehlinformationen können gravierende Folgen haben. So verbreitete Grok im August 2024 nach dem Ausscheiden von US-Präsident Biden aus dem Wahlkampf die falsche Angabe, dass Vizepräsidentin Kamala Harris in mehreren Bundesstaaten nicht mehr auf dem Stimmzettel erscheinen dürfe. Der Staatssekretär von Minnesota, Steve Simon, wandte sich daraufhin in einem öffentlichen Brief an Elon Musk .

Grok schlug vor, dass dieses Bild in den Vereinigten Staaten, England oder Thailand aufgenommen worden sein könnte. In Wirklichkeit wurde es mit KI generiert.Bild: X

 

Grok ordnet KI-Bild realen Ereignissen zu

Nicht nur mit Nachrichten scheinen KI-Chatbots Schwierigkeiten zu haben, auch bei der Identifizierung von KI-generierten Bildern zeigen sie starke Einschränkungen.

In einem kurzen Experiment bat die DW Grok, Datum, Ort und Ursprung eines KI-generierten Bildes eines Feuers in einem zerstörten Flugzeughangar zu identifizieren, das aus einem TikTok-Video stammt. In seinen Erklärungen behauptete Grok, das Bild zeige verschiedene Vorfälle an verschiedenen Orten, von einem kleinen Flugplatz in Salisbury in England über den Denver International Airport in Colorado bis hin zum Tan Son Nhat International Airport in Ho Chi Minh City in Vietnam.

An diesen Orten hat es in den vergangenen Jahren tatsächlich Unfälle und Brände gegeben, aber das fragliche Bild zeigte nichts davon. Noch besorgniserregender ist, dass Grok einen Teil des "TikTok"-Wasserzeichens in der Ecke des Bildes erkannte und meinte, dies spreche "für die Echtheit des Bildes".

Auf der Registerkarte "Weitere Details" erklärte Grok hingegen, dass TikTok "eine Plattform ist, die häufig für die schnelle Verbreitung viraler Inhalte genutzt wird, was zu Fehlinformationen führen kann, wenn sie nicht ordnungsgemäß überprüft werden".

Grok schien auch anzudeuten, dass die Tatsache, dass dieser Screenshot aus einem TikTok-Video stammen könnte, ein Zeichen für seine Authentizität seiBild: X

Am 14. Mai attestierte Grok (auf Portugiesisch) einem viralen Video Echtheit, das eine mehrere hundert Meter lange Anakonda im Amazonas zu zeigen scheint. Dabei wurde es eindeutig mithilfe von Künstlicher Intelligenz erzeugt.

KI-Chatbots taugen nicht zum Fakten überprüfen

KI-Chatbots mögen wie eine allwissende Entität erscheinen, aber sie sind es nicht. Sie machen Fehler, missverstehen Dinge und können sogar manipuliert werden. Felix Simon, Postdoktorand für KI und digitale Nachrichten und wissenschaftlicher Mitarbeiter am Oxford Internet Institute (OII), kommt zu dem Schluss: "KI-Systeme wie Grok, Meta AI oder ChatGPT sollten nicht als Werkzeuge zum Faktenchecken betrachtet werden. Sie können zwar mit einigem Erfolg zu diesem Zweck eingesetzt werden, aber es ist unklar, wie gut und konsistent sie diese Aufgabe erfüllen, vor allem in Grenzfällen".

Für Canetta können KI-Chatbots für sehr einfache Faktenchecks nützlich sein. Er rät aber auch dazu, ihnen nicht völlig zu vertrauen. Beide Experten sagen, dass die Nutzenden die Antworten immer mit anderen Quellen überprüfen sollten. 

Daniel Ebertz hat zu diesem Bericht beigetragen.

Den nächsten Abschnitt Mehr zum Thema überspringen