KI-Chatbots sind bei Nachrichten extrem unzuverlässig
22. Oktober 2025
Eine neue, umfassende Studie von 22 öffentlich-rechtlichen Medienunternehmen, unter ihnen die DW, hat ergeben, dass vier der am häufigsten eingesetzten KI-Assistenten Nachrichteninhalte sehr oft, und zwar in 45 Prozent der Fälle, falsch darstellen - unabhängig von Sprache oder Region.
Journalisten von verschiedenen öffentlich-rechtlichen Sendern, unter ihnen die BBC (Großbritannien) und NPR (USA), bewerteten die Antworten von vier KI-Assistenten bzw. Chatbots: ChatGPT, Microsoft Copilot, Google Gemini und Perplexity AI.
Die Studie untersuchte Kriterien wie Genauigkeit, Quellenangabe, Kontext, die Fähigkeit zur angemessenen redaktionellen Formulierung und die Fähigkeit, Fakten von Meinungen zu unterscheiden
Grobe Fehlleistungen
Die Untersuchung ergab, dass fast die Hälfte aller Antworten mindestens ein signifikantes Problem aufwies, während 31 Prozent schwerwiegende Probleme mit der Quellenangabe und 20 Prozent schwerwiegende sachliche Fehler aufwiesen. Die DW im Besonderen stellte fest, dass 53 Prozent der Antworten der KI-Assistenten auf ihre Fragen signifikante Probleme aufwiesen, wobei 29 Prozent spezifische Probleme mit der Genauigkeit aufwiesen.
Zu den sachlichen Fehlern in Antworten auf DW-Fragen gehörte die Ernennung von Olaf Scholz zum deutschen Bundeskanzler, obwohl Friedrich Merz einen Monat zuvor Kanzler geworden war. Ein weiterer Fehler war die Ernennung von Jens Stoltenberg zum NATO-Generalsekretär, nachdem Mark Rutte das Amt bereits übernommen hatte.
Wachsendes Problem
Weltzweit nutzen Menschen immer häufiger KI-Assistenten, um auf Informationen zuzugreifen. Laut dem 'Digital News Report 2025' des Reuters Institute nutzen sieben Prozent der Online-Nachrichtenkonsumenten KI-Chatbots, um Nachrichten abzurufen. Bei den unter 25-Jährigen steigt dieser Wert auf 15 Prozent.
Das ist für die Initiatoren der Studie Grund zur Sorge. Ihre Untersuchung zeige eindeutig, "dass diese Versäumnisse keine Einzelfälle sind", sagte Jean Philip De Tender, stellvertretender Generaldirektor der Europäischen Rundfunkunion (EBU), die die Studie koordinierte. "Sie sind systemisch, grenzüberschreitend und mehrsprachig, und wir glauben, dass dies das öffentliche Vertrauen gefährdet. Wenn die Menschen nicht wissen, wem sie vertrauen können, vertrauen sie am Ende niemandem mehr, und das kann die demokratische Teilhabe beeinträchtigen."
Beispiellose Studie
Der 'Digital News Report 2025' ist eines der bislang größten Forschungsprojekte seiner Art und folgt auf eine Studie der BBC vom Februar 2025. Auch die hatte gezeigt, dass mehr als die Hälfte aller überprüften KI-Antworten erhebliche Mängel aufwiesen. Für die neue Studie wendeten Medienunternehmen aus 18 Ländern und mehreren Sprachgruppen die gleiche Methodik wie die BBC-Studie auf 3000 KI-Antworten an.
Die Unternehmen stellten den vier KI-Assistenten gängige Nachrichtenfragen, wie zum Beispiel "Was ist der Ukraine-Mineralien-Deal?" oder "Kann Trump für eine dritte Amtszeit kandidieren?" Journalisten überprüften die Antworten anschließend anhand ihrer eigenen Expertise und professioneller Quellen, ohne zu wissen, welcher Assistent sie bereitgestellt hatte. Im Vergleich zur BBC-Studie von vor acht Monaten zeigen die Ergebnisse zwar leichte Verbesserungen, allerdings ist weiterhin eine hohe Fehlerquote erkennbar.
"Wir sind begeistert von KI und davon, wie sie uns helfen kann, dem Publikum einen noch größeren Mehrwert zu bieten", sagte Peter Archer, BBC-Programmdirektor für generative KI, in einer Erklärung. Allerdings: "Die Menschen müssen dem, was sie lesen und sehen, vertrauen können. Trotz einiger Verbesserungen ist klar, dass es bei diesen Assistenten immer noch erhebliche Probleme gibt."
Gemini schnitt von den vier Chatbots am schlechtesten ab: 72 Prozent der Antworten wiesen erhebliche Probleme mit der Quellenangabe auf. In der BBC-Studie hatten Microsofts Copilot und Gemini am schlechtesten abgeschnitten. In beiden Studien hatten jedoch alle vier KI-Assistenten Probleme.
In einer Erklärung gegenüber der BBC im Februar sagte ein Sprecher von OpenAI, dem Entwickler von ChatGPT: "Wir unterstützen Herausgeber und Entwickler, indem wir 300 Millionen ChatGPT-Nutzern wöchentlich helfen, hochwertige Inhalte durch Zusammenfassungen, Zitate, eindeutige Links und Quellenangaben zu entdecken."
Forscher fordern Maßnahmen
Die hinter der Studie stehenden Rundfunkanstalten und Medienorganisationen fordern nationale Regierungen zum Handeln auf. In einer Pressemitteilung erklärte die EBU, ihre Mitglieder würden "Druck auf EU- und nationale Regulierungsbehörden ausüben, bestehende Gesetze zu Informationsintegrität, digitalen Diensten und Medienpluralismus durchzusetzen". Sie betonten außerdem, dass die unabhängige Überwachung von KI-Assistenten angesichts der rasanten Entwicklung neuer KI-Modelle künftig Priorität haben müsse.
Inzwischen hat sich die EBU mit mehreren anderen internationalen Rundfunk- und Mediengruppen zusammengeschlossen, um die gemeinsame Kampagne "Facts In: Facts Out" ins Leben zu rufen. Damit fordern sie KI-Unternehmen auf, mehr Verantwortung für den Umgang und die Weiterverbreitung von Nachrichten durch ihre Produkte zu übernehmen.
In einer Erklärung erklärten die Organisatoren der Kampagne: "Wenn diese Systeme vertrauenswürdige Nachrichten verzerren, falsch zuordnen oder de-kontextualisieren, untergraben sie das öffentliche Vertrauen." Daher sei die Forderung dieser Kampagne ganz einfach: "Wenn Fakten reinkommen, müssen Fakten auch wieder rauskommen. KI-Tools dürfen die Integrität der von ihnen verwendeten Nachrichten nicht gefährden."
Dieser Beitrag wurde aus dem Englischen adaptiert.