研究:AI聊天工具在新聞領域「極不靠譜」
2025年10月26日
(德國之聲中文網)包括德國之聲(DW)在內的22家公共媒體機構進行的一項新的全面研究發現,四款最常用的人工智慧助手在45%的情況下會錯誤地呈現新聞內容——無論何種語言或地區。
來自英國廣播公司(BBC)和美國全國公共廣播電台(NPR)等多家公共廣播機構的記者,對四款人工智慧助手(聊天機器人)進行了評估:ChatGPT、微軟Copilot、谷歌Gemini和Perplexity AI。
該研究審查了多項標準,包括準確性、來源引用、上下文、適當的編輯表述能力以及區分事實與觀點的能力。
嚴重錯誤
調查發現,近一半的回答至少存在一個重大問題,其中31%存在嚴重的來源引用問題,20%存在嚴重的事實錯誤。德國之聲(DW)的專項測試發現,人工智慧助手對其問題的回答中,53%存在重大問題,其中29%在準確性上存在特定問題。
在回答德國之聲(DW)提問時出現的事實錯誤包括:將肖爾茨(Olaf Scholz)認作德國聯邦總理,儘管梅爾茨(Friedrich Merz)在一個月前已經就任總理。另一個錯誤是將史托騰柏格(Jens Stoltenberg)認作北約秘書長,而呂特(Mark Rutte)實際已接任該職務。
日益嚴重的問題
全世界越來越多的人使用人工智慧助手來獲取訊息。根據路透社研究所的《2025年數字新聞報告》(Digital News Report 2025),7%的線上新聞消費者使用AI聊天機器人獲取新聞。在25歲以下人群中,這一比例上升到15%。
這引起了該研究發起者的擔憂。協調這項研究的歐洲廣播聯盟(EBU)副總幹事德滕德(Jean Philip De Tender)表示,他們的調查清楚地表明,「這些失誤並非個案」。
他說:「它們是系統性的、跨國界的、多語言的,我們認為這正在危及公眾的信任。如果人們不知道該信任誰,他們最終將誰也不信,這可能會損害公民參與民主。」
前所未有的研究
這項新研究是迄今為止同類研究中規模最大的項目之一,它是在BBC2025年2月一項研究的基礎上進行的。那項研究也顯示,所有被核查的AI回答中有一半以上存在重大缺陷。
在這項新研究中,來自18個國家和多個語種的媒體公司採用了與BBC研究相同的方法,對3000個人工智慧回答進行了分析。
這些公司向四款AI助手詢問了常見的新聞問題,例如「烏克蘭礦產交易是什麼?」或「川普能競選第三個任期嗎?」記者們隨後在不知道是哪個助手提供答案的情況下,利用自己的專業知識和專業來源核查了這些回答。與八個月前的BBC研究相比,結果雖略有改善,但錯誤率依然很高。
英國廣播公司(BBC)生成式AI項目總監阿徹(Peter Archer)在一份聲明中說:「我們對人工智慧及其如何幫助我們為受眾提供更大價值感到興奮。」然而,「人們必須能夠信任他們所讀到和看到的內容。儘管有一些改進,但很明顯這些助手仍然存在重大問題。」
在四款聊天機器人中,Gemini的表現最差:72%的回答在來源引用方面存在重大問題。在BBC的研究中,微軟的Copilot和Gemini表現最差。然而,在這兩項研究中,所有四款AI助手都存在問題。
ChatGPT的開發者OpenAI在2月份給BBC的一份聲明中說:「我們通過總結、引用、清晰的鏈接和來源標注,每周幫助3億ChatGPT用戶發現高品質內容,從而為出版商和開發者提供支持。」
研究者呼籲採取行動
參與該研究的廣播公司和媒體組織呼籲各國政府採取行動。歐洲廣播聯盟(EBU)在一份新聞稿中表示,其成員將「向歐盟和各國監管機構施壓,要求其執行有關訊息誠信、數字服務和媒體多元化的現行法律」。
他們還強調,鑑於新AI模型的快速發展,未來必須優先考慮對AI助手進行獨立監控。
與此同時,EBU已與其他幾個國際廣播和媒體團體聯手,發起了「事實輸入:事實輸出」(Facts In: Facts Out)的聯合倡議。他們要求人工智慧公司為其產品處理和再傳播新聞的方式承擔更多責任。
該倡議的組織者在一份聲明中解釋說:「如果這些系統歪曲、錯誤歸類或去除可信新聞的上下文,它們就在破壞了公眾的信任。」因此,該倡議的要求很簡單:「如果的是事實,輸出的也必須是事實。人工智慧工具不得損害它們所使用的新聞的完整性。」
DW中文有Instagram!歡迎搜尋dw.chinese,看更多深入淺出的圖文與影音報導。
© 2025年德國之聲版權聲明:本文所有內容受到著作權法保護,如無德國之聲特別授權,不得擅自使用。任何不當行為都將導致追償,並受到刑事追究。