SosialGlobal

Seberapa Akurat Jawaban Chatbot AI seperti Grok?

Matt Ford | Ines Eisele

Semakin banyak orang menggunakan chatbot berbasis kecerdasan buatan (AI) seperti Grok, Meta AI, ChatGPT, dan lainnya untuk memverifikasi informasi dengan cepat. Namun, seberapa akurat dan andal jawaban yang diberikan?

Chatbot AI — Chatbot-AIFoto: David Talukdar/ZUMA Press Wire/picture alliance

Iklan

"Hei @Grok, benarkah begitu?" belakangan pertanyaan serupa sering muncul di platform X, terutama sejak Elon Musk membuka akses bagi khalayak nonpremium pada Desember 2024 silam. Melalui aplikasi kecerdasan buatan, pengguna bisa memverifikasi kebenaran sebuah informasi secara langsung.

Belakangan pengguna semakin banyak beralih ke chatbot kecerdasan buatan (AI) seperti ChatGPT, Gemini, atau Perplexity untuk menggantikan mesin pencari tradisional. Karena ketika Google dkk. hanya menyajikan informasi, AI merangkum jawabannya secara singkat dan padat untuk pengguna.

Seberapa akurat?

Sebuah studi yang dilakukan oleh Tow Center for Digital Journalism di Universitas Columbia, yang dipublikasikan pada bulan Maret di Columbia Journalism Review (CJR) menunjukkan, delapan alat pencarian berbasis AI generatif gagal mengidentifikasi sumber kutipan artikel dengan benar dalam 60 persen kasus.

Perplexity dinilai sebagai yang paling akurat, dengan tingkat kesalahan "hanya" 37 persen. Sebaliknya, Grok—AI chatbot buatan xAI milik Elon Musk—mencatat tingkat kesalahan sebesar 94 persen. CJR pun mengungkapkan kekhawatiran serius atas "kepercayaan diri yang mengkhawatirkan" yang ditunjukkan oleh chatbot saat memberikan informasi yang ternyata keliru.

Adapun "ChatGPT secara keliru mengidentifikasi 134 artikel, tetapi hanya dalam lima belas dari 200 tanggapan yang diberikan, AI menunjukkan keraguan terhadap jawabannya. Bahkan, tidak satu pun dari jawabannya disertai penolakan untuk merespons," tulis laporan tersebut. Studi ini menyimpulkan bahwa chatbot pada umumnya "enggan menolak menjawab pertanyaan yang tidak dikuasai.”

Aplikasi AI Populer: Dari ChatGPT hingga DeepSeek

Perkembangan AI telah melahirkan aplikasi inovatif dari berbagai negara, seperti ChatGPT dari AS dan DeepSeek dari Cina.

Foto: Bihlmayerfotografie/Imago

DeepL

DeepL, sebuah perusahaan asal Jerman, telah merilis platform penerjemah berbasis AI yang diklaim mampu mengolah berbagai variasi bahasa dengan akurasi tiga kali lebih tinggi dibandingkan pesaingnya. DeepL juga dapat menerjemahkan halaman web, gambar, hingga email, serta memungkinkan pengguna untuk mengubah nada bicara menjadi formal atau informal sesuai kebutuhan.

Foto: Ralf Hirschberger/ZB/picture alliance

ChatGPT

Dirilis pada November 2022, ChatGPT dari OpenAI dengan cepat menarik perhatian jagat maya karena kemampuannya membuat esai, artikel, puisi, hingga bahasa pemrograman. ChatGPT dirancang untuk aktif berinteraksi dengan pengguna dalam berbagai topik. Saat ini, dengan versi GPT-4, pengguna sudah bisa berinteraksi dengan gambar.

Foto: Jaap Arriens/NurPhoto/picture alliance

Gemini

Dirilis oleh Google pada tahun 2023, Gemini diproyeksikan menjadi pesaing utama ChatGPT. Dengan pembaruan 2.0 Flash, Gemini mampu mengolah teks, visual, dan audio multibahasa dengan tingkat kendali yang tinggi. Model ini diklaim dapat menyelesaikan masalah dengan cara memecah instruksi pengguna menjadi tugas-tugas kecil sehingga menghasilkan jawaban yang akurat.

Foto: Jakub Porzycki/NurPhoto/picture alliance

Copilot

Copilot adalah aplikasi inovatif dari Microsoft yang menggabungkan Large Language Model (LLM) dengan Microsoft 365. Copilot membantu meningkatkan produktivitas dan efisiensi di aplikasi seperti Word, Excel, dan PowerPoint. Fitur cerdasnya termasuk Bing Chat untuk pencarian interaktif, Copilot Vision untuk analisis konten, dan Think Deeper untuk solusi masalah kompleks.

Foto: Andre M. Chang/ZUMA/picture alliance

DeepSeek

Aplikasi DeepSeek, yang dikembangkan oleh perusahaan Cina, memanfaatkan perangkat keras Nvidia yang lebih murah dan lawas. Meski demikian, aplikasi ini diyakini mampu menyaingi ChatGPT. Dengan model "open source"-nya, DeepSeek telah mengguncang pasar saham teknologi AS dan menjadi aplikasi AI teratas di App Store sejak peluncurannya pada Januari 2025.

Foto: Artur Widak/NurPhoto/picture alliance

5 foto

Kesimpulan: Risiko misinformasi masih tinggi

Temuan dari dua studi independen—masing-masing oleh BBC dan Columbia University—menggambarkan pola yang konsisten: chatbot AI saat ini belum dapat dijadikan sumber informasi utama dalam konteks berita dan fakta yang sensitif. Tidak hanya mereka memberikan jawaban keliru, beberapa di antaranya bahkan menambahkan kutipan palsu atau konten yang tidak pernah ada dalam sumber asli.

Dengan meningkatnya penggunaan chatbot AI oleh masyarakat, para pakar memperingatkan risiko serius terhadap penyebaran misinformasi. Salah satu bukti misinformasi oleh Grok disebutkan adalah pola jawabannya soal isu "genosida terhadap kulit putih" di Afrika Selatan,

"Pengguna harus tetap waspada dan kritis terhadap jawaban dari chatbot AI, terutama ketika berkaitan dengan isu-isu aktual atau kontroversial,” ujar Pete Archer, Direktur Program AI Generatif di BBC. "Sampai teknologi ini dapat menjamin akurasi dan transparansi, sebaiknya informasi dari chatbot tetap diperiksa silang dengan sumber berita terpercaya.”

Sumber tidak akurat, hasil menyesatkan

Pertanyaan mendasar lainnya adalah dari mana chatbot AI memperoleh informasi? Jawabannya adalah dari berbagai sumber, termasuk basis data besar dan hasil penelusuran web. Kualitas dan akurasi jawaban sangat bergantung pada bagaimana chatbot tersebut dilatih dan diprogram.

"Salah satu masalah yang baru-baru ini muncul adalah membanjirnya model bahasa besar (LLM) dengan disinformasi dan propaganda dari Rusia,” kata Tommaso Canetta kepada DW.

Canetta adalah Wakil Direktur proyek pemeriksa fakta Pagella Politica di Italia dan juga koordinator pemeriksa fakta di European Digital Media Observatory (EDMO).

"Jika sumbernya tidak tepercaya dan berkualitas rendah, maka jawabannya kemungkinan besar akan mencerminkan hal yang sama,” tambahnya. Dia mengaku sering kali menemukan jawaban chatbot yang "tidak lengkap, tidak akurat, menyesatkan, atau bahkan sepenuhnya salah.”

Gunakan AI Demi Mencapai Keabadian Digital

03:14

This browser does not support the video element.

Saat AI mengarang cerita

Salah satu kasus paling mencolok terjadi pada April 2024, ketika chatbot Meta AI mengklaim di sebuah grup orang tua di Facebook bahwa ia memiliki seorang anak berbakat dengan disabilitas, lalu memberikan saran tentang pendidikan khusus.

Belakangan, chatbot tersebut meminta maaf dan mengaku bahwa ia tidak memiliki pengalaman pribadi atau anak, seperti yang dijelaskan oleh Meta kepada 404Media, yang pertama kali melaporkan kasus ini.

Meta menyatakan, chatbot adalah teknologi baru yang "mungkin tidak selalu memberikan jawaban yang diharapkan." Sejak peluncuran, perusahaan mengklaim telah terus melakukan pembaruan dan peningkatan sistem.

Namun, dampak dari kesalahan informasi bisa sangat serius. Contohnya, pada Agustus 2024, setelah Presiden AS Joe Biden mengundurkan diri dari pencalonan, Grok menyebarkan informasi palsu, bahwa Wakil Presiden Kamala Harris tidak akan muncul dalam surat suara di beberapa negara bagian. Hal ini mendorong Sekretaris Negara Bagian Minnesota, Steve Simon, untuk mengirim surat terbuka kepada Elon Musk sebagai bentuk protes.

Iklan

Kesulitan memahami gambar buatan AI

Tak hanya dalam teks, chatbot AI juga menunjukkan kelemahan serius dalam mengidentifikasi gambar. Dalam sebuah eksperimen singkat, Deutsche Welle meminta Grok untuk menentukan tanggal, lokasi, dan asal-usul dari gambar buatan AI yang menunjukkan kebakaran di hanggar pesawat. Gambar tersebut berasal dari video TikTok.

Namun, dalam jawabannya, Grok menyebut gambar itu terkait dengan beberapa kejadian nyata di berbagai lokasi, seperti bandara di Salisbury (Inggris), Denver (AS), hingga Ho Chi Minh City (Vietnam)—padahal gambar tersebut tidak berkaitan dengan insiden manapun.

Yang lebih mengkhawatirkan, Grok justru menggunakan keberadaan watermark TikTok sebagai "bukti keaslian,” sembari dalam tab "detail lebih lanjut” menyatakan bahwa TikTok merupakan platform penyebar konten viral yang dapat menyesatkan jika tidak diverifikasi dengan baik.

Pada 14 Mei, Grok juga mengklaim bahwa video viral dalam bahasa Portugis, yang menunjukkan seekor anaconda raksasa di Amazon sepanjang ratusan meter adalah asli, meskipun jelas merupakan hasil manipulasi berbasis AI.

AI: Berguna tetapi Rentan Penyalahgunaan

03:38

This browser does not support the video element.

Kesimpulan: AI bukan alat pemeriksa fakta yang andal

Meski chatbot AI kerap terlihat seperti ensiklopedia serba tahu, kenyataannya tidaklah demikian. Mereka bisa salah, salah tafsir, dan bahkan bisa dimanipulasi.

Felix Simon, peneliti pascadoktoral di Oxford Internet Institute yang fokus pada AI dan berita digital, menyimpulkan bahwa sistem AI seperti Grok, Meta AI, dan ChatGPT "tidak seharusnya dianggap sebagai alat pemeriksa fakta.”

"Mereka bisa digunakan dengan hasil tertentu dalam konteks tersebut, tetapi sejauh mana mereka bisa diandalkan dan konsisten—terutama dalam kasus yang kompleks—masih belum jelas.”

Tommaso Canetta menambahkan bahwa chatbot AI mungkin berguna untuk pemeriksaan fakta yang sangat sederhana. Namun, dia memperingatkan agar tidak menaruh kepercayaan sepenuhnya pada mereka. Kedua pakar sepakat bahwa pengguna harus selalu membandingkan jawaban chatbot dengan sumber lain yang tepercaya.

Artikel ini pertama kali terbit dalam Bahasa Jerman

Diadaptasi oleh Rizki Nugraha

Editor Agus Setiawan

Iklan

Lewatkan bagian berikutnya Topik terkait

Topik terkait

Why Chatbots Sometimes Lie

ChatGPT, Bard or Grok: AI-controlled chatbots can distort facts, because they are trained to always use the word that is statistically most likely to follow in a sentence. However, they do not yet understand context.

Can AI chatbots help treat anxiety disorders?

Cingulo is one of many AI therapy apps promising to help improve people's mental health. But do they really work? One user shares her experiences.

Bisakah Saran Medis dari ChatGPT Dipercaya?

Apa kata para ilmuwan tentang kualitas dan keandalan saran medis dari model kecerdasan buatan seperti ChatGPT. Apakah saran AI selalu akurat? Dapatkah AI menggantikan tenaga kesehatan profesional?

Kenapa Model AI Cina DeepSeek Rontokkan Saham Teknologi AS?

Canggihnya performa aplikasi kecerdasan buatan yang dirilis Cina, DeepSeek, pekan lalu mengejutkan Silicon Valley dan merontokkan nilai saham teknologi AS. Produsen chip NVIDIA termasuk yang paling merugi. Kenapa?

Tampilkan liputan lainnya

Lewatkan bagian berikutnya Liputan utama DW

Liputan utama DW

ASEAN Perkuat Relasi dengan Cina dan Teluk

Para pemimpin Asia Tenggara bergulat dengan gelombang ketidakpastian geopolitik yang menghantam ekonomi mereka.

Lewatkan bagian berikutnya Liputan DW lainnya

Liputan DW lainnya

Indonesia

Moratorium PMI ke TimTeng: Kesempatan atau Taruhan Nyawa?

Moratorium PMI ke TimTeng: Kesempatan atau Taruhan Nyawa?

Liputan lainnya dari Indonesia

Asia

Seberapa Bahaya Jihadis Asing bagi Suriah?

Seberapa Bahaya Jihadis Asing bagi Suriah?

Liputan lainnya dari Asia

Jerman

Jerman Ingin Pertahankan Kepemimpinan di Dunia Otomotif

Jerman Ingin Pertahankan Kepemimpinan di Dunia Otomotif

Liputan lainnya dari Jerman

Eropa

Jerman Izinkan Ukraina Gunakan Senjatanya Untuk Serang Rusia

Jerman Izinkan Ukraina Gunakan Senjatanya Untuk Serang Rusia

Liputan lainnya dari Eropa

Ke halaman utama

Iklan