Siaran Publik – Kecerdasan buatan berbasis chatbot kini semakin populer sebagai alat untuk merangkum penelitian ilmiah, namun sebuah studi baru mengungkap bahwa sistem ini sering kali menyalahartikan temuan yang mereka ringkas.
Diterbitkan dalam jurnal Royal Society Open Science, studi tersebut menemukan bahwa model bahasa paling banyak digunakan cenderung melebih-lebihkan hasil penelitian ilmiah terkadang membuat klaim yang lebih luas atau lebih meyakinkan dibandingkan dengan yang sebenarnya didukung oleh penelitian asli.
Tendensi ini justru lebih umum terjadi pada model-model terbaru, dan secara paradoks malah memburuk ketika chatbot secara eksplisit diminta untuk lebih akurat.
Dilansir dari psypost, penelitian ini dipimpin oleh Uwe Peters dari Utrecht University dan Benjamin Chin-Yee dari Western University serta University of Cambridge. Para peneliti terdorong oleh meningkatnya kekhawatiran terhadap penggunaan model bahasa besar seperti ChatGPT, Claude, DeepSeek, dan LLaMA dalam komunikasi sains.
Alat-alat ini kerap dipuji karena kemampuannya menyederhanakan materi yang kompleks, tetapi para kritikus memperingatkan bahwa mereka bisa mengabaikan batasan atau catatan penting, terutama saat mengubah temuan teknis menjadi bahasa yang lebih mudah dibaca. Generalisasi berlebihan dapat menyesatkan pembaca, terutama ketika hasil ilmiah diperlakukan seolah berlaku secara universal atau ketika temuan yang belum pasti diubah menjadi rekomendasi kebijakan.
Untuk menguji kekhawatiran tersebut, para peneliti melakukan evaluasi berskala besar terhadap 10 model bahasa besar paling menonjol. Ini termasuk sistem populer seperti GPT-4 Turbo, ChatGPT-4o, Claude 3.7 Sonnet, dan DeepSeek. Secara total, mereka menganalisis 4.900 ringkasan yang dihasilkan chatbot terhadap teks ilmiah.
Materi sumber terdiri dari 200 abstrak penelitian dari jurnal sains dan kedokteran terkemuka seperti Nature, Science, The Lancet, dan The New England Journal of Medicine, serta 100 artikel medis lengkap. Untuk sebagian artikel lengkap ini, para peneliti juga menyertakan ringkasan yang ditulis oleh ahli dari NEJM Journal Watch untuk memungkinkan perbandingan antara ringkasan yang dibuat manusia dan yang dihasilkan AI.
Setiap ringkasan diperiksa untuk melihat adanya tanda-tanda generalisasi berlebihan. Para peneliti fokus pada tiga fitur spesifik yang memperluas cakupan klaim ilmiah:
1. Menggunakan pernyataan umum alih-alih pernyataan spesifik,
2. Mengganti deskripsi dalam bentuk lampau menjadi bentuk sekarang, dan
3. Mengubah temuan deskriptif menjadi rekomendasi yang bersifat aksi.
Sebagai contoh, jika sebuah studi menyatakan bahwa “peserta dalam uji coba ini mengalami perbaikan,” maka versi yang telah digeneralisasi bisa berbunyi “perawatan ini meningkatkan hasil,” yang bisa memberikan kesan keliru bahwa efek tersebut berlaku secara lebih luas atau universal.
Mayoritas model bahasa menghasilkan ringkasan yang secara signifikan lebih mungkin mengandung kesimpulan yang digeneralisasi dibandingkan dengan teks aslinya. Bahkan, ringkasan dari model-model terbaru seperti ChatGPT-4o dan LLaMA 3.3 hingga 73% lebih mungkin mengandung generalisasi. Sebaliknya, model-model terdahulu seperti GPT-3.5 dan keluarga Claude cenderung lebih sedikit memperkenalkan masalah tersebut.
Para peneliti juga menemukan bahwa memberi instruksi kepada model untuk “menghindari ketidakakuratan” tidak membantu justru membuat hasil lebih buruk. Ketika model diminta untuk akurat, kemungkinan besar mereka menghasilkan pernyataan yang terdengar lebih meyakinkan—tetapi menyesatkan. Salah satu penjelasan atas hasil yang bertentangan dengan intuisi ini mungkin berkaitan dengan cara model memahami permintaan. Mirip dengan kecenderungan manusia yang justru memikirkan sesuatu ketika diminta untuk tidak memikirkannya, model mungkin merespons pengingat soal akurasi dengan menghasilkan ringkasan yang terdengar lebih otoritatif.
Selain membandingkan ringkasan chatbot dengan penelitian asli, studi ini juga melihat bagaimana performa model dibandingkan dengan penulis sains manusia. Secara khusus, para peneliti membandingkan ringkasan yang dihasilkan model terhadap penelitian medis dengan ringkasan ahli yang dipublikasikan di NEJM Journal Watch. Mereka menemukan bahwa ringkasan yang ditulis manusia jauh lebih jarang mengandung generalisasi berlebihan. Bahkan, ringkasan yang dihasilkan chatbot hampir lima kali lebih mungkin memperluas cakupan kesimpulan ilmiah melampaui apa yang sebenarnya didukung oleh studi aslinya.
Temuan menarik lainnya adalah soal pengaruh pengaturan model. Ketika para peneliti menggunakan API untuk menghasilkan ringkasan dengan pengaturan “temperature” pada angka 0, sebuah nilai yang membuat model lebih deterministik dan kurang kreatif kemungkinan terjadinya generalisasi berlebihan menurun secara signifikan. Ini menunjukkan bahwa mengendalikan parameter teknis tertentu dapat membantu mengurangi kesalahan, meski opsi ini mungkin tidak tersedia bagi pengguna biasa yang mengakses chatbot melalui antarmuka web standar.
Para peneliti mencatat bahwa tidak semua generalisasi itu buruk. Kadang-kadang, penyederhanaan temuan yang kompleks bisa membuat sains lebih mudah diakses, terutama bagi kalangan non-ahli. Namun, ketika generalisasi melampaui bukti yang tersedia, itu bisa menyesatkan pembaca dan bahkan menimbulkan risiko. Hal ini sangat mengkhawatirkan di bidang-bidang berisiko tinggi seperti kedokteran, di mana klaim yang dilebih-lebihkan bisa memengaruhi keputusan klinis.
Walau studi ini berfokus pada generalisasi berlebihan, para peneliti juga mengakui bahwa generalisasi yang terlalu sempit (undergeneralization) juga bisa terjadi. Sebuah model bisa saja mengubah temuan yang secara luas didukung menjadi ringkasan yang terlalu sempit, sehingga mengurangi bobot hasil penting. Namun, kasus-kasus ini jauh lebih jarang dibandingkan generalisasi berlebihan, yang menjadi fokus utama penelitian.
Studi ini menonjol bukan hanya karena skala dan ketelitiannya, tetapi juga karena menawarkan kerangka kerja yang jelas untuk mengevaluasi seberapa baik model bahasa menjaga cakupan kesimpulan ilmiah. Para peneliti menyarankan agar pengembang dan pengguna model bahasa mengadopsi sejumlah strategi untuk mengurangi risiko ringkasan yang menyesatkan. Ini termasuk:
Menggunakan model dengan pengaturan yang lebih konservatif,
Menghindari permintaan eksplisit soal akurasi,
Memilih sistem seperti Claude yang menunjukkan kesetiaan lebih tinggi terhadap teks asli.
Namun, studi ini memiliki beberapa keterbatasan. Hanya beberapa jenis permintaan (prompt) yang diuji, dan sebagian besar berfokus pada riset medis, yang mungkin tidak bisa digeneralisasi ke seluruh bidang ilmu pengetahuan. Ringkasan yang ditulis manusia untuk perbandingan juga berasal dari audiens ahli dan mungkin tidak mencerminkan jenis ringkasan yang ditujukan untuk publik umum. Studi-studi mendatang bisa mengeksplorasi bagaimana strategi permintaan atau konfigurasi model berbeda memengaruhi performa di berbagai bidang ilmu pengetahuan.
Studi berjudul “Generalization bias in large language model summarization of scientific research” ini ditulis oleh Uwe Peters dan Benjamin Chin-Yee. (PsyPost/Siaran Publik)