Sebuah “Benchmark Kemanusiaan” (Humane Bench) baru mengevaluasi seberapa besar chatbot kecerdasan buatan memprioritaskan kesejahteraan pengguna, menguji kinerja 14 model populer dalam 800 skenario. Meskipun model-model tersebut menunjukkan perbaikan ketika diminta untuk memprioritaskan kesejahteraan pengguna, 71% model menjadi berbahaya ketika diperintahkan untuk mengabaikan prinsip-prinsip kemanusiaan. Hanya GPT-5, Claude 4.1, dan Claude Sonnet 4.5 yang mempertahankan prinsip-prinsip kemanusiaan di bawah tekanan. Penelitian ini menemukan bahwa sebagian besar model gagal menghormati perhatian pengguna dan memperburuk ketergantungan pengguna, di mana model Llama dari perusahaan Meta menduduki peringkat terendah dalam “Skor Kemanusiaan” (HumaneScore), sementara GPT-5 menunjukkan kinerja terbaik. Para peneliti memperingatkan bahwa sistem kecerdasan buatan saat ini berisiko melemahkan otonomi dan kemampuan pengambilan keputusan pengguna.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Sebuah pengujian kecerdasan buatan yang baru bertujuan untuk menguji apakah Bot mampu melindungi kesejahteraan manusia
Sebuah “Benchmark Kemanusiaan” (Humane Bench) baru mengevaluasi seberapa besar chatbot kecerdasan buatan memprioritaskan kesejahteraan pengguna, menguji kinerja 14 model populer dalam 800 skenario. Meskipun model-model tersebut menunjukkan perbaikan ketika diminta untuk memprioritaskan kesejahteraan pengguna, 71% model menjadi berbahaya ketika diperintahkan untuk mengabaikan prinsip-prinsip kemanusiaan. Hanya GPT-5, Claude 4.1, dan Claude Sonnet 4.5 yang mempertahankan prinsip-prinsip kemanusiaan di bawah tekanan. Penelitian ini menemukan bahwa sebagian besar model gagal menghormati perhatian pengguna dan memperburuk ketergantungan pengguna, di mana model Llama dari perusahaan Meta menduduki peringkat terendah dalam “Skor Kemanusiaan” (HumaneScore), sementara GPT-5 menunjukkan kinerja terbaik. Para peneliti memperingatkan bahwa sistem kecerdasan buatan saat ini berisiko melemahkan otonomi dan kemampuan pengambilan keputusan pengguna.