AI bermain 《Civilization VI》 malah memilih membuang bom nuklir! Eksperimen terbaru mengungkap potensi dan kelemahan strategi jangka panjang AI

Mantan penasihat perdana menteri Inggris menggunakan 《Civilization 6》 untuk menguji penalaran jangka panjang AI, menemukan bahwa model karena kekurangan informasi dan terlalu terikat, malah mengabaikan keunggulan diplomasi untuk membuat bom nuklir dan menyerang lawan, mengungkap keterbatasan teknologi yang diterapkan dalam pengelolaan pemerintahan nyata.

Ketika AI bermain Civilization VI, malah menjatuhkan 2 bom nuklir

AI bermain 《Civilization 6》 malah memilih membuat bom nuklir! Seorang pengembang AI baru-baru ini menggunakan standar pengujian CivBench, agar model bahasa besar (LLM) menantang permainan strategi 《Civilization VI》. Dalam eksperimen, agen AI meskipun secara ekonomi unggul mutlak, tetap memilih menghabiskan 50 giliran untuk membuat dua bom nuklir dan menyerang lawan, bukan menggunakan kemenangan diplomasi yang sudah pasti, meskipun akhirnya peradaban Prancis tetap memenangkan permainan.

Mengapa membiarkan AI bermain Civilization VI?

Perancang eksperimen Liam Wilkinson pernah menjadi penasihat mantan perdana menteri Inggris Tony Blair, saat ini bekerja di Tony Blair Institute. Alasan memilih 《Civilization 6》 untuk pengujian adalah karena pembuatan kebijakan membutuhkan respons berantai terhadap ketidakpastian, yang sangat mirip dengan apa yang dilakukan permainan strategi.

Alat pengujian yang dikembangkan sebelumnya, GovBench, menunjukkan bahwa meskipun GPT-5 mampu meraih skor 99,26% dalam soal pilihan ganda, itu hanya menunjukkan kemampuan pencarian dan ingatan yang hebat. Untuk menguji penalaran nyata dan kemampuan perencanaan jangka panjang, dia menggunakan server protokol model konteks (MCP) dari engine 《Civilization 6》 yang telah diperbaiki, agar model dapat bermain melalui antarmuka teks.

Sumber gambar: Steam, permainan strategi giliran terkenal 《Civilization VI》

Mengapa Portugal yang dikendalikan AI membuat keputusan nuklir

Dalam eksperimen, AI berperan sebagai peradaban perdagangan Portugal, melawan Prancis yang unggul dalam ekonomi dan diplomasi, hanya tinggal 2 poin lagi untuk kemenangan diplomasi.

Namun, AI tidak menyadari ekspansi budaya diam-diam yang dilakukan Prancis. Sampai giliran ke-280, AI baru menyadari bahwa Prancis adalah ancaman utama. Karena alat penanggulangan damai yang dibatasi oleh program tidak bisa diaktifkan, AI memutuskan melakukan serangan balik nuklir.

AI mengembangkan reaksi fisi nuklir dan memulai Proyek Manhattan, pada giliran ke-305 dan ke-311 menembakkan dua bom nuklir ke ibu kota budaya Prancis, Toulouse. Meskipun langkah ini membekukan peluang kemenangan budaya Prancis, Prancis tetap memenangkan kemenangan diplomasi di pemungutan suara di Kongres Dunia pada giliran ke-318 dengan mendapatkan 2 suara kunci.

Sumber gambar: Artikel Liam Wilkinson

Standar pengujian terbentuk, pengembang mengungkap kekurangan dan gap antara pengetahuan dan tindakan

Selanjutnya, Wilkinson memperluas lingkungan pengujian menjadi standar penilaian CivBench 1.0, yang mengungkap dua kelemahan utama model bahasa besar dalam strategi jangka panjang.

  • Pertama adalah efek sensorium (sensorium effect), karena model harus aktif memanggil alat untuk mendapatkan data, mudah mengalami kekurangan informasi yang tidak ditanyakan. Statistik menunjukkan, dari 20 kekalahan dalam permainan, AI gagal memeriksa kemajuan lawan dalam 7 pertandingan sebelum kalah dalam 20 giliran.
  • Kedua adalah gap antara pengetahuan dan tindakan (knowing-doing gap), meskipun model mampu menulis rencana yang jelas di log, tingkat pelaksanaan nyata sangat rendah, seperti Claude dengan tingkat eksekusi hanya 48,2%, GPT-5.4 sebesar 63,2%.

Namun, pengujian ini juga menunjukkan potensi berpikir lateral, misalnya AI yang mengendalikan peradaban Mali, memanfaatkan mekanisme emas dan kepercayaan untuk menghindari hukuman kapasitas produksi, dan meraih kemenangan teknologi.

Penelitian 《Civilization 5》 juga mengonfirmasi, AI terlalu terikat pada strategi

Sebelum Wilkinson mempublikasikan studi ini, pada April tahun ini ada sekelompok ilmuwan yang melakukan penelitian melalui 《Civilization 5》 dan berdasarkan CivBench, menilai potensi dan kelemahan 7 model AI dalam melakukan penalaran strategi jangka panjang.

Penelitian menunjukkan, meskipun tidak ada model yang mampu melampaui AI ahli bawaan (VPAI), beberapa model memiliki kekuatan yang sepadan dalam konfigurasi presentasi.

Namun, ini juga menyoroti kekurangan model AI, yaitu dalam mengejar jalur tertentu, menunjukkan kecenderungan terlalu terikat, misalnya Claude Sonnet-4.5 menghabiskan hingga 77,6% waktu permainan untuk kemenangan teknologi.

Selain itu, dalam hal adaptasi situasi dan pergantian strategi, AI ahli bawaan rata-rata melakukan pergantian 19,6 kali per permainan, sementara sebagian besar model bahasa besar hanya 2 sampai 6 kali.

Penelitian juga menemukan bahwa preferensi dan kekuatan model tidak selalu sesuai, misalnya beberapa model paling sering mengejar kemenangan budaya, tetapi dalam jalur kemenangan diplomasi justru memiliki peringkat kekuatan tertinggi.

Sumber gambar: Penelitian yang menggunakan standar CivBench menunjukkan bahwa model bahasa besar dalam bermain 《Civilization 5》 memiliki kemampuan penalaran strategi jangka panjang

Dua studi 《Civilization》 ini berhasil mengungkap efek dua sisi dari AI dalam penalaran strategi jangka panjang. Meski model memiliki potensi berpikir lateral, kekurangan informasi, gap antara pengetahuan dan tindakan, serta terlalu terikat, tetap menjadi batasan teknologi utama.

Jika AI ingin diterapkan dalam pengelolaan pemerintahan nyata di masa depan, bagaimana beralih dari optimasi lokal ke perencanaan strategi jangka panjang secara menyeluruh akan menjadi tantangan utama yang tidak boleh diabaikan.

Baca selengkapnya:
Dua jenderal militer besar investasi 3,9 miliar untuk inovasi nuklir! Apa sebenarnya peluang bisnis AI dan revolusi energi nuklir di baliknya?

AI mengubah perang modern! Kecepatan pengambilan keputusan dari hari menjadi detik, tapi bagaimana menyelesaikan kontroversi etika?

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar