AI玩《文明6》竟选择丢核弹!最新实验揭露AI长期战略推理潜力与利弊

前英国首相顾问利用《文明6》测试AI长期推理,发现模型因信息盲点与过度执着,竟放弃外交优势制造核弹轰炸对手,揭露其应用于现实政务治理的技术局限。

当AI玩文明帝国6,竟投下2枚核弹

AI 玩《文明 6》竟选择造核弹!一位 AI 开发者最近利用 CivBench 基准测试,让大型语言模型(LLM)挑战策略游戏《文明帝国 6》(Civilization VI)。实验中,AI 代理人虽在经济上占绝对优势,却在面对威胁时,选择耗费 50 回合制造两枚核弹轰炸对手,而非采取原本胜券在握的外交胜利手段,不过最终对手法国文明依然赢得胜利。

为何要让AI玩文明帝国6?

实验设计者连恩·威尔金森(Liam Wilkinson)曾任英国前首相托尼·布莱尔(Tony Blair)顾问,现任职于托尼·布莱尔研究所。之所以选择《文明帝国 6》来测试,是因为政策制定需要应对不确定性的连锁反应,这与策略游戏要做的事情十分相似。

他之前开发的测试工具 GovBench 显示,即便 GPT-5 能在选择题中取得 99.26% 高分,也仅代表具备优秀的检索与记忆能力。为了测试真实推理与长期规划能力,他利用《文明帝国 6》引擎除错端建立模型脉络协议(MCP)服务器,让模型通过文字界面进行游戏。

图源:Steam 知名回合制策略游戏《文明帝国6》

AI操作的葡萄牙,为何做出核武决策

在实验中,AI 扮演贸易文明葡萄牙,对战法国时,在经济与外交上全面领先,距离外交胜利仅剩 2 票。

然而,AI 未能察觉法国默默进行的文化扩张。直到第 280 回合,AI 才发现法国是主要威胁。由于和平反制工具因程序限制无法启用, AI 决定执行核武反击。

AI 研发核分裂并开启曼哈顿计划,于第 305 回合与第 311 回合向法国文化首都图卢兹(Toulouse)投下两枚核弹。虽然此举冻结了法国文化胜率,但法国仍于第 318 回合的世界议会投票中拿到关键 2 票,赢得外交胜利。

图源:Liam Wilkinson文章

基准测试成形,开发者揭盲点与知行差距

随后,威尔金森将测试环境拓展为评测基准 CivBench 1.0,结果揭露大型语言模型在长期战略上的两大弊端。

  • **首先是感知效应(sensorium effect),**由于模型必须主动通过工具调用获取数据,容易对未询问的信息产生盲点。统计显示,在 20 场失败赛局中,人工智能有 7 场在失败前 20 回合内,从未检查过对手进度。
  • **其次是知行差距(knowing-doing gap),**模型虽能在日志中写下清晰规划,实际落实率却偏低,如 Claude 的执行率仅 48.2%,GPT-5.4 为 63.2%。

不过,测试也展现了横向思考潜力,例如操作马里文明的 AI ,会利用黄金与信仰机制绕过产能惩罚,夺下科技胜利。

文明5研究同步验证,AI战略过度执着

在威尔金森发表研究文章前,今年 4 月也有一组学者通过《文明帝国 5》并基于 CivBench 进行研究,评估 7 种 AI 模型在面对长时间战略推理的潜力与利弊。

研究指出,虽然没有模型能超越内建专家级人工智能(VPAI),但在简报配置下,部分模型实力与其相当。

然而,这也凸显了 AI 模型的短板,意味着在追求特定路径时展现出极端的过度执着倾向,例如 Claude Sonnet-4.5 将高达 77.6% 的游戏时间投入科技胜利。

另外,在局势适应与战略切换上,内建专家级 AI 平均每场切换 19.6 次目标,而多数大型语言模型仅切换 2 至 6 次。

研究也发现模型偏好与强项存在错位,例如部分模型最常追求文化胜利,但在外交胜利路径上反而拥有最高实力评级。

图源:研究论文有研究透过CivBench基准测试研究,大型语言模型在游玩《文明帝国5》的长时间战略推理能力

这两项《文明帝国》研究成功揭露了 AI 在长期战略推理上的双刃剑效应。尽管模型具备横向思考的潜力,但信息盲区、知行差距与过度执着,仍是重大的技术限制。

未来 AI 若要应用于现实的政务治理,如何从局部优化跨越到全局长期的战略规划,将是不可忽视的核心挑战。

延伸阅读:
两大军事狂人砸39亿投资核新创!背后的AI热商机与核能革命是什么?

AI重塑现代战争!决策速度从数日压缩至数秒,但伦理争议怎么解?

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论