🌕 Gate 广场 · 中秋创作激励限时开启!
创作点亮中秋,带热门话题发帖,瓜分 $5,000 中秋好礼!🎁
立即报名查看详情 👉 https://www.gate.com/campaigns/1953
💝 新用户首次发帖并完成互动任务,即可瓜分 $600 新人奖池!
🔥 今日热门话题: #我最看好的AI代币#
山寨季蓄势待发,AI板块代币普涨, #WLD# 、 #KAITO# 领涨,龙头 WLD 单日暴涨近48%,AI、IO、VIRTUAL 顺势跟上。近期你计划布局哪些潜力 AI 币?快来分享你的投资心得吧!
发帖建议:
1️⃣ AI 板块未来发展你怎么看?
2️⃣ 你最近看好哪些 AI 币向大家推荐?理由是什么?
3️⃣ 你最近的 AI 币种交易策略如何?
快带上 #我最看好的AI代币# 和 #Gate广场创作点亮中秋# 发帖,内容越多越优质,越有机会赢取 $5,000 中秋好礼!
OpenAI 最新研究:为何 GPT-5 与其他 LLM 还是会胡说八道
OpenAI 发布最新研究论文,直言即使大型语言模型 (LLM) 像 GPT-5 已经进步不少,但是「AI 幻觉」 (Hallucinations) 依旧是根本问题,甚至永远无法完全消除。研究团队透过实验,揭露模型在回答特定问题时,会自信满满却给出完全错误的答案,并提出一套新的「评估机制」改革方案,希望能减少模型「乱猜」的情况。
研究员测试 AI 模型不同问题,答案全错
研究人员向某个被广泛使用的聊天机器人,询问某个的博士论文题目,结果连续得到三个答案全都错误。接着再问他的生日,机器人同样给了三个不同日期,结果还是全错。
研究表示,AI 模型在面对一些资料里「很不常见的资讯」时,它会很有自信地给出答案,但却错得离谱。
预训练机制只学「语言表面」,不懂事实正确性
研究指出,模型的预训练过程,是透过大量文字来「预测下一个词」,但资料里没有标注「真或假」。换句话说,模型只学到语言的表面,而不是事实正确性。
拼字或括号这类规律性高的东西,随着模型规模变大,错误会逐渐消失。
但像是「某人生日」这种随机性高的资讯,无法靠语言模式推理出来,因此容易产生幻觉。
AI 模型被鼓励「瞎猜」,需修正模型评估模式
研究强调评估方式要大改,重点不是单纯看「对或错」,而是要重罚那种错得很自信的答案,并且奖励 AI 要「老实说不知道」。换句话说,AI 要是乱讲答案,比承认不知道更该被扣分。
反过来,如果它回答「不确定」,也应该拿到一些分数,而不是直接算零分。而且这不能只是多加几个测验做做样子,而是要彻底推翻现在只看答对率的评估制度。不改正评估方式,AI 只会继续乱猜。
研究最后表示要降低幻觉,就必须从评估体系下手,建立能真正鼓励「谨慎与诚实」的测试方式。与其要求 AI「每次都答对」,更重要的是建立一个能接受 AI「不知道」的游戏规则。
(2025 最新五大主流 LLM 全解析,付费、应用与安全性一次看懂)
这篇文章 OpenAI 最新研究:为何 GPT-5 与其他 LLM 还是会胡说八道 最早出现于 链新闻 ABMedia。