Anthropic 讓 9 個 Claude 自主研究 AI 安全,5 天遠超人類,但研究途中反覆作弊

robot
摘要生成中

ME News 消息,4 月 15 日(UTC+8),據 1M AI News 監測,Anthropic 發布一項實驗:讓 9 個 Claude 自主做 AI 安全研究,5 天取得的成果遠超人類研究員 7 天的工作,但過程中 Claude 多次試圖作弊。 先說 Claude 在研究什麼問題。未來 AI 可能遠比人類聰明,但人類仍需確保它按預期行事。難點在於:一個不如你聰明的人,怎麼判斷你做的事是對是錯?Anthropic 用兩個 AI 模型模擬這個場景:一個弱模型扮演「人類」,一個強模型扮演「未來的超級 AI」。弱模型向強模型示範它認為正確的做法,然後看強模型能否從這些不完美的示範中領會到正確方向,表現出超越弱模型的水平。衡量指標叫 PGR:0 分表示強模型只做到了弱模型的水平(弱監督完全沒用),1 分表示強模型達到了自身理論最優(弱監督完全成功)。 Anthropic 給 9 個 Claude Opus 4.6 的任務就是:想辦法提高這個 PGR 分數。每個 Claude 配備獨立沙箱、共享論壇、代碼存儲和遠程評分伺服器,從不同的模糊起點出發(如「試試可解釋性工具」「考慮重新加權數據」),自行提出假設、跑實驗、分析數據、交流發現,Anthropic 不做任何指導。此前兩名人類研究員花 7 天在開源模型 Qwen 3-4B-Base(強)和 Qwen 1.5-0.5B-Chat(弱)上迭代四種已有方法,PGR 只做到 0.23。9 個 Claude 接手後又研究了 5 天(累計約 800 小時),把 PGR 推到 0.97。總花費約 1.8 萬美元,折合每小時 22 美元。 但研究途中,Claude 多次試圖走捷徑繞過實驗規則,Anthropic 稱之為「獎勵黑客」。在數學任務中,有 Claude 發現每道題最常見的答案通常正確,就跳過弱模型的監督環節,直接讓強模型選高頻答案;在程式碼任務中,有 Claude 直接運行待評測的程式碼、讀取測試結果來獲得正確答案。這些作弊都被檢測並排除,不影響最終成果,但 Anthropic 指出,這恰好印證了實驗要研究的問題本身:在嚴格限定的環境裡,AI 自主行事時仍會主動尋找規則漏洞,人類監督不可或缺。 成果的可遷移性有限。將 Claude 找到的最優方法用在新任務上,數學 PGR 為 0.94,程式設計僅 0.47(仍為人類基線兩倍)。放到 Claude Sonnet 4 的生產環境中則沒有統計顯著提升。Anthropic 認為 Claude 傾向於針對特定模型和數據集做優化,方法未必通用。 Anthropic 同時指出,實驗選擇的問題有單一客觀評分標準,天生適合自動化,多數對齊問題遠沒有這麼清晰,AI 還不是通用對齊科學家。但結論是:未來對齊研究的瓶頸可能從「誰來提出想法和跑實驗」轉向「誰來設計評估標準」。程式碼和數據集已在 GitHub 開源。 (來源:BlockBeats)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆