Cursor披露「自舉」訓練法:用舊Composer給新模型搭環境,Terminal-Bench漲14個點

robot
摘要生成中

根據動察 Beating 監測,Cursor 公開了 Composer 系列模型的一個訓練技巧:用上一代模型為下一代的強化學習(RL)自動搭建可運行環境。訓練 Composer 2 時,Cursor 用 Composer 1.5 來完成這項工作,稱之為 autoinstall。 RL 訓練需要可運行的程式碼環境。環境搭不好,模型把 token 浪費在調 bug 上,學不到東西;極端情況下環境徹底跑不通,整輪訓練的算力白燒。autoinstall 分兩步解決這個問題:第一步,一個 agent 讀程式碼庫的文件和配置,提出 10 條驗證命令及預期輸出;第二步,另一個 agent 拿到其中 3 條命令,從零開始配置環境直到命令跑通。第二步最多重試 5 次,全部失敗則丟棄該環境。 配環境的過程中,agent 會主動補齊缺失依賴:偽造資料庫表、建立 MinIO 配置替代 S3、啟動 Docker 容器充當 sidecar 服務,甚至生成佔位圖片。博文以區塊鏈項目 celo-org/celo-monorepo 為例演示了全流程,agent 在第一輪配環境失敗後,第二輪自行建立 mock 用戶繞過認證,最終跑通測試。 Composer 2 在 Terminal-Bench(測試模型搭建開發環境能力的基準)上得分 61.7%,比 Composer 1.5 的 47.9% 高出近 14 個百分點。Cursor 表示未來計劃讓舊版 Composer 參與更多訓練環節,包括數據預處理、運行管理和架構調優。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆