🔥 Gate Alpha 限時賞金活動第三期上線!
在 Alpha 區交易熱門代幣,瓜分 $30,000 獎池!
💰 獎勵規則:
1️⃣ 連續2日每日交易滿 128 USDT,即可參與共享 $20,000 美金盲盒獎勵
2️⃣ 累計買入 ≥1,024 USDT,交易量前100名可直領獎勵 100美金盲盒
⏰ 活動時間:8月29日 16:00 — 8月31日 16:00 (UTC+8)
👉 立即參與交易: https://www.gate.com/announcements/article/46841
#GateAlpha # #GateAlphaPoints # #onchain#
讓大模型自主探索開放世界,北大&智源提出訓練框架LLaMA-Rider
文章來源:機器之心
大語言模型因其強大而通用的語言生成、理解能力,展現出了成為通用智慧體的潛力。 與此同時,在開放式的環境中探索、學習則是通用智慧體的重要能力之一。 因此,大語言模型如何適配開放世界是一個重要的研究問題。
北京大學和北京智源人工智慧研究院的團隊針對這個問題提出了 LLaMA-Rider,該方法賦予了大模型在開放世界中探索任務、收集數據、學習策略的能力,助力智慧體在《我的世界》(Minecraft)中自主探索獲取知識並學習解決各種任務,提升智慧體自主能力和通用性。
1、環境反饋驅動的探索與學習
LLaMA-Rider 著眼於讓大語言模型 (LLM) 適應環境從而提高在環境中解決多任務的能力。 LLM 在預訓練階段獲得的知識與實際環境很可能存在不一致,這常常導致決策錯誤。 為了解決這個問題,現有的方法有些利用提示工程,通過和 LLM 頻繁交互讓其獲取環境資訊,不過並不更新 LLM; 有些使用強化學習在線微調 LLM,不過其計算代價高且難以擴展到多任務和複雜任務。
LLaMA-Rider 對此提出了新的思路。 它首先利用環境的反饋資訊,靠 LLM 自身的能力在環境中探索,收集成功經驗。 之後,LLaMA-Rider 將經驗整合成監督數據集進行學習,更新自身的知識。 這樣一個兩階段的訓練框架讓 LLaMA-Rider 能夠在 Minecraft 環境中的 30 個任務上取得超過 ChatGPT 任務規劃器的平均表現,並展現出對新任務的泛化能力。
為了將 LLM 的文本輸出匹配到環境的動作空間,LLaMA-Rider 使用了一組預訓練的技能作為技能庫,並使用技能檢索模組將 LLM 的輸出文本和技能庫中的技能描述進行匹配,檢索最接近的技能。 由於技能描述和環境中的動作相比具有更多的語義,這種方式可以更大程度利用 LLM 的能力。
此外,LLaMA-Rider 使用了子任務重標記的方法,在探索過程中用當前正在完成的子任務資訊替換輸入中的原始任務資訊,讓 LLM 在探索過程中能關注當下的子目標,提高任務成功率。
2、實驗效果
LLaMA-Rider 使用的大語言模型為近期推出的 LLaMA-2-70B-chat。 在 Minecraft 的三類共 30 個任務中,LLaMA-Rider 的表現超過了基於 ChatGPT 的任務規劃器,並且經過學習後的 LLaMA-Rider 所能完成的任務數量也超過了它在探索階段能成功的數量,展現出 LLaMA-Rider 對於開放世界中持續學習和多任務解決的能力。
與強化學習 (RL) 方法相比,LLaMA-Rider 則展現出了高採樣效率和低訓練代價的優勢。 即使在難度較簡單、完成步數較短的木材相關任務上,RL 方法也難以取得訓練成效,表明強化學習的訓練方法難以擴展到大動作空間以及複雜的場景中。 而 LLaMA-Rider 在探索階段只採用了 5-10 次的任務探索便完成數據收集,在學習階段也只在包含 1.3k 樣本量的數據集上進行訓練就取得了效果提升。
3、總結
作者提出了 LLaMA-Rider 的大語言模型訓練框架,讓大語言模型根據環境反饋結合自身能力自主探索開放世界,並根據收集到的經驗完成高效學習,在 Minecraft 環境中取得了比包括 ChatGPT 任務規劃器在內的其他方法更好的解決多任務的能力,讓大語言模型獲得了對開放世界的適應性。 此外,LLaMA-Rider 能利用過去任務的經驗解決新任務的泛化能力表明瞭該方法應用於大模型終身探索學習的前景。