📢 Gate廣場獨家活動: #PUBLIC创作大赛# 正式開啓!
參與 Gate Launchpool 第 297 期 — PublicAI (PUBLIC),並在 Gate廣場發布你的原創內容,即有機會瓜分 4,000 枚 $PUBLIC 獎勵池!
🎨 活動時間
2025年8月18日 10:00 – 2025年8月22日 16:00 (UTC)
📌 參與方式
在 Gate廣場發布與 PublicAI (PUBLIC) 或當前 Launchpool 活動相關的原創內容
內容需不少於 100 字(可爲分析、教程、創意圖文、測評等)
添加話題: #PUBLIC创作大赛#
帖子需附帶 Launchpool 參與截圖(如質押記錄、領取頁面等)
🏆 獎勵設置(總計 4,000 枚 $PUBLIC)
🥇 一等獎(1名):1,500 $PUBLIC
🥈 二等獎(3名):每人 500 $PUBLIC
🥉 三等獎(5名):每人 200 $PUBLIC
📋 評選標準
內容質量(相關性、清晰度、創意性)
互動熱度(點讚、評論)
含有 Launchpool 參與截圖的帖子將優先考慮
📄 注意事項
所有內容須爲原創,嚴禁抄襲或虛假互動
獲獎用戶需完成 Gate廣場實名認證
Gate 保留本次活動的最終解釋權
讓AI模型成為GTA五星玩家,基於視覺的可程式設計智慧體Octopus來了
原文來源:機器之心
電子遊戲已經成為如今現實世界的類比舞臺,展現出無限可能。 以遊戲《俠盜獵車手》(GTA)為例,在 GTA 的世界里,玩家可以以第一人稱視角,在洛聖都(遊戲虛擬城市)當中經歷豐富多彩的生活。 然而,既然人類玩家能夠在洛聖都里盡情遨遊完成若干任務,我們是否也能有一個 AI 視覺模型,操控 GTA 中的角色,成為執行任務的 “玩家” 呢?GTA 的 AI 玩家又是否能夠扮演一個五星好市民,遵守交通規則,説明警方抓捕罪犯,甚至做個熱心腸的路人,説明流浪漢找到合適的住所?
目前的視覺 - 語言模型(VLMs)在多模態感知和推理方面取得了實質性的進步,但它們往往基於較為簡單的視覺問答(VQA)或者視覺標註(Caption)任務。 這些任務設定顯然無法使 VLM 真正完成現實世界當中的任務。 因為實際任務不僅需要對於視覺資訊的理解,更需要模型具有規劃推理以及根據即時更新的環境資訊做出反饋的能力。 同時生成的規劃也需要能夠操縱環境中的實體來真實地完成任務。
儘管已有的語言模型(LLMs)能夠根據所提供的資訊進行任務規劃,但其無法理解視覺輸入,極大的限制了語言模型在執行現實世界的具體任務時的應用範圍,尤其是對於一些具身智慧任務,基於文本的輸入往往很難詳盡或過於複雜,從而使得語言模型無法從中高效地提取資訊從而完成任務。 而當前的語言模型對於程式生成已經進行了若干探索,但是根據視覺輸入來生成結構化,可執行,且穩健的代碼的探索還尚未深入。
為了解決如何使大模型具身智慧化的問題,創建能夠準確制定計劃並執行命令的自主和情境感知系統,來自新加坡南洋理工大學,清華大學等的學者提出了 Octopus。 Octopus 是一種基於視覺的可程式設計智慧體,它的目的是通過視覺輸入學習,理解真實世界,並以生成可執行代碼的方式完成各種實際任務。 通過在大量視覺輸入和可執行代碼的數據對的訓練,Octopus學會了如何操控電子遊戲的角色完成遊戲任務,或者完成複雜的家務活動。
數據採集與訓練
為了訓練能夠完成具身智慧化任務的視覺 - 語言模型,研究者們還開發了 OctoVerse,其包含兩個模擬系統用於為 Octopus 的訓練提供訓練數據以及測試環境。 這兩個模擬環境為 VLM 的具身智慧化提供了可用 的訓練以及測試場景,對模型的推理和任務規劃能力都提出了更高的要求。 具體如下:
1.OctoGibson:基於斯坦福大學開發的 OmniGibson 進行開發,一共包括了 476 個符合現實生活的家 務活動。 整個模擬環境中包括 16 種不同類別的家庭場景,涵蓋 155 個實際的家庭環境實例。 模型可 以操作其中存在的大量可交互物體來完成最終的任務。
2.OctoGTA:基於《俠盜獵車手》(GTA)遊戲進行開發,一共構建了 20 個任務並將其泛化到五個不 同的場景當中。 通過預先設定好的程式將玩家設定在固定的位置,提供完成任務必須的物品和 NPC,以保證任務能夠順利進行。
下圖展示了 OctoGibson 的任務分類以及 OctoGibson 和 OctoGTA 的一些統計結果。
(Reinforcement Learning with Environmental Feedback),通過利用先前採集的子任務的成功情況作為獎勵信號,採用強化學習的演算法更進一步的提升 VLM 的任務規劃能力,從而提高整體任務的成功率。
實驗結果
研究者在構建的 OctoGibson 環境中,對於當前主流的 VLM 和 LLM 進行了測試,下表展示了主要實驗結 果。 對於不同的測試模型,Vision Model 列舉了不同模型所使用的視覺模型,對於 LLM 來說,研究者將視覺資訊處理為文本作為 LLM 的輸入。 其中 O 代表提供了場景中可互動物體的資訊,R 代表提供了場景中 物體相對關係的資訊,GT 代表使用真實準確的資訊,而不引入額外的視覺模型來進行檢測。
對於所有的測試任務,研究者報告了完整的測試集成功率,並進一步將其分為四個類別,分別記錄在訓 練集中存在的場景中完成新任務,在訓練集中不存在的場景中完成新任務的泛化能力,以及對於簡單的 跟隨任務以及複雜的推理任務的泛化能力。 對於每一種類別的統計,研究者報告了兩種評價指標,其中 第一個為任務的完成率,以衡量模型完成具身智慧任務的成功率; 第二個為任務規劃準確率,用於體現 模型進行任務規劃的能力。
**1.CodeLLaMA 能夠提升模型的代碼生成能力,但不能提升任務規劃能力。 **
研究者指出,通過實驗結果可以看出,CodeLLaMA 能夠顯著的提升模型的代碼生成能力。 與傳統的 LLM 相比,使用 CodeLLaMA 能夠獲得更好的,可執行率更高的代碼。 然而,儘管一些模型使用了 CodeLLaMA 進行代碼生成,但整體任務的成功率依然會受到任務規劃能力的限制。 任務規劃能力較弱的模型,及時生成的代碼可執行率較高,最終的任務成功率依然較低;而反觀 Octopus,儘管未使用 CodeLLaMA,代碼的可執行率有所下降,但得益於其強大的任務規劃能力,整體任務成功率依舊優於其他模型。
**2.LLM 在面對大量的文本信息輸入時,處理較為困難。 **
在實際的測試過程中,研究者通過對比TAPA和CodeLLaMA的實驗結果得出了一個結論,即語言模型很難較好地處理長文本輸入。 研究者們遵從 TAPA 的方法,使用真實的物體資訊來進行任務規劃,而 CodeLLaMA 使用物體和物體之間的相對位置關係,以期提供較為完整的資訊。 但在實驗過程中,研究者 發現由於環境當中存在大量的冗餘資訊,因此當環境較為複雜時,文本輸入顯著增加,LLM 難以從大量 的冗餘信息當中提取有價值的線索,從而降低了任務的成功率。 這也體現了 LLM 的局限性,即如果使用 文本資訊來表示複雜的場景,將會產生大量冗餘且無價值的輸入資訊。
**3.Octopus 表現出了較好的任務泛化能力。 **
通過實驗結果可以得出,Octopus 具有較強的任務泛化能力。 其在訓練集當中未出現的新場景中完成任 務的成功率和任務規劃的成功率均優於已有的模型。 這也展現出了視覺 - 語言模型的一些內在優勢,針對 同一類別的任務,其泛化性優於傳統的 LLM。
**4.RLEF 能夠增強模型的任務規劃能力。 **
在實驗結果中,研究者們提供了只經過第一階段監督式微調的模型以及經過 RLEF 訓練之後模型的性能比 較。 可以看出,在經過 RLEF 訓練之後,模型在需要較強的推理能力和任務規劃能力的任務上,整體成功 率和規劃能力有了顯著提升。 與已有的 VLM 訓練策略相比,RLEF 也更加的高效。 上圖所展示的範例也能夠體現 RLEF 訓練之後模型在任務規劃能力上的提升。 經過 RLEF 訓練之後的模型能夠懂得在面對較為複雜的任務時,如何在環境當中進行探索;此外,模型在任務規劃上能夠更加遵從模擬環境中的實際要求(如,模型需要先移動到要交互的物體,才能開始交互),從而降低任務規劃的失敗比率。
討論
消融實驗
在對模型的實際能力進行評估之後,研究者們更進一步探究了一些影響模型性能的可能因素。 如下圖所示,研究者從三個方面開展了實驗。
研究者對比了只訓練視覺模型與語言模型的連接層,訓練連接層和語言模型,以及完整訓練的模型的性能。 可以看出,隨著訓練參數的增加,模型的性能逐漸獲得了提升。 這說明,訓練參數的多少對於模型是否能夠在一些固定的場景當中完成任務至關重要。
研究者們比較了較小的 3B 參數模型與基線 7B 模型在兩個訓練階段的性能差異。 通過比較可以看出,當模型整體參數量較大時,模型的性能也會得到明顯的提升。 如何選定合適的模型訓練參數,使得模型能夠 擁有完成對應任務的能力,同時也能夠保證模型的輕量化和較快的推理速度,將是未來 VLM 領域研究中較為關鍵的一點。
為了探究不同的視覺輸入對於實際 VLM 性能的影響,研究者對視覺資訊的輸入順序進行了實驗。 在測試 的過程中,模型會在模擬環境當中順序轉動,採集第一視角圖像,並採集兩張鳥瞰圖,之後這些視覺圖 像會按順序輸入 VLM 當中。 而在實驗中,當研究者隨機打亂視覺圖像順序再輸入 VLM 中時,VLM 產生了 較大的性能損失。 這一方面說明瞭完整且結構化的視覺資訊對於 VLM 的重要性,另一方面也從某種程度上反映了 VLM 在對視覺輸入進行回應時需要依靠視覺圖像的內在聯繫,而一旦這種視覺上的聯繫被破壞,將會極大的影響 VLM 的表現。
此外,研究者還對 GPT-4 以及 GPT-4V 在模擬環境當中的性能進行了測試和統計。
1、GPT-4型
針對 GPT-4,在測試過程中研究者提供與使用其採集訓練數據時完全相同的文本資訊作為輸入。 在測試任務上,GPT-4 能夠完成一半的任務,這一方面說明現有的 VLM 相對於 GPT-4 這樣的語言模型,從性能上還 有很大的提升空間;另一方面也說明,即使是 GPT-4 這樣性能較強的語言模型,在面對具身智慧任務時, 其任務規劃能力和任務執行能力依然需要更進一步的提升。
2.GPT-4V型
由於 GPT-4V 剛剛發佈可以直接調用的 API,研究者還沒來得及嘗試,但是研究者們之前也手動測試了一些實例來展現 GPT-4V 的性能。 通過一些示例,研究者認為 GPT-4V 對於模擬環境當中的任務具有較強的零樣本泛化能力,也能夠根據視覺輸入生成對應的可執行的代碼,但其在一些任務規劃上稍遜色於在模擬環境採集的數據上微調之後的模型。
總結
研究者們指出了目前工作的一些局限性:
2.Octopus 模型僅在模擬環境當中進行訓練,而如何將其遷移到真實世界當中將會面臨一系列的問題。 例如,真實環境當中模型將難以得到較為準確的物體相對位置資訊,如何構建起物體對於場景的理解將變得更加困難。
3.Octopus 目前的視覺輸入為離散的靜態圖片,如何使其能夠處理連續的視頻將是未來的挑戰。 連續的視頻可以更進一步提高模型完成任務的性能,但如何高效地處理和理解連續視覺輸入將成為進一步提升 VLM 性能的關鍵。