讓AI模型成為GTA五星玩家，基於視覺的可程式設計智慧體Octopus來了

2023-11-10 06:46:10

原文來源：機器之心

圖片來源：由無界 AI生成

電子遊戲已經成為如今現實世界的類比舞臺，展現出無限可能。以遊戲《俠盜獵車手》（GTA）為例，在 GTA 的世界里，玩家可以以第一人稱視角，在洛聖都（遊戲虛擬城市）當中經歷豐富多彩的生活。然而，既然人類玩家能夠在洛聖都里盡情遨遊完成若干任務，我們是否也能有一個 AI 視覺模型，操控 GTA 中的角色，成為執行任務的 “玩家” 呢？GTA 的 AI 玩家又是否能夠扮演一個五星好市民，遵守交通規則，説明警方抓捕罪犯，甚至做個熱心腸的路人，説明流浪漢找到合適的住所？

目前的視覺 - 語言模型（VLMs）在多模態感知和推理方面取得了實質性的進步，但它們往往基於較為簡單的視覺問答（VQA）或者視覺標註（Caption）任務。這些任務設定顯然無法使 VLM 真正完成現實世界當中的任務。因為實際任務不僅需要對於視覺資訊的理解，更需要模型具有規劃推理以及根據即時更新的環境資訊做出反饋的能力。同時生成的規劃也需要能夠操縱環境中的實體來真實地完成任務。

儘管已有的語言模型（LLMs）能夠根據所提供的資訊進行任務規劃，但其無法理解視覺輸入，極大的限制了語言模型在執行現實世界的具體任務時的應用範圍，尤其是對於一些具身智慧任務，基於文本的輸入往往很難詳盡或過於複雜，從而使得語言模型無法從中高效地提取資訊從而完成任務。而當前的語言模型對於程式生成已經進行了若干探索，但是根據視覺輸入來生成結構化，可執行，且穩健的代碼的探索還尚未深入。

為了解決如何使大模型具身智慧化的問題，創建能夠準確制定計劃並執行命令的自主和情境感知系統，來自新加坡南洋理工大學，清華大學等的學者提出了 Octopus。 Octopus 是一種基於視覺的可程式設計智慧體，它的目的是通過視覺輸入學習，理解真實世界，並以生成可執行代碼的方式完成各種實際任務。通過在大量視覺輸入和可執行代碼的數據對的訓練，Octopus學會了如何操控電子遊戲的角色完成遊戲任務，或者完成複雜的家務活動。

* 論文地址：

項目網頁：
開源代碼：

數據採集與訓練

為了訓練能夠完成具身智慧化任務的視覺 - 語言模型，研究者們還開發了 OctoVerse，其包含兩個模擬系統用於為 Octopus 的訓練提供訓練數據以及測試環境。這兩個模擬環境為 VLM 的具身智慧化提供了可用的訓練以及測試場景，對模型的推理和任務規劃能力都提出了更高的要求。具體如下：

1.OctoGibson：基於斯坦福大學開發的 OmniGibson 進行開發，一共包括了 476 個符合現實生活的家務活動。整個模擬環境中包括 16 種不同類別的家庭場景，涵蓋 155 個實際的家庭環境實例。模型可以操作其中存在的大量可交互物體來完成最終的任務。

2.OctoGTA：基於《俠盜獵車手》（GTA）遊戲進行開發，一共構建了 20 個任務並將其泛化到五個不同的場景當中。通過預先設定好的程式將玩家設定在固定的位置，提供完成任務必須的物品和 NPC，以保證任務能夠順利進行。

下圖展示了 OctoGibson 的任務分類以及 OctoGibson 和 OctoGTA 的一些統計結果。

為了在構建的兩個模擬環境中高效的收集訓練數據，研究者構建了一套完整的數據收集系統。通過引入 GPT-4 作為任務的執行者，研究者們使用預先實現的函數將在模擬環境當中採集到的視覺輸入處理為文本資訊提供給 GPT-4，在 GPT-4 返回當前一步的任務規劃和可執行代碼后，再在模擬環境當中執行代碼，並判斷當前一步的任務是否完成。如果成功，則繼續採集下一步的視覺輸入; 如果失敗，則回到上一步的起始位置，重新採集數據。

上圖以 OctoGibson 環境當中的 Cook a Bacon 任務為例，展示了收集數據的完整流程。需要指出的是，在收集數據的過程中，研究者不僅記錄了任務執行過程中的視覺資訊，GPT-4 返回的可執行代碼等，還記錄了每一個子任務的成功情況，這些將作為後續引入強化學習來構建更高效的 VLM 的基礎。 GPT-4 的功能雖然強大，但並非無懈可擊。錯誤可以以多種方式顯現，包括語法錯誤和模擬器中的物理挑戰。例如，如圖 3 所示，在狀態 #5 和 #6 之間，由於 agent 拿著的培根與平底鍋之間的距離過遠，導致 “把培根放到平底鍋” 的行動失敗。此類挫折會將任務重置到之前的狀態。如果一個任務在 10 步之後仍未完成，則被認定為不成功，我們會因預算問題而終止這個任務，而這個任務的所有子任務的數據對都會認為執行失敗。

在收集一定規模的訓練數據后，研究者利用這些數據訓練出了一個具身智慧化的視覺 - 語言模型 Octopus。上圖展現了完整的數據採集和訓練流程。在第一階段，通過使用採集的數據進行監督式微調，研究者構建出了一個能夠以視覺資訊作為輸入，遵從固定格式進行輸出的 VLM 模型。在這一階段，模型能夠完成視覺輸入資訊到任務計劃以及可執行代碼的映射。而在第二階段，研究者引入了 RLEF

（Reinforcement Learning with Environmental Feedback），通過利用先前採集的子任務的成功情況作為獎勵信號，採用強化學習的演算法更進一步的提升 VLM 的任務規劃能力，從而提高整體任務的成功率。

實驗結果

研究者在構建的 OctoGibson 環境中，對於當前主流的 VLM 和 LLM 進行了測試，下表展示了主要實驗結果。對於不同的測試模型，Vision Model 列舉了不同模型所使用的視覺模型，對於 LLM 來說，研究者將視覺資訊處理為文本作為 LLM 的輸入。其中 O 代表提供了場景中可互動物體的資訊，R 代表提供了場景中物體相對關係的資訊，GT 代表使用真實準確的資訊，而不引入額外的視覺模型來進行檢測。

對於所有的測試任務，研究者報告了完整的測試集成功率，並進一步將其分為四個類別，分別記錄在訓練集中存在的場景中完成新任務，在訓練集中不存在的場景中完成新任務的泛化能力，以及對於簡單的跟隨任務以及複雜的推理任務的泛化能力。對於每一種類別的統計，研究者報告了兩種評價指標，其中第一個為任務的完成率，以衡量模型完成具身智慧任務的成功率; 第二個為任務規劃準確率，用於體現模型進行任務規劃的能力。

此外，研究者還展示了不同模型對於 OctoGibson 模擬環境中採集的視覺數據的響應實例。下圖展示了 TAPA+CodeLLaMA，Octopus 以及 GPT-4V 對於 OctoGibson 當中視覺輸入生成的回復。可以看到，相較於 TAPA+CodeLLaMA 以及只進行了監督式微調的 Octopus 模型，使用 RLEF 進行訓練之後的 Octopus 模型的任務規劃更加合理，即使是對於較為模糊的任務指令（find a carboy）也能提供更加完善的計劃。這些表現都更進一步說明瞭 RLEF 訓練策略對於提升模型的任務規劃能力以及推理能力的有效性。

總體來說，現有的模型在模擬環境中表現出的實際任務完成度和任務規劃能力依舊有很大的提升空間。研究者們總結了一些較為關鍵的發現：

**1.CodeLLaMA 能夠提升模型的代碼生成能力，但不能提升任務規劃能力。 **

研究者指出，通過實驗結果可以看出，CodeLLaMA 能夠顯著的提升模型的代碼生成能力。與傳統的 LLM 相比，使用 CodeLLaMA 能夠獲得更好的，可執行率更高的代碼。然而，儘管一些模型使用了 CodeLLaMA 進行代碼生成，但整體任務的成功率依然會受到任務規劃能力的限制。任務規劃能力較弱的模型，及時生成的代碼可執行率較高，最終的任務成功率依然較低;而反觀 Octopus，儘管未使用 CodeLLaMA，代碼的可執行率有所下降，但得益於其強大的任務規劃能力，整體任務成功率依舊優於其他模型。

**2.LLM 在面對大量的文本信息輸入時，處理較為困難。 **

在實際的測試過程中，研究者通過對比TAPA和CodeLLaMA的實驗結果得出了一個結論，即語言模型很難較好地處理長文本輸入。研究者們遵從 TAPA 的方法，使用真實的物體資訊來進行任務規劃，而 CodeLLaMA 使用物體和物體之間的相對位置關係，以期提供較為完整的資訊。但在實驗過程中，研究者發現由於環境當中存在大量的冗餘資訊，因此當環境較為複雜時，文本輸入顯著增加，LLM 難以從大量的冗餘信息當中提取有價值的線索，從而降低了任務的成功率。這也體現了 LLM 的局限性，即如果使用文本資訊來表示複雜的場景，將會產生大量冗餘且無價值的輸入資訊。

**3.Octopus 表現出了較好的任務泛化能力。 **

通過實驗結果可以得出，Octopus 具有較強的任務泛化能力。其在訓練集當中未出現的新場景中完成任務的成功率和任務規劃的成功率均優於已有的模型。這也展現出了視覺 - 語言模型的一些內在優勢，針對同一類別的任務，其泛化性優於傳統的 LLM。

**4.RLEF 能夠增強模型的任務規劃能力。 **

在實驗結果中，研究者們提供了只經過第一階段監督式微調的模型以及經過 RLEF 訓練之後模型的性能比較。可以看出，在經過 RLEF 訓練之後，模型在需要較強的推理能力和任務規劃能力的任務上，整體成功率和規劃能力有了顯著提升。與已有的 VLM 訓練策略相比，RLEF 也更加的高效。上圖所展示的範例也能夠體現 RLEF 訓練之後模型在任務規劃能力上的提升。經過 RLEF 訓練之後的模型能夠懂得在面對較為複雜的任務時，如何在環境當中進行探索;此外，模型在任務規劃上能夠更加遵從模擬環境中的實際要求（如，模型需要先移動到要交互的物體，才能開始交互），從而降低任務規劃的失敗比率。

討論

消融實驗

在對模型的實際能力進行評估之後，研究者們更進一步探究了一些影響模型性能的可能因素。如下圖所示，研究者從三個方面開展了實驗。

訓練參數的比重

研究者對比了只訓練視覺模型與語言模型的連接層，訓練連接層和語言模型，以及完整訓練的模型的性能。可以看出，隨著訓練參數的增加，模型的性能逐漸獲得了提升。這說明，訓練參數的多少對於模型是否能夠在一些固定的場景當中完成任務至關重要。

模型的大小

研究者們比較了較小的 3B 參數模型與基線 7B 模型在兩個訓練階段的性能差異。通過比較可以看出，當模型整體參數量較大時，模型的性能也會得到明顯的提升。如何選定合適的模型訓練參數，使得模型能夠擁有完成對應任務的能力，同時也能夠保證模型的輕量化和較快的推理速度，將是未來 VLM 領域研究中較為關鍵的一點。

視覺輸入的連續性

為了探究不同的視覺輸入對於實際 VLM 性能的影響，研究者對視覺資訊的輸入順序進行了實驗。在測試的過程中，模型會在模擬環境當中順序轉動，採集第一視角圖像，並採集兩張鳥瞰圖，之後這些視覺圖像會按順序輸入 VLM 當中。而在實驗中，當研究者隨機打亂視覺圖像順序再輸入 VLM 中時，VLM 產生了較大的性能損失。這一方面說明瞭完整且結構化的視覺資訊對於 VLM 的重要性，另一方面也從某種程度上反映了 VLM 在對視覺輸入進行回應時需要依靠視覺圖像的內在聯繫，而一旦這種視覺上的聯繫被破壞，將會極大的影響 VLM 的表現。

GPT-4

此外，研究者還對 GPT-4 以及 GPT-4V 在模擬環境當中的性能進行了測試和統計。

1、GPT-4型

針對 GPT-4，在測試過程中研究者提供與使用其採集訓練數據時完全相同的文本資訊作為輸入。在測試任務上，GPT-4 能夠完成一半的任務，這一方面說明現有的 VLM 相對於 GPT-4 這樣的語言模型，從性能上還有很大的提升空間;另一方面也說明，即使是 GPT-4 這樣性能較強的語言模型，在面對具身智慧任務時，其任務規劃能力和任務執行能力依然需要更進一步的提升。

2.GPT-4V型

由於 GPT-4V 剛剛發佈可以直接調用的 API，研究者還沒來得及嘗試，但是研究者們之前也手動測試了一些實例來展現 GPT-4V 的性能。通過一些示例，研究者認為 GPT-4V 對於模擬環境當中的任務具有較強的零樣本泛化能力，也能夠根據視覺輸入生成對應的可執行的代碼，但其在一些任務規劃上稍遜色於在模擬環境採集的數據上微調之後的模型。

總結

研究者們指出了目前工作的一些局限性：

當前的 Octopus 模型在較為複雜的任務上性能並不令人滿意。在面對複雜任務時，Octopus 往往會做出錯誤的規劃，並且嚴重依賴於環境給出的反饋信息，最終往往難以完成整體的任務。

2.Octopus 模型僅在模擬環境當中進行訓練，而如何將其遷移到真實世界當中將會面臨一系列的問題。例如，真實環境當中模型將難以得到較為準確的物體相對位置資訊，如何構建起物體對於場景的理解將變得更加困難。

3.Octopus 目前的視覺輸入為離散的靜態圖片，如何使其能夠處理連續的視頻將是未來的挑戰。連續的視頻可以更進一步提高模型完成任務的性能，但如何高效地處理和理解連續視覺輸入將成為進一步提升 VLM 性能的關鍵。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

話題
#加密市場反彈
192460 熱度
#美聯儲7月會議紀要
17762 熱度
#Gate全球首發上線YZY
18473 熱度
#加密概念美股普漲
2352 熱度
#傑克遜霍爾會議
12366 熱度