Để cho phép các mô hình lớn khám phá thế giới mở một cách độc lập, Đại học Bắc Kinh & KLCII đã đề xuất khung đào tạo LLaMA-Rider

Nguồn bài viết: Heart of the Machine

Nguồn hình ảnh: Được tạo bởi Unbounded AI

Các mô hình ngôn ngữ lớn đã cho thấy tiềm năng trở thành các tác nhân có mục đích chung do khả năng tạo và hiểu ngôn ngữ mạnh mẽ và phổ quát của chúng. Đồng thời, khám phá và học hỏi trong môi trường mở là một trong những khả năng quan trọng của các tác nhân đa năng. Do đó, làm thế nào để thích ứng các mô hình ngôn ngữ lớn với thế giới mở là một câu hỏi nghiên cứu quan trọng.

Để đối phó với vấn đề này, một nhóm từ Đại học Bắc Kinh và Học viện Trí tuệ nhân tạo Bắc Kinh đã đề xuất LLaMA-Rider, cung cấp cho các mô hình lớn khả năng khám phá các nhiệm vụ, thu thập dữ liệu và tìm hiểu các chiến lược trong thế giới mở, giúp các đại lý độc lập khám phá và tiếp thu kiến thức và học cách giải quyết các nhiệm vụ khác nhau trong Minecraft, cải thiện tính tự chủ và tính linh hoạt của các đại lý.

* Tự mình khám phá thế giới mở *

* Link giấy:

  • Liên kết mã:

** 1 、 Khám phá và học tập dựa trên phản hồi môi trường **

LLaMA-Rider tập trung vào việc điều chỉnh các mô hình ngôn ngữ lớn (LLM) với môi trường của chúng, từ đó cải thiện khả năng đa nhiệm trong môi trường. Kiến thức thu được trong giai đoạn tiền đào tạo của LLM có thể không phù hợp với môi trường thực tế, điều này thường dẫn đến các quyết định sai lầm. Để giải quyết vấn đề này, một số phương pháp hiện có sử dụng kỹ thuật nhanh chóng để có được thông tin môi trường thông qua tương tác thường xuyên với LLM, nhưng không cập nhật LLM; Một số sử dụng học tăng cường để tinh chỉnh LLM trực tuyến, nhưng chúng tốn kém về mặt tính toán và khó mở rộng quy mô thành đa nhiệm và các nhiệm vụ phức tạp.

LLaMA-Rider đã đưa ra một cách suy nghĩ mới về điều này. Đầu tiên nó sử dụng phản hồi từ môi trường và dựa vào khả năng của chính LLM để khám phá môi trường và thu thập kinh nghiệm thành công. Sau đó, LLaMA-Rider tích hợp trải nghiệm vào bộ dữ liệu được giám sát để tìm hiểu và cập nhật kiến thức của mình. Khung đào tạo hai giai đoạn như vậy cho phép LLaMA-Rider vượt trội hơn người lập kế hoạch nhiệm vụ ChatGPT trung bình trên 30 nhiệm vụ trong môi trường Minecraft và thể hiện khả năng khái quát hóa các nhiệm vụ mới.

Trong giai đoạn thăm dò, LLaMA-Rider sử dụng cơ chế sửa đổi phản hồi để chủ động khám phá. Tại mỗi bước thời gian, LLaMA-Rider nhận được thông tin môi trường văn bản và thông tin nhiệm vụ, và đưa ra quyết định về bước tiếp theo. Do lỗ hổng kiến thức với môi trường, quyết định có thể không được thực hiện trong môi trường và kích hoạt phản hồi từ môi trường, được cung cấp lại cho LLaMA-Rider để hướng dẫn nó sửa đổi quyết định. Với sự hiểu biết theo ngữ cảnh và phản hồi môi trường của LLM, LLaMA-Rider có thể khám phá thế giới mở một cách hiệu quả.

Để khớp đầu ra văn bản của LLM với không gian hành động của môi trường, LLaMA-Rider sử dụng một tập hợp các kỹ năng được đào tạo trước làm thư viện kỹ năng và sử dụng mô-đun truy xuất kỹ năng để khớp văn bản đầu ra của LLM với mô tả kỹ năng trong thư viện kỹ năng để truy xuất kỹ năng gần nhất. Vì mô tả kỹ năng có nhiều ngữ nghĩa hơn hành động trong môi trường, cách tiếp cận này sử dụng nhiều hơn các khả năng của LLM.

Ngoài ra, LLaMA-Rider sử dụng phương pháp dán nhãn lại nhiệm vụ phụ, thay thế thông tin nhiệm vụ ban đầu trong đầu vào bằng thông tin nhiệm vụ phụ hiện đang được hoàn thành trong quá trình thăm dò, để LLM có thể chú ý đến mục tiêu phụ hiện tại trong quá trình thăm dò và cải thiện tỷ lệ thành công của nhiệm vụ.

Trong giai đoạn học tập, các bài học kinh nghiệm trong quá trình khám phá được tích hợp vào một bộ dữ liệu được giám sát có thể được sử dụng để thực hiện tinh chỉnh có giám sát (SFT) của LLM. Phương pháp dán nhãn lại nhiệm vụ con cũng được sử dụng trong tập dữ liệu để cho phép LLaMA-Rider tìm hiểu sự kết hợp của các nhiệm vụ con giữa các nhiệm vụ và cải thiện khả năng khái quát hóa của chiến lược.

2, Hiệu ứng thí nghiệm

Mô hình ngôn ngữ lớn được LLaMA-Rider sử dụng là LLaMA-2-70B-chat mới ra mắt gần đây. Trong số 30 nhiệm vụ trong ba hạng mục của Minecraft, LLaMA-Rider vượt trội hơn các nhà lập kế hoạch nhiệm vụ dựa trên ChatGPT và số lượng nhiệm vụ mà LLaMA-Rider có thể hoàn thành sau khi học cũng vượt quá số lượng nhiệm vụ có thể thành công trong giai đoạn khám phá, thể hiện khả năng liên tục học hỏi và giải quyết đa nhiệm của LLaMA-Rider trong thế giới mở.

So với các phương pháp học tăng cường (RL), LLaMA-Rider cho thấy ưu điểm của hiệu quả lấy mẫu cao và chi phí đào tạo thấp. Ngay cả trong các nhiệm vụ liên quan đến gỗ với độ khó đơn giản và số bước ngắn, phương pháp RL rất khó đạt được kết quả đào tạo, cho thấy phương pháp đào tạo học tăng cường rất khó mở rộng đến không gian vận động lớn và các cảnh phức tạp. Mặt khác, LLaMA-Rider chỉ sử dụng 5-10 lần khám phá nhiệm vụ để hoàn thành việc thu thập dữ liệu trong giai đoạn thăm dò và chỉ được đào tạo trên một tập dữ liệu có kích thước mẫu là 1,3k trong giai đoạn học tập để đạt được kết quả được cải thiện.

Các tác giả tiếp tục phát hiện ra rằng sau khi khám phá 30 nhiệm vụ trên, LLaMA-Rider đã có thể đạt được sự cải thiện về hiệu quả của các nhiệm vụ liên quan đến quặng sắt khó hơn mà không được khám phá trong quá trình học tập. Điều này càng thể hiện sự khái quát hóa khả năng ra quyết định mà LLaMA-Rider đã học được.

Trong thí nghiệm cắt bỏ, các tác giả đã sử dụng các nhiệm vụ liên quan đến đá với nhiều nhiệm vụ con hơn để xác minh vai trò chính của phương pháp dán nhãn lại nhiệm vụ con đối với tỷ lệ thành công của nhiệm vụ và khả năng khái quát hóa nhiệm vụ.

Ngoài ra, mặc dù LLaMA-Rider chỉ tìm hiểu các dữ liệu liên quan đến việc ra quyết định nhiệm vụ, nhưng khi tác giả đặt câu hỏi liên quan đến nhiệm vụ, LLaMA-Rider cũng đưa ra câu trả lời chính xác hơn, cho thấy nó cũng học được kiến thức về môi trường trong quá trình đào tạo, chứng tỏ LLaMA-Rider đóng vai trò phù hợp với kiến thức về môi trường.

3, Tóm tắt

Các tác giả đề xuất khung đào tạo mô hình ngôn ngữ lớn của LLaMA-Rider, cho phép mô hình ngôn ngữ lớn khám phá thế giới mở một cách độc lập theo phản hồi môi trường kết hợp với khả năng của chính nó và hoàn thành việc học hiệu quả dựa trên kinh nghiệm thu thập được và đạt được khả năng giải quyết đa tác vụ tốt hơn trong môi trường Minecraft so với các phương pháp khác bao gồm trình lập kế hoạch tác vụ ChatGPT, để mô hình ngôn ngữ lớn có thể đạt được khả năng thích ứng với thế giới mở. Ngoài ra, khả năng khái quát hóa của LLaMA-Rider để giải quyết các nhiệm vụ mới bằng cách sử dụng kinh nghiệm của các nhiệm vụ trong quá khứ cho thấy triển vọng áp dụng phương pháp này để học khám phá suốt đời các mô hình lớn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)