Untuk memungkinkan model besar menjelajahi dunia terbuka secara mandiri, Universitas Peking &; KLCII mengusulkan kerangka pelatihan LLaMA-Rider

2023-11-07 06:35:49

Sumber artikel: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Model bahasa besar telah menunjukkan potensi untuk menjadi agen tujuan umum karena generasi bahasa dan kemampuan pemahaman mereka yang kuat dan universal. Pada saat yang sama, mengeksplorasi dan belajar di lingkungan terbuka adalah salah satu kemampuan penting dari agen tujuan umum. Oleh karena itu, bagaimana mengadaptasi model bahasa besar ke dunia terbuka adalah pertanyaan penelitian yang penting.

Menanggapi masalah ini, tim dari Universitas Peking dan Akademi Kecerdasan Buatan Beijing mengusulkan LLaMA-Rider, yang memberikan model besar kemampuan untuk mengeksplorasi tugas, mengumpulkan data, dan mempelajari strategi di dunia terbuka, membantu agen untuk secara mandiri mengeksplorasi dan memperoleh pengetahuan dan belajar menyelesaikan berbagai tugas di Minecraft, meningkatkan otonomi dan fleksibilitas agen.

Jelajahi dunia terbuka sendiri

* Link kertas:

Kode Link:

1、Eksplorasi dan Pembelajaran Berbasis Umpan Balik Lingkungan

LLaMA-Rider berfokus pada adaptasi model bahasa besar (LLM) ke lingkungan mereka, sehingga meningkatkan kemampuan mereka untuk melakukan banyak tugas di lingkungan. Pengetahuan yang diperoleh selama fase pra-pelatihan LLM cenderung tidak konsisten dengan lingkungan yang sebenarnya, yang sering mengarah pada keputusan yang salah. Untuk mengatasi masalah ini, beberapa metode yang ada menggunakan rekayasa cepat untuk mendapatkan informasi lingkungan melalui interaksi yang sering dengan LLM, tetapi tidak memperbarui LLM; Beberapa menggunakan pembelajaran penguatan untuk menyempurnakan LLM online, tetapi mereka secara komputasi mahal dan sulit untuk skala multitasking dan tugas-tugas kompleks.

LLaMA-Rider telah datang dengan cara berpikir baru tentang hal ini. Pertama-tama menggunakan umpan balik dari lingkungan dan bergantung pada kemampuan LLM sendiri untuk menjelajahi lingkungan dan mengumpulkan pengalaman sukses. Setelah itu, LLaMA-Rider mengintegrasikan pengalaman ke dalam dataset yang diawasi untuk mempelajari dan memperbarui pengetahuannya. Kerangka kerja pelatihan dua tahap seperti itu memungkinkan LLaMA-Rider untuk mengungguli perencana tugas ChatGPT rata-rata pada 30 tugas di lingkungan Minecraft dan menunjukkan kemampuan untuk menggeneralisasi tugas baru.

Selama fase eksplorasi, LLaMA-Rider memanfaatkan mekanisme modifikasi umpan balik untuk mengeksplorasi secara aktif. Pada setiap langkah waktu, LLaMA-Rider menerima informasi lingkungan tekstual dan informasi tugas, dan memberikan keputusan pada langkah selanjutnya. Karena kesenjangan pengetahuan dengan lingkungan, keputusan mungkin tidak dilaksanakan di lingkungan dan memicu umpan balik dari lingkungan, yang diumpankan kembali ke LLaMA-Rider untuk memandunya memodifikasi keputusan. Dengan pemahaman kontekstual LLM sendiri dan umpan balik lingkungan, LLaMA-Rider dapat secara efisien menjelajahi dunia terbuka.

Untuk mencocokkan output teks LLM dengan ruang aksi lingkungan, LLaMA-Rider menggunakan seperangkat keterampilan yang telah dilatih sebelumnya sebagai perpustakaan keterampilan, dan menggunakan modul pengambilan keterampilan untuk mencocokkan teks keluaran LLM dengan deskripsi keterampilan di perpustakaan keterampilan untuk mengambil keterampilan terdekat. Karena deskripsi keterampilan memiliki lebih banyak semantik daripada tindakan di lingkungan, pendekatan ini memanfaatkan kemampuan LLM dengan lebih baik.

Selain itu, LLaMA-Rider menggunakan metode sub-task re-labeling, yang menggantikan informasi tugas asli dalam input dengan informasi sub-tugas yang sedang diselesaikan selama proses eksplorasi, sehingga LLM dapat memperhatikan sub-tujuan saat ini selama proses eksplorasi dan meningkatkan tingkat keberhasilan tugas.

Selama fase pembelajaran, pelajaran yang dipetik selama eksplorasi diintegrasikan ke dalam dataset yang diawasi yang dapat digunakan untuk melakukan supervised fine-tuning (SFT) LLM. Metode pelabelan ulang subtugas juga digunakan dalam dataset untuk memungkinkan LLaMA-Rider mempelajari kombinasi subtugas antar tugas dan meningkatkan kemampuan generalisasi strategi.

2, Efek Eksperimental

Model bahasa besar yang digunakan oleh LLaMA-Rider adalah LLaMA-2-70B-chat yang baru diluncurkan. Di antara 30 tugas dalam tiga kategori Minecraft, LLaMA-Rider mengungguli perencana tugas berbasis ChatGPT, dan jumlah tugas yang dapat diselesaikan LLaMA-Rider setelah belajar juga melebihi jumlah tugas yang dapat berhasil dalam fase eksplorasi, menunjukkan kemampuan LLaMA-Rider untuk terus belajar dan menyelesaikan banyak tugas di dunia terbuka.

Dibandingkan dengan metode reinforcement learning (RL), LLaMA-Rider menunjukkan keunggulan efisiensi pengambilan sampel yang tinggi dan biaya pelatihan yang rendah. Bahkan pada tugas-tugas yang berhubungan dengan kayu dengan kesulitan sederhana dan jumlah langkah yang pendek, metode RL sulit untuk mencapai hasil pelatihan, menunjukkan bahwa metode pelatihan pembelajaran penguatan sulit untuk diperluas ke ruang motorik besar dan adegan kompleks. LLaMA-Rider, di sisi lain, hanya menggunakan 5-10 eksplorasi tugas untuk menyelesaikan pengumpulan data dalam fase eksplorasi, dan hanya dilatih pada dataset dengan ukuran sampel 1,3k dalam fase pembelajaran untuk mencapai hasil yang lebih baik.

Para penulis lebih lanjut menemukan bahwa setelah menjelajahi 30 tugas di atas, LLaMA-Rider mampu mencapai peningkatan efektivitas tugas-tugas terkait bijih besi yang lebih sulit yang tidak dieksplorasi selama proses pembelajaran. Ini lebih lanjut menunjukkan generalisasi kemampuan pengambilan keputusan yang telah dipelajari LLaMA-Rider.

Dalam percobaan ablasi, penulis menggunakan tugas terkait batu dengan lebih banyak subtugas untuk memverifikasi peran kunci dari metode pelabelan ulang subtugas pada tingkat keberhasilan tugas dan kemampuan generalisasi tugas.

Selain itu, meskipun LLaMA-Rider hanya mempelajari data terkait pengambilan keputusan tugas, namun ketika penulis mengajukan pertanyaan terkait tugas, LLaMA-Rider juga memberikan jawaban yang lebih akurat, menunjukkan bahwa LLaMA-Rider juga mempelajari pengetahuan lingkungan selama proses pelatihan, membuktikan bahwa LLaMA-Rider berperan dalam menyelaraskan dengan pengetahuan lingkungan.

3, Ringkasan

Para penulis mengusulkan kerangka pelatihan model bahasa besar LLaMA-Rider, yang memungkinkan model bahasa besar untuk menjelajahi dunia terbuka secara mandiri sesuai dengan umpan balik lingkungan yang dikombinasikan dengan kemampuannya sendiri, dan menyelesaikan pembelajaran yang efisien berdasarkan pengalaman yang dikumpulkan, dan mencapai kemampuan pemecahan multi-tugas yang lebih baik di lingkungan Minecraft daripada metode lain termasuk perencana tugas ChatGPT, sehingga model bahasa besar dapat memperoleh kemampuan beradaptasi dengan dunia terbuka. Selain itu, kemampuan generalisasi LLaMA-Rider untuk menyelesaikan tugas-tugas baru dengan menggunakan pengalaman tugas-tugas masa lalu menunjukkan prospek penerapan metode ini untuk pembelajaran eksplorasi seumur hidup dari model-model besar.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#Gate Lists Ondo Spot Trading Zone
11341 Popularitas
#Nonfarm Payrolls Incoming
7040 Popularitas
#Are You Bullish or Bearish Today?
45548 Popularitas
#Bitcoin Market Update
4490 Popularitas
#Gate Alpha PTB Points Airdrop
5308 Popularitas

Sematkan

peta situs