Büyük modellerin açık dünyayı bağımsız olarak keşfetmelerine izin vermek için, Pekin Üniversitesi ve KLCII, LLaMA-Rider eğitim çerçevesini önerdi

Makale kaynağı: Makinenin Kalbi

Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Büyük dil modelleri, güçlü ve evrensel dil oluşturma ve anlama yetenekleri nedeniyle genel amaçlı aracılar olma potansiyelini göstermiştir. Aynı zamanda, açık bir ortamda keşfetmek ve öğrenmek, genel amaçlı ajanların önemli yeteneklerinden biridir. Bu nedenle, büyük dil modellerinin açık dünyaya nasıl uyarlanacağı önemli bir araştırma sorusudur.

Bu soruna yanıt olarak, Pekin Üniversitesi ve Pekin Yapay Zeka Akademisi'nden bir ekip, büyük modellere açık dünyada görevleri keşfetme, veri toplama ve stratejileri öğrenme yeteneği veren, aracıların bağımsız olarak keşfetmelerine ve bilgi edinmelerine ve Minecraft'taki çeşitli görevleri çözmeyi öğrenmelerine yardımcı olan, aracıların özerkliğini ve çok yönlülüğünü geliştiren LLaMA-Rider'ı önerdi.

Açık dünyayı kendi başınıza keşfedin

* Kağıt bağlantısı:

  • Kod Bağlantıları:

1、Çevresel Geri Bildirime Dayalı Keşif ve Öğrenme

LLaMA-Rider, büyük dil modellerini (LLM'ler) ortamlarına uyarlamaya odaklanır ve böylece ortamda çoklu görev yapma yeteneklerini geliştirir. LLM'lerin eğitim öncesi aşamasında edinilen bilgilerin, genellikle yanlış kararlara yol açan gerçek ortamla tutarsız olması muhtemeldir. Bu sorunu çözmek için, mevcut bazı yöntemler, LLM ile sık etkileşim yoluyla çevresel bilgileri almak için hızlı mühendislik kullanır, ancak LLM'yi güncellemez; Bazıları, LLM'lere çevrimiçi olarak ince ayar yapmak için pekiştirmeli öğrenmeyi kullanır, ancak bunlar hesaplama açısından pahalıdır ve çoklu görev ve karmaşık görevlere ölçeklendirilmesi zordur.

LLaMA-Rider bu konuda yeni bir düşünce tarzı geliştirdi. İlk olarak çevreden gelen geri bildirimleri kullanır ve LLM'nin çevreyi keşfetme ve başarılı deneyimler toplama yeteneğine dayanır. Bundan sonra, LLaMA-Rider, bilgisini öğrenmek ve güncellemek için deneyimi denetimli bir veri kümesine entegre eder. Böyle iki aşamalı bir eğitim çerçevesi, LLaMA-Rider'ın Minecraft ortamındaki 30 görevde ortalama ChatGPT görev planlayıcısından daha iyi performans göstermesine ve yeni görevleri genelleştirme yeteneğini göstermesine izin verdi.

Keşif aşamasında, LLaMA-Rider aktif olarak keşfetmek için geri bildirim-değiştirme mekanizmasını kullanır. Her zaman adımında, LLaMA-Rider metinsel çevresel bilgileri ve görev bilgilerini alır ve bir sonraki adıma karar verir. Çevreyle olan bilgi boşluğu nedeniyle, karar ortamda uygulanamayabilir ve ortamdan gelen geri bildirimi tetikleyebilir, bu da kararı değiştirmesi için LLaMA-Rider'a yeniden beslenir. LLM'nin kendi bağlamsal anlayışı ve çevresel geri bildirimi ile LLaMA-Rider, açık dünyayı verimli bir şekilde keşfedebilir.

LLM'nin metin çıktısını ortamın eylem alanıyla eşleştirmek için, LLaMA-Rider beceri kütüphanesi olarak önceden eğitilmiş bir dizi beceri kullanır ve LLM'nin çıktı metnini beceri kütüphanesindeki beceri açıklamasıyla eşleştirmek için beceri alma modülünü kullanır. Beceri açıklamaları ortamdaki eylemlerden daha fazla anlambilime sahip olduğundan, bu yaklaşım LLM'lerin yeteneklerinden daha fazla yararlanır.

Buna ek olarak, LLaMA-Rider, girdideki orijinal görev bilgilerini, keşif işlemi sırasında şu anda tamamlanmakta olan alt görev bilgileriyle değiştiren alt görev yeniden etiketleme yöntemini kullanır, böylece LLM, keşif sürecinde mevcut alt hedefe dikkat edebilir ve görev başarı oranını artırabilir.

Öğrenme aşamasında, keşif sırasında öğrenilen dersler, LLM'nin denetimli ince ayarını (SFT) gerçekleştirmek için kullanılabilecek denetimli bir veri kümesine entegre edilir. LLaMA-Rider'ın görevler arasındaki alt görevlerin kombinasyonunu öğrenmesini ve stratejinin genelleme yeteneğini geliştirmesini sağlamak için veri kümesinde alt görev yeniden etiketleme yöntemi de kullanılır.

2, Deneysel Etki

LLaMA-Rider tarafından kullanılan büyük dil modeli, yakın zamanda piyasaya sürülen LLaMA-2-70B-chat'tir. Minecraft'ın üç kategorisindeki 30 görev arasında LLaMA-Rider, ChatGPT tabanlı görev planlayıcılardan daha iyi performans gösterdi ve LLaMA-Rider'ın öğrendikten sonra tamamlayabileceği görev sayısı da keşif aşamasında başarabileceği görev sayısını aşarak LLaMA-Rider'ın açık dünyada sürekli öğrenme ve çoklu görev çözme yeteneğini gösterdi.

Pekiştirmeli öğrenme (RL) yöntemleriyle karşılaştırıldığında, LLaMA-Rider yüksek örnekleme verimliliği ve düşük eğitim maliyetinin avantajlarını göstermektedir. Basit zorluk ve kısa adım sayısına sahip ahşapla ilgili görevlerde bile, RL yönteminin eğitim sonuçlarına ulaşması zordur, bu da pekiştirmeli öğrenme eğitim yönteminin büyük motor alanlarına ve karmaşık sahnelere genişletilmesinin zor olduğunu gösterir. Öte yandan LLaMA-Rider, keşif aşamasında veri toplamayı tamamlamak için yalnızca 5-10 görev keşfi kullandı ve daha iyi sonuçlar elde etmek için öğrenme aşamasında yalnızca 1,3k örneklem büyüklüğüne sahip bir veri kümesi üzerinde eğitim aldı.

Yazarlar ayrıca, yukarıdaki 30 görevi keşfettikten sonra, LLaMA-Rider'ın öğrenme sürecinde keşfedilmemiş olan daha zor demir cevheri ile ilgili görevlerin etkinliğinde bir iyileşme sağlayabildiğini buldular. Bu ayrıca LLaMA-Rider'ın öğrendiği karar verme yeteneğinin genelleştirilmesini göstermektedir.

Ablasyon deneyinde yazarlar, alt görev yeniden etiketleme yönteminin görev başarı oranı ve görev genelleme yeteneği üzerindeki kilit rolünü doğrulamak için taşla ilgili görevleri daha fazla alt görevle kullandılar.

Buna ek olarak, LLaMA-Rider sadece görev karar verme ile ilgili verileri öğrense de, yazar görevle ilgili sorular sorduğunda, LLaMA-Rider da daha doğru bir cevap vererek, eğitim sürecinde çevre bilgisini de öğrendiğini belirterek, LLaMA-Rider'ın çevre bilgisi ile uyum sağlamada rol oynadığını kanıtlıyor.

3, Özet

Yazarlar, LLaMA-Rider'ın, büyük dil modelinin kendi yetenekleriyle birlikte çevresel geri bildirimlere göre açık dünyayı bağımsız olarak keşfetmesine ve toplanan deneyime dayalı olarak verimli öğrenmeyi tamamlamasına olanak tanıyan ve Minecraft ortamında ChatGPT görev planlayıcısı da dahil olmak üzere diğer yöntemlerden daha iyi çoklu görev çözme yetenekleri elde eden büyük dil modeli eğitim çerçevesini önermektedir, böylece büyük dil modeli açık dünyaya uyarlanabilirlik kazanabilir. Ek olarak, LLaMA-Rider'ın geçmiş görevlerin deneyimini kullanarak yeni görevleri çözme konusundaki genelleme yeteneği, bu yöntemin büyük modellerin yaşam boyu keşif öğrenimine uygulanma olasılığını göstermektedir.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)