للسماح للنماذج الكبيرة باستكشاف العالم المفتوح بشكل مستقل ، اقترحت جامعة بكين و KLCII إطار التدريب LLaMA-Rider

2023-11-07 06:35:49

مصدر المقال: قلب الآلة

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

أظهرت نماذج اللغات الكبيرة إمكانية أن تصبح عوامل للأغراض العامة بسبب قدراتها القوية والعالمية على توليد اللغة وفهمها. في الوقت نفسه ، يعد الاستكشاف والتعلم في بيئة مفتوحة أحد القدرات المهمة لوكلاء الأغراض العامة. لذلك ، فإن كيفية تكييف نماذج اللغة الكبيرة مع العالم المفتوح هي مسألة بحثية مهمة.

استجابة لهذه المشكلة ، اقترح فريق من جامعة بكين وأكاديمية بكين للذكاء الاصطناعي LLaMA-Rider ، والذي يمنح النماذج الكبيرة القدرة على استكشاف المهام وجمع البيانات وتعلم الاستراتيجيات في العالم المفتوح ، مما يساعد الوكلاء على استكشاف المعرفة واكتسابها بشكل مستقل وتعلم حل المهام المختلفة في Minecraft ، وتحسين استقلالية وتنوع الوكلاء.

* استكشف العالم المفتوح بنفسك *

* رابط الورق:

روابط التعليمات البرمجية:

1 、 الاستكشاف والتعلم المدفوع بالتغذية الراجعة البيئية

يركز LLaMA-Rider على تكييف نماذج اللغات الكبيرة (LLMs) مع بيئتهم ، وبالتالي تحسين قدرتهم على تعدد المهام في البيئة. من المرجح أن تكون المعرفة المكتسبة خلال مرحلة ما قبل التدريب من LLMs غير متسقة مع البيئة الفعلية ، مما يؤدي في كثير من الأحيان إلى قرارات خاطئة. من أجل حل هذه المشكلة ، تستخدم بعض الأساليب الحالية الهندسة السريعة للحصول على المعلومات البيئية من خلال التفاعل المتكرر مع LLM ، ولكن لا تقوم بتحديث LLM ؛ يستخدم البعض التعلم المعزز لضبط LLMs عبر الإنترنت ، لكنها مكلفة حسابيا ويصعب توسيع نطاقها إلى المهام المتعددة والمهام المعقدة.

لقد توصلت LLaMA-Rider إلى طريقة جديدة للتفكير في هذا الأمر. يستخدم أولا ردود الفعل من البيئة ويعتمد على قدرة LLM الخاصة لاستكشاف البيئة وجمع التجارب الناجحة. بعد ذلك ، يدمج LLaMA-Rider التجربة في مجموعة بيانات خاضعة للإشراف لتعلم وتحديث معرفتها. سمح إطار التدريب المكون من مرحلتين LLaMA-Rider بالتفوق على متوسط مخطط مهام ChatGPT في 30 مهمة في بيئة Minecraft وإظهار القدرة على تعميم المهام الجديدة.

خلال مرحلة الاستكشاف ، يستخدم LLaMA-Rider آلية تعديل التغذية المرتدة للاستكشاف بنشاط. في كل خطوة زمنية ، يتلقى LLaMA-Rider معلومات بيئية نصية ومعلومات مهمة ، ويعطي قرارا بشأن الخطوة التالية. نظرا لوجود فجوة معرفية مع البيئة ، قد لا يتم تنفيذ القرار في البيئة ويؤدي إلى ردود فعل من البيئة ، والتي يتم إعادة تغذيتها إلى LLaMA-Rider لتوجيهها لتعديل القرار. من خلال فهم LLM السياقي وردود الفعل البيئية ، يمكن ل LLaMA-Rider استكشاف العالم المفتوح بكفاءة.

من أجل مطابقة إخراج النص الخاص ب LLM مع مساحة العمل الخاصة بالبيئة ، يستخدم LLaMA-Rider مجموعة من المهارات المدربة مسبقا كمكتبة المهارات ، ويستخدم وحدة استرجاع المهارات لمطابقة نص إخراج LLM مع وصف المهارة في مكتبة المهارات لاسترداد أقرب مهارة. نظرا لأن أوصاف المهارات لها دلالات أكثر من الإجراءات في البيئة ، فإن هذا النهج يستفيد بشكل أكبر من قدرات LLMs.

بالإضافة إلى ذلك ، يستخدم LLaMA-Rider طريقة إعادة تسمية المهام الفرعية ، والتي تستبدل معلومات المهمة الأصلية في الإدخال بمعلومات المهمة الفرعية التي يتم إكمالها حاليا أثناء عملية الاستكشاف ، بحيث يمكن ل LLM الانتباه إلى الهدف الفرعي الحالي أثناء عملية الاستكشاف وتحسين معدل نجاح المهمة.

خلال مرحلة التعلم ، يتم دمج الدروس المستفادة أثناء الاستكشاف في مجموعة بيانات خاضعة للإشراف يمكن استخدامها لأداء الضبط الدقيق الخاضع للإشراف (SFT) ل LLM. تستخدم طريقة إعادة تسمية المهام الفرعية أيضا في مجموعة البيانات للسماح ل LLaMA-Rider بتعلم مزيج المهام الفرعية بين المهام وتحسين قدرة تعميم الاستراتيجية.

2 ، التأثير التجريبي

نموذج اللغة الكبيرة الذي يستخدمه LLaMA-Rider هو LLaMA-2-70B-chat الذي تم إطلاقه مؤخرا. من بين 30 مهمة في الفئات الثلاث ل Minecraft ، تفوق LLaMA-Rider على مخططي المهام المستندة إلى ChatGPT ، كما تجاوز عدد المهام التي يمكن أن يكملها LLaMA-Rider بعد التعلم عدد المهام التي يمكن أن تنجح في مرحلة الاستكشاف ، مما يدل على قدرة LLaMA-Rider على التعلم المستمر وحل المهام المتعددة في العالم المفتوح.

بالمقارنة مع أساليب التعلم المعزز (RL) ، يظهر LLaMA-Rider مزايا كفاءة أخذ العينات العالية وتكلفة التدريب المنخفضة. حتى في المهام المتعلقة بالخشب بصعوبة بسيطة وعدد قصير من الخطوات ، يصعب تحقيق نتائج التدريب بطريقة RL ، مما يشير إلى صعوبة توسيع طريقة التدريب للتعلم المعزز إلى المساحات الحركية الكبيرة والمشاهد المعقدة. من ناحية أخرى ، استخدم LLaMA-Rider فقط 5-10 استكشافات مهمة لإكمال جمع البيانات في مرحلة الاستكشاف ، وتم تدريبه فقط على مجموعة بيانات بحجم عينة يبلغ 1.3 كيلو في مرحلة التعلم لتحقيق نتائج محسنة.

وجد المؤلفون كذلك أنه بعد استكشاف المهام ال 30 المذكورة أعلاه ، تمكن LLaMA-Rider من تحقيق تحسن في فعالية المهام الأكثر صعوبة المتعلقة بخام الحديد والتي لم يتم استكشافها أثناء عملية التعلم. يوضح هذا أيضا تعميم القدرة على صنع القرار التي تعلمتها LLaMA-Rider.

في تجربة الاجتثاث ، استخدم المؤلفون المهام المتعلقة بالحجر مع المزيد من المهام الفرعية للتحقق من الدور الرئيسي لطريقة إعادة تسمية المهام الفرعية على معدل نجاح المهمة والقدرة على تعميم المهمة.

بالإضافة إلى ذلك ، على الرغم من أن LLaMA-Rider يتعلم فقط البيانات المتعلقة باتخاذ قرار المهمة ، عندما يطرح المؤلف أسئلة تتعلق بالمهمة ، يقدم LLaMA-Rider أيضا إجابة أكثر دقة ، مما يشير إلى أنه يتعلم أيضا المعرفة البيئية أثناء عملية التدريب ، مما يثبت أن LLaMA-Rider يلعب دورا في التوافق مع المعرفة البيئية.

3, ملخص

يقترح المؤلفون إطار تدريب نموذج اللغة الكبير من LLaMA-Rider ، والذي يسمح لنموذج اللغة الكبيرة باستكشاف العالم المفتوح بشكل مستقل وفقا للتعليقات البيئية جنبا إلى جنب مع قدراته الخاصة ، والتعلم الفعال الكامل بناء على الخبرة التي تم جمعها ، ويحقق قدرات حل مهام متعددة المهام أفضل في بيئة Minecraft من الطرق الأخرى بما في ذلك مخطط مهام ChatGPT ، بحيث يمكن لنموذج اللغة الكبيرة اكتساب القدرة على التكيف مع العالم المفتوح. بالإضافة إلى ذلك ، تشير قدرة التعميم ل LLaMA-Rider على حل المهام الجديدة باستخدام تجربة المهام السابقة إلى احتمال تطبيق هذه الطريقة على تعلم الاستكشاف مدى الحياة للنماذج الكبيرة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#Gate Lists Ondo Spot Trading Zone
12k درجة الشعبية
#Nonfarm Payrolls Incoming
8k درجة الشعبية
#Are You Bullish or Bearish Today?
46k درجة الشعبية
#Bitcoin Market Update
5k درجة الشعبية
#Gate Alpha PTB Points Airdrop
6k درجة الشعبية

تثبيت

خريطة الموقع

للسماح للنماذج الكبيرة باستكشاف العالم المفتوح بشكل مستقل ، اقترحت جامعة بكين و KLCII إطار التدريب LLaMA-Rider

**1 、 الاستكشاف والتعلم المدفوع بالتغذية الراجعة البيئية **

**2 ، التأثير التجريبي **

3, ملخص

1 、 الاستكشاف والتعلم المدفوع بالتغذية الراجعة البيئية

2 ، التأثير التجريبي