Великі мовні моделі показали потенціал стати агентами загального призначення завдяки своїм потужним і універсальним можливостям генерації та розуміння мови. У той же час дослідження та навчання у відкритому середовищі є однією з важливих можливостей агентів загального призначення. Тому те, як адаптувати великі мовні моделі до відкритого світу, є важливим дослідницьким питанням.
У відповідь на цю проблему команда з Пекінського університету та Пекінської академії штучного інтелекту запропонувала LLaMA-Rider, яка дає великим моделям можливість досліджувати завдання, збирати дані та вивчати стратегії у відкритому світі, допомагаючи агентам самостійно досліджувати та здобувати знання та вчитися вирішувати різні завдання в Minecraft, покращуючи автономність та універсальність агентів.
Досліджуйте відкритий світ самостійно
* Посилання на папір:
Посилання на коди:
1、Дослідження та навчання на основі зворотного зв'язку з навколишнім середовищем
LLaMA-Rider фокусується на адаптації великих мовних моделей (LLM) до навколишнього середовища, тим самим покращуючи їх здатність до багатозадачності в навколишньому середовищі. Знання, отримані на етапі попереднього навчання LLM, швидше за все, будуть не відповідати реальному середовищу, що часто призводить до неправильних рішень. Для того, щоб вирішити цю проблему, деякі існуючі методи використовують оперативну інженерію для отримання інформації про навколишнє середовище шляхом частої взаємодії з LLM, але не оновлюють LLM; Деякі використовують навчання з підкріпленням для точного налаштування LLM онлайн, але вони дорогі з обчислювальної точки зору і їх важко масштабувати до багатозадачності та складних завдань.
LLaMA-Rider придумав новий спосіб мислення з цього приводу. Спочатку він використовує зворотний зв'язок від навколишнього середовища та покладається на власну здатність LLM досліджувати навколишнє середовище та збирати успішний досвід. Після цього LLaMA-Rider інтегрує досвід у контрольований набір даних, щоб вивчати та оновлювати свої знання. Такий двоступеневий фреймворк навчання дозволив LLaMA-Rider перевершити середньостатистичного планувальника завдань ChatGPT на 30 завдань у середовищі Minecraft та продемонструвати здатність узагальнювати нові завдання.
На етапі дослідження LLaMA-Rider використовує механізм модифікації зворотного зв'язку для активного дослідження. На кожному такті часу LLaMA-Rider отримує текстову інформацію про навколишнє середовище та інформацію про завдання, а також видає рішення щодо наступного кроку. Через прогалину в знаннях з навколишнім середовищем, рішення може не бути виконане в середовищі і викликати зворотний зв'язок з оточенням, який повторно передається в LLaMA-Rider, щоб допомогти йому змінити рішення. Завдяки власному контекстуальному розумінню LLM та зворотному зв'язку з навколишнім середовищем, LLaMA-Rider може ефективно досліджувати відкритий світ.
Для того, щоб зіставити текстові дані LLM з простором дій середовища, LLaMA-Rider використовує набір попередньо навчених навичок як бібліотеку навичок і використовує модуль пошуку навичок для зіставлення вихідного тексту LLM з описом навички в бібліотеці навичок для отримання найближчої навички. Оскільки описи навичок мають більшу семантику, ніж дії в навколишньому середовищі, цей підхід ширше використовує можливості LLM.
Крім того, LLaMA-Rider використовує метод повторного маркування підзавдань, який замінює вихідну інформацію про завдання у вхідних даних інформацією про підзавдання, яка в даний момент виконується в процесі дослідження, щоб LLM міг звернути увагу на поточну підціль під час процесу дослідження та покращити показник успішності завдання.
На етапі навчання уроки, отримані під час дослідження, інтегруються в контрольований набір даних, який можна використовувати для виконання контрольованого тонкого налаштування (SFT) LLM. Метод перемаркування підзадач також використовується в наборі даних, щоб дозволити LLaMA-Rider вивчити комбінацію підзадач між завданнями та покращити здатність до узагальнення стратегії.
2, експериментальний ефект
Великою мовною моделлю, яку використовує LLaMA-Rider, є нещодавно запущений LLaMA-2-70B-chat. Серед 30 завдань у трьох категоріях Minecraft LLaMA-Rider перевершив планувальників завдань на основі ChatGPT, а кількість завдань, які LLaMA-Rider міг виконати після навчання, також перевищила кількість завдань, які він міг би виконати на етапі дослідження, демонструючи здатність LLaMA-Rider безперервно навчатися та вирішувати кілька завдань у відкритому світі.
У порівнянні з методами навчання з підкріпленням (RL), LLaMA-Rider демонструє переваги високої ефективності вибірки та низької вартості навчання. Навіть на завданнях, пов'язаних з деревом, з простою складністю і короткою кількістю кроків, метод RL важко досягає результатів навчання, що вказує на те, що тренувальний метод навчання з підкріпленням важко поширити на великі моторні простори і складні сцени. З іншого боку, LLaMA-Rider використовував лише 5-10 досліджень завдань для завершення збору даних на етапі дослідження та навчався лише на наборі даних із розміром вибірки 1,3 тисячі на етапі навчання для досягнення покращених результатів.
Автори також виявили, що після вивчення вищевказаних 30 завдань LLaMA-Rider зміг досягти підвищення ефективності більш складних завдань, пов'язаних із залізною рудою, які не були досліджені в процесі навчання. Це ще раз демонструє узагальнення здатності приймати рішення, якої навчився LLaMA-Rider.
В експерименті з абляцією автори використовували завдання, пов'язані з каменем, з більшою кількістю підзадач, щоб перевірити ключову роль методу перемаркування підзавдань на рівень успішності завдань і здатність узагальнення завдань.
Крім того, хоча LLaMA-Rider вивчає лише дані, пов'язані з прийняттям рішень, коли автор задає питання, пов'язані із завданням, LLaMA-Rider також дає більш точну відповідь, вказуючи, що він також засвоює екологічні знання під час тренувального процесу, доводячи, що LLaMA-Rider відіграє певну роль у узгодженні з екологічними знаннями.
3, Підсумок
Автори пропонують навчальну структуру великої мовної моделі LLaMA-Rider, яка дозволяє великій мовній моделі самостійно досліджувати відкритий світ відповідно до зворотного зв'язку з навколишнім середовищем у поєднанні з власними можливостями та завершити ефективне навчання на основі накопиченого досвіду, а також досягти кращих можливостей вирішення кількох завдань у середовищі Minecraft, ніж інші методи, включаючи планувальник завдань ChatGPT, щоб велика мовна модель могла отримати адаптивність до відкритого світу. Крім того, узагальнююча здатність LLaMA-Rider вирішувати нові завдання з використанням досвіду минулих завдань вказує на перспективу застосування цього методу для вивчення великих моделей протягом усього життя.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Щоб дозволити великим моделям самостійно досліджувати відкритий світ, Пекінський університет і KLCII запропонували навчальний фреймворк LLaMA-Rider
Джерело статті: Серце машини
Великі мовні моделі показали потенціал стати агентами загального призначення завдяки своїм потужним і універсальним можливостям генерації та розуміння мови. У той же час дослідження та навчання у відкритому середовищі є однією з важливих можливостей агентів загального призначення. Тому те, як адаптувати великі мовні моделі до відкритого світу, є важливим дослідницьким питанням.
У відповідь на цю проблему команда з Пекінського університету та Пекінської академії штучного інтелекту запропонувала LLaMA-Rider, яка дає великим моделям можливість досліджувати завдання, збирати дані та вивчати стратегії у відкритому світі, допомагаючи агентам самостійно досліджувати та здобувати знання та вчитися вирішувати різні завдання в Minecraft, покращуючи автономність та універсальність агентів.
1、Дослідження та навчання на основі зворотного зв'язку з навколишнім середовищем
LLaMA-Rider фокусується на адаптації великих мовних моделей (LLM) до навколишнього середовища, тим самим покращуючи їх здатність до багатозадачності в навколишньому середовищі. Знання, отримані на етапі попереднього навчання LLM, швидше за все, будуть не відповідати реальному середовищу, що часто призводить до неправильних рішень. Для того, щоб вирішити цю проблему, деякі існуючі методи використовують оперативну інженерію для отримання інформації про навколишнє середовище шляхом частої взаємодії з LLM, але не оновлюють LLM; Деякі використовують навчання з підкріпленням для точного налаштування LLM онлайн, але вони дорогі з обчислювальної точки зору і їх важко масштабувати до багатозадачності та складних завдань.
LLaMA-Rider придумав новий спосіб мислення з цього приводу. Спочатку він використовує зворотний зв'язок від навколишнього середовища та покладається на власну здатність LLM досліджувати навколишнє середовище та збирати успішний досвід. Після цього LLaMA-Rider інтегрує досвід у контрольований набір даних, щоб вивчати та оновлювати свої знання. Такий двоступеневий фреймворк навчання дозволив LLaMA-Rider перевершити середньостатистичного планувальника завдань ChatGPT на 30 завдань у середовищі Minecraft та продемонструвати здатність узагальнювати нові завдання.
Для того, щоб зіставити текстові дані LLM з простором дій середовища, LLaMA-Rider використовує набір попередньо навчених навичок як бібліотеку навичок і використовує модуль пошуку навичок для зіставлення вихідного тексту LLM з описом навички в бібліотеці навичок для отримання найближчої навички. Оскільки описи навичок мають більшу семантику, ніж дії в навколишньому середовищі, цей підхід ширше використовує можливості LLM.
Крім того, LLaMA-Rider використовує метод повторного маркування підзавдань, який замінює вихідну інформацію про завдання у вхідних даних інформацією про підзавдання, яка в даний момент виконується в процесі дослідження, щоб LLM міг звернути увагу на поточну підціль під час процесу дослідження та покращити показник успішності завдання.
2, експериментальний ефект
Великою мовною моделлю, яку використовує LLaMA-Rider, є нещодавно запущений LLaMA-2-70B-chat. Серед 30 завдань у трьох категоріях Minecraft LLaMA-Rider перевершив планувальників завдань на основі ChatGPT, а кількість завдань, які LLaMA-Rider міг виконати після навчання, також перевищила кількість завдань, які він міг би виконати на етапі дослідження, демонструючи здатність LLaMA-Rider безперервно навчатися та вирішувати кілька завдань у відкритому світі.
У порівнянні з методами навчання з підкріпленням (RL), LLaMA-Rider демонструє переваги високої ефективності вибірки та низької вартості навчання. Навіть на завданнях, пов'язаних з деревом, з простою складністю і короткою кількістю кроків, метод RL важко досягає результатів навчання, що вказує на те, що тренувальний метод навчання з підкріпленням важко поширити на великі моторні простори і складні сцени. З іншого боку, LLaMA-Rider використовував лише 5-10 досліджень завдань для завершення збору даних на етапі дослідження та навчався лише на наборі даних із розміром вибірки 1,3 тисячі на етапі навчання для досягнення покращених результатів.
3, Підсумок
Автори пропонують навчальну структуру великої мовної моделі LLaMA-Rider, яка дозволяє великій мовній моделі самостійно досліджувати відкритий світ відповідно до зворотного зв'язку з навколишнім середовищем у поєднанні з власними можливостями та завершити ефективне навчання на основі накопиченого досвіду, а також досягти кращих можливостей вирішення кількох завдань у середовищі Minecraft, ніж інші методи, включаючи планувальник завдань ChatGPT, щоб велика мовна модель могла отримати адаптивність до відкритого світу. Крім того, узагальнююча здатність LLaMA-Rider вирішувати нові завдання з використанням досвіду минулих завдань вказує на перспективу застосування цього методу для вивчення великих моделей протягом усього життя.