Большие языковые модели продемонстрировали потенциал для того, чтобы стать агентами общего назначения благодаря своим мощным и универсальным возможностям генерации и понимания языка. В то же время исследование и обучение в открытой среде является одной из важных способностей агентов общего назначения. Поэтому вопрос о том, как адаптировать большие языковые модели к открытому миру, является важным исследовательским вопросом.
В ответ на эту проблему команда из Пекинского университета и Пекинской академии искусственного интеллекта предложила LLaMA-Rider, который дает большим моделям возможность исследовать задачи, собирать данные и изучать стратегии в открытом мире, помогая агентам самостоятельно исследовать и приобретать знания и учиться решать различные задачи в Minecraft, повышая автономность и универсальность агентов.
Исследуйте открытый мир самостоятельно
* Ссылка на статью:
Ссылки на код:
1、Исследования и обучение на основе обратной связи с окружающей средой
LLaMA-Rider фокусируется на адаптации больших языковых моделей (LLM) к окружающей среде, тем самым улучшая их способность к многозадачности в среде. Знания, полученные на этапе подготовки магистров права, скорее всего, не соответствуют реальной среде, что часто приводит к неправильным решениям. Для того, чтобы решить эту проблему, некоторые существующие методы используют оперативную инженерию для получения информации об окружающей среде путем частого взаимодействия с LLM, но не обновляют LLM; Некоторые используют обучение с подкреплением для тонкой настройки LLM онлайн, но они требуют больших вычислительных ресурсов и их трудно масштабировать до многозадачности и сложных задач.
LLaMA-Rider придумал новый подход к этому вопросу. Во-первых, он использует обратную связь от окружающей среды и полагается на собственную способность магистра права исследовать среду и собирать успешный опыт. После этого LLaMA-Rider интегрирует опыт в контролируемый набор данных для изучения и обновления своих знаний. Такой двухступенчатый фреймворк обучения позволил LLaMA-Rider превзойти среднестатистического планировщика задач ChatGPT на 30 задач в среде Minecraft и продемонстрировать способность обобщать новые задачи.
На этапе исследования LLaMA-Rider использует механизм модификации обратной связи для активного исследования. На каждом временном шаге LLaMA-Rider получает текстовую информацию об окружающей среде и информацию о задаче и выдает решение о следующем шаге. Из-за пробелов в знаниях о среде решение может не быть выполнено в среде и вызвать обратную связь от среды, которая повторно передается в LLaMA-Rider, чтобы помочь ему изменить решение. Благодаря собственному пониманию контекста и обратной связи с окружающей средой, LLaMA-Rider может эффективно исследовать открытый мир.
Для того, чтобы сопоставить текстовый вывод LLM с пространством действий среды, LLaMA-Rider использует набор предварительно обученных навыков в качестве библиотеки навыков и использует модуль поиска навыков для сопоставления выходного текста LLM с описанием навыка в библиотеке навыков для получения ближайшего навыка. Поскольку описания навыков имеют больше семантики, чем действия в среде, этот подход позволяет шире использовать возможности магистров права.
Кроме того, LLaMA-Rider использует метод перемаркировки подзадач, который заменяет исходную информацию о задаче во входных данных информацией о подзадаче, которая в настоящее время выполняется в процессе исследования, чтобы LLM мог обращать внимание на текущую подцель в процессе исследования и повышать вероятность успешности задачи.
На этапе обучения уроки, полученные в ходе исследования, интегрируются в контролируемый набор данных, который можно использовать для выполнения контролируемой тонкой настройки (SFT) LLM. Метод перемаркировки подзадач также используется в наборе данных, чтобы позволить LLaMA-Rider изучить комбинацию подзадач между задачами и улучшить способность стратегии к обобщению.
2, Экспериментальный эффект
Большой языковой моделью, используемой LLaMA-Rider, является недавно выпущенный LLaMA-2-70B-чат. Среди 30 заданий в трех категориях Minecraft LLaMA-Rider превзошел планировщиков задач на основе ChatGPT, а количество задач, которые LLaMA-Rider мог выполнить после обучения, также превысило количество задач, которые он мог выполнить на этапе исследования, демонстрируя способность LLaMA-Rider к непрерывному обучению и многозадачному решению задач в открытом мире.
По сравнению с методами обучения с подкреплением (RL), LLaMA-Rider демонстрирует преимущества высокой эффективности выборки и низкой стоимости обучения. Даже в связанных с деревом задачах с простой сложностью и коротким количеством шагов метод RL трудно достичь результатов обучения, что указывает на то, что метод обучения с подкреплением трудно распространить на большие двигательные пространства и сложные сцены. LLaMA-Rider, с другой стороны, использовал только 5-10 исследований задач для завершения сбора данных на этапе исследования и обучался только на наборе данных с размером выборки 1,3 тыс. на этапе обучения для достижения улучшенных результатов.
Кроме того, авторы обнаружили, что после изучения вышеуказанных 30 задач, LLaMA-Rider смог добиться повышения эффективности более сложных задач, связанных с железной рудой, которые не были изучены в процессе обучения. Это еще раз демонстрирует обобщение способности к принятию решений, которой научился LLaMA-Rider.
В эксперименте с абляцией авторы использовали задачи, связанные с камнями, с большим количеством подзадач, чтобы проверить ключевую роль метода перемаркировки подзадач на успешность задачи и способность к обобщению задач.
Кроме того, несмотря на то, что LLaMA-Rider изучает только данные, связанные с принятием решения задачи, когда автор задает вопросы, связанные с задачей, LLaMA-Rider также дает более точный ответ, указывая на то, что он также изучает знания об окружающей среде в процессе обучения, доказывая, что LLaMA-Rider играет роль в согласовании с экологическими знаниями.
3, Резюме
Авторы предлагают фреймворк для обучения большой языковой модели LLaMA-Rider, который позволяет большой языковой модели самостоятельно исследовать открытый мир в соответствии с обратной связью окружающей среды в сочетании со своими собственными возможностями и завершать эффективное обучение на основе собранного опыта, а также достигает лучших возможностей многозадачного решения в среде Minecraft, чем другие методы, включая планировщик задач ChatGPT, так что большая языковая модель может получить адаптивность к открытому миру. Кроме того, обобщающая способность LLaMA-Rider решать новые задачи с использованием опыта прошлых задач указывает на перспективность применения данного метода к непрерывному исследовательскому обучению больших моделей.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Чтобы позволить большим моделям самостоятельно исследовать открытый мир, Пекинский университет и KLCII предложили обучающую структуру LLaMA-Rider
Источник статьи: Сердце машины
Большие языковые модели продемонстрировали потенциал для того, чтобы стать агентами общего назначения благодаря своим мощным и универсальным возможностям генерации и понимания языка. В то же время исследование и обучение в открытой среде является одной из важных способностей агентов общего назначения. Поэтому вопрос о том, как адаптировать большие языковые модели к открытому миру, является важным исследовательским вопросом.
В ответ на эту проблему команда из Пекинского университета и Пекинской академии искусственного интеллекта предложила LLaMA-Rider, который дает большим моделям возможность исследовать задачи, собирать данные и изучать стратегии в открытом мире, помогая агентам самостоятельно исследовать и приобретать знания и учиться решать различные задачи в Minecraft, повышая автономность и универсальность агентов.
1、Исследования и обучение на основе обратной связи с окружающей средой
LLaMA-Rider фокусируется на адаптации больших языковых моделей (LLM) к окружающей среде, тем самым улучшая их способность к многозадачности в среде. Знания, полученные на этапе подготовки магистров права, скорее всего, не соответствуют реальной среде, что часто приводит к неправильным решениям. Для того, чтобы решить эту проблему, некоторые существующие методы используют оперативную инженерию для получения информации об окружающей среде путем частого взаимодействия с LLM, но не обновляют LLM; Некоторые используют обучение с подкреплением для тонкой настройки LLM онлайн, но они требуют больших вычислительных ресурсов и их трудно масштабировать до многозадачности и сложных задач.
LLaMA-Rider придумал новый подход к этому вопросу. Во-первых, он использует обратную связь от окружающей среды и полагается на собственную способность магистра права исследовать среду и собирать успешный опыт. После этого LLaMA-Rider интегрирует опыт в контролируемый набор данных для изучения и обновления своих знаний. Такой двухступенчатый фреймворк обучения позволил LLaMA-Rider превзойти среднестатистического планировщика задач ChatGPT на 30 задач в среде Minecraft и продемонстрировать способность обобщать новые задачи.
Для того, чтобы сопоставить текстовый вывод LLM с пространством действий среды, LLaMA-Rider использует набор предварительно обученных навыков в качестве библиотеки навыков и использует модуль поиска навыков для сопоставления выходного текста LLM с описанием навыка в библиотеке навыков для получения ближайшего навыка. Поскольку описания навыков имеют больше семантики, чем действия в среде, этот подход позволяет шире использовать возможности магистров права.
Кроме того, LLaMA-Rider использует метод перемаркировки подзадач, который заменяет исходную информацию о задаче во входных данных информацией о подзадаче, которая в настоящее время выполняется в процессе исследования, чтобы LLM мог обращать внимание на текущую подцель в процессе исследования и повышать вероятность успешности задачи.
2, Экспериментальный эффект
Большой языковой моделью, используемой LLaMA-Rider, является недавно выпущенный LLaMA-2-70B-чат. Среди 30 заданий в трех категориях Minecraft LLaMA-Rider превзошел планировщиков задач на основе ChatGPT, а количество задач, которые LLaMA-Rider мог выполнить после обучения, также превысило количество задач, которые он мог выполнить на этапе исследования, демонстрируя способность LLaMA-Rider к непрерывному обучению и многозадачному решению задач в открытом мире.
По сравнению с методами обучения с подкреплением (RL), LLaMA-Rider демонстрирует преимущества высокой эффективности выборки и низкой стоимости обучения. Даже в связанных с деревом задачах с простой сложностью и коротким количеством шагов метод RL трудно достичь результатов обучения, что указывает на то, что метод обучения с подкреплением трудно распространить на большие двигательные пространства и сложные сцены. LLaMA-Rider, с другой стороны, использовал только 5-10 исследований задач для завершения сбора данных на этапе исследования и обучался только на наборе данных с размером выборки 1,3 тыс. на этапе обучения для достижения улучшенных результатов.
3, Резюме
Авторы предлагают фреймворк для обучения большой языковой модели LLaMA-Rider, который позволяет большой языковой модели самостоятельно исследовать открытый мир в соответствии с обратной связью окружающей среды в сочетании со своими собственными возможностями и завершать эффективное обучение на основе собранного опыта, а также достигает лучших возможностей многозадачного решения в среде Minecraft, чем другие методы, включая планировщик задач ChatGPT, так что большая языковая модель может получить адаптивность к открытому миру. Кроме того, обобщающая способность LLaMA-Rider решать новые задачи с использованием опыта прошлых задач указывает на перспективность применения данного метода к непрерывному исследовательскому обучению больших моделей.