Para permitir que los modelos grandes exploren el mundo abierto de forma independiente, la Universidad de Pekín y KLCII propusieron el marco de entrenamiento LLaMA-Rider

2023-11-07 06:35:49

Fuente del artículo: Heart of the Machine

Fuente de la imagen: Generada por Unbounded AI

Los grandes modelos lingüísticos han demostrado el potencial de convertirse en agentes de propósito general debido a sus potentes y universales capacidades de generación y comprensión del lenguaje. Al mismo tiempo, explorar y aprender en un entorno abierto es una de las capacidades importantes de los agentes de propósito general. Por lo tanto, cómo adaptar grandes modelos lingüísticos al mundo abierto es una cuestión de investigación importante.

En respuesta a este problema, un equipo de la Universidad de Pekín y la Academia de Inteligencia Artificial de Pekín propuso LLaMA-Rider, que brinda a los modelos grandes la capacidad de explorar tareas, recopilar datos y aprender estrategias en el mundo abierto, ayudando a los agentes a explorar y adquirir conocimientos de forma independiente y aprender a resolver diversas tareas en Minecraft, mejorando la autonomía y versatilidad de los agentes.

Explora el mundo abierto por tu cuenta

* Enlace en papel:

Enlaces de código:

1、Exploración y aprendizaje basados en la retroalimentación ambiental

LLaMA-Rider se centra en la adaptación de grandes modelos de lenguaje (LLM) a su entorno, mejorando así su capacidad para realizar múltiples tareas en el entorno. Es probable que los conocimientos adquiridos durante la fase previa a la formación de los LLM sean incoherentes con el entorno real, lo que a menudo conduce a decisiones erróneas. Con el fin de resolver este problema, algunos métodos existentes utilizan la ingeniería de avisos para obtener información ambiental a través de la interacción frecuente con el LLM, pero no actualizan el LLM; Algunos utilizan el aprendizaje por refuerzo para afinar los LLM en línea, pero son computacionalmente costosos y difíciles de escalar a tareas complejas y multitarea.

LLaMA-Rider ha ideado una nueva forma de pensar sobre esto. En primer lugar, utiliza la retroalimentación del entorno y se basa en la propia capacidad del LLM para explorar el entorno y recopilar experiencias exitosas. Después de eso, LLaMA-Rider integra la experiencia en un conjunto de datos supervisado para aprender y actualizar su conocimiento. Este marco de entrenamiento de dos etapas permitió a LLaMA-Rider superar al planificador de tareas promedio de ChatGPT en 30 tareas en el entorno de Minecraft y demostrar la capacidad de generalizar nuevas tareas.

Durante la fase de exploración, LLaMA-Rider utiliza el mecanismo de modificación de la retroalimentación para explorar activamente. En cada paso de tiempo, LLaMA-Rider recibe información textual del entorno e información de la tarea, y da una decisión sobre el siguiente paso. Debido a una brecha de conocimiento con el entorno, es posible que la decisión no se ejecute en el entorno y desencadene una retroalimentación del entorno, que se realimenta a LLaMA-Rider para guiarlo a modificar la decisión. Con la propia comprensión contextual y la retroalimentación ambiental de LLM, LLaMA-Rider puede explorar eficientemente el mundo abierto.

Con el fin de hacer coincidir la salida de texto del LLM con el espacio de acción del entorno, LLaMA-Rider utiliza un conjunto de habilidades preentrenadas como la biblioteca de habilidades, y usa el módulo de recuperación de habilidades para hacer coincidir el texto de salida del LLM con la descripción de la habilidad en la biblioteca de habilidades para recuperar la habilidad más cercana. Dado que las descripciones de habilidades tienen más semántica que las acciones en el entorno, este enfoque hace un mayor uso de las capacidades de los LLM.

Además, LLaMA-Rider utiliza el método de reetiquetado de subtareas, que reemplaza la información original de la tarea en la entrada con la información de la subtarea que se está completando actualmente durante el proceso de exploración, de modo que el LLM pueda prestar atención al subobjetivo actual durante el proceso de exploración y mejorar la tasa de éxito de la tarea.

Durante la fase de aprendizaje, las lecciones aprendidas durante la exploración se integran en un conjunto de datos supervisado que se puede utilizar para realizar el ajuste fino supervisado (SFT) del LLM. El método de reetiquetado de subtareas también se utiliza en el conjunto de datos para permitir que LLaMA-Rider aprenda la combinación de subtareas entre tareas y mejore la capacidad de generalización de la estrategia.

2, Efecto experimental

El modelo de lenguaje grande utilizado por LLaMA-Rider es el recientemente lanzado LLaMA-2-70B-chat. Entre las 30 tareas en las tres categorías de Minecraft, LLaMA-Rider superó a los planificadores de tareas basados en ChatGPT, y la cantidad de tareas que LLaMA-Rider pudo completar después de aprender también superó la cantidad de tareas que pudo realizar con éxito en la fase de exploración, lo que demuestra la capacidad de LLaMA-Rider para aprender continuamente y resolver múltiples tareas en el mundo abierto.

En comparación con los métodos de aprendizaje por refuerzo (RL), LLaMA-Rider muestra las ventajas de una alta eficiencia de muestreo y un bajo costo de entrenamiento. Incluso en tareas relacionadas con la madera con dificultad simple y un número corto de pasos, el método RL es difícil de lograr resultados de entrenamiento, lo que indica que el método de entrenamiento de aprendizaje por refuerzo es difícil de extender a grandes espacios motores y escenas complejas. LLaMA-Rider, por otro lado, solo utilizó de 5 a 10 exploraciones de tareas para completar la recopilación de datos en la fase de exploración, y solo se entrenó en un conjunto de datos con un tamaño de muestra de 1.3k en la fase de aprendizaje para lograr mejores resultados.

Los autores encontraron además que después de explorar las 30 tareas anteriores, LLaMA-Rider pudo lograr una mejora en la efectividad de las tareas más difíciles relacionadas con el mineral de hierro que no se exploraron durante el proceso de aprendizaje. Esto demuestra aún más la generalización de la capacidad de toma de decisiones que LLaMA-Rider ha aprendido.

En el experimento de ablación, los autores utilizaron tareas relacionadas con piedras con más subtareas para verificar el papel clave del método de reetiquetado de subtareas en la tasa de éxito de la tarea y la capacidad de generalización de la tarea.

Además, aunque LLaMA-Rider solo aprende los datos relacionados con la toma de decisiones de la tarea, cuando el autor hace preguntas relacionadas con la tarea, LLaMA-Rider también da una respuesta más precisa, indicando que también aprende conocimientos ambientales durante el proceso de entrenamiento, lo que demuestra que LLaMA-Rider juega un papel en la alineación con el conocimiento ambiental.

3, Resumen

Los autores proponen el marco de entrenamiento de modelos de lenguaje grandes de LLaMA-Rider, que permite que el modelo de lenguaje grande explore el mundo abierto de forma independiente de acuerdo con la retroalimentación ambiental combinada con sus propias capacidades, y complete un aprendizaje eficiente basado en la experiencia recopilada, y logre mejores capacidades de resolución de tareas múltiples en el entorno de Minecraft que otros métodos, incluido el planificador de tareas ChatGPT, de modo que el modelo de lenguaje grande pueda ganar adaptabilidad al mundo abierto. Además, la capacidad de generalización de LLaMA-Rider para resolver nuevas tareas mediante el uso de la experiencia de tareas pasadas indica la posibilidad de aplicar este método al aprendizaje de exploración de por vida de modelos grandes.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#Gate Lists Ondo Spot Trading Zone
12k Popularidad
#Nonfarm Payrolls Incoming
8k Popularidad
#Are You Bullish or Bearish Today?
46k Popularidad
#Bitcoin Market Update
5k Popularidad
#Gate Alpha PTB Points Airdrop
6k Popularidad

Anclado