Para permitir que grandes modelos explorem o mundo aberto de forma independente, a Universidade de Pequim propôs a estrutura de treinamento LLaMA-Rider

Fonte do artigo: Heart of the Machine

Fonte da imagem: Gerada por Unbounded AI

Grandes modelos de linguagem têm mostrado o potencial para se tornarem agentes de uso geral devido às suas poderosas e universais capacidades de geração e compreensão de linguagem. Ao mesmo tempo, explorar e aprender em um ambiente aberto é uma das capacidades importantes dos agentes de propósito geral. Portanto, como adaptar grandes modelos linguísticos ao mundo aberto é uma questão de pesquisa importante.

Em resposta a este problema, uma equipa da Universidade de Pequim e da Academia de Inteligência Artificial de Pequim propôs o LLaMA-Rider, que dá aos grandes modelos a capacidade de explorar tarefas, recolher dados e aprender estratégias no mundo aberto, ajudando os agentes a explorar e adquirir conhecimento de forma independente e a aprender a resolver várias tarefas no Minecraft, melhorando a autonomia e versatilidade dos agentes.

Explore o mundo aberto por conta própria

* Link do artigo:

  • Links de código:

1、Exploração e aprendizagem orientadas por feedback ambiental

LLaMA-Rider concentra-se na adaptação de grandes modelos de linguagem (LLMs) ao seu ambiente, melhorando assim a sua capacidade de multitarefa no ambiente. É provável que o conhecimento adquirido durante a fase de pré-formação dos LLM seja inconsistente com o ambiente real, o que muitas vezes leva a decisões erradas. A fim de resolver este problema, alguns métodos existentes usam engenharia imediata para obter informações ambientais através da interação frequente com o LLM, mas não atualizam o LLM; Alguns usam o aprendizado por reforço para ajustar LLMs on-line, mas eles são computacionalmente caros e difíceis de escalar para multitarefas e tarefas complexas.

A LLaMA-Rider criou uma nova forma de pensar sobre isso. Primeiro, usa o feedback do ambiente e confia na própria capacidade do LLM de explorar o ambiente e coletar experiências bem-sucedidas. Depois disso, LLaMA-Rider integra a experiência em um conjunto de dados supervisionado para aprender e atualizar seus conhecimentos. Essa estrutura de treinamento de dois estágios permitiu que LLaMA-Rider superasse o planejador de tarefas ChatGPT médio em 30 tarefas no ambiente Minecraft e demonstrasse a capacidade de generalizar novas tarefas.

Durante a fase de exploração, LLaMA-Rider utiliza o mecanismo de modificação de feedback para explorar ativamente. Em cada etapa do tempo, LLaMA-Rider recebe informações ambientais textuais e informações da tarefa, e dá uma decisão sobre a próxima etapa. Devido a uma lacuna de conhecimento com o ambiente, a decisão pode não ser executada no ambiente e desencadear feedback do ambiente, que é realimentado para LLaMA-Rider para orientá-lo a modificar a decisão. Com a própria compreensão contextual e feedback ambiental da LLM, LLaMA-Rider pode explorar eficientemente o mundo aberto.

A fim de combinar a saída de texto do LLM com o espaço de ação do ambiente, LLaMA-Rider usa um conjunto de habilidades pré-treinadas como a biblioteca de habilidades, e usa o módulo de recuperação de habilidades para combinar o texto de saída do LLM com a descrição da habilidade na biblioteca de habilidades para recuperar a habilidade mais próxima. Como as descrições de habilidades têm mais semântica do que ações no ambiente, essa abordagem faz maior uso das capacidades dos LLMs.

Além disso, o LLaMA-Rider usa o método de rerotulagem de subtarefas, que substitui as informações originais da tarefa na entrada pelas informações da subtarefa que estão sendo concluídas durante o processo de exploração, para que o LLM possa prestar atenção ao subobjetivo atual durante o processo de exploração e melhorar a taxa de sucesso da tarefa.

Durante a fase de aprendizagem, as lições aprendidas durante a exploração são integradas em um conjunto de dados supervisionado que pode ser usado para realizar o ajuste fino supervisionado (SFT) do LLM. O método de re-rotulagem de subtarefas também é usado no conjunto de dados para permitir que LLaMA-Rider aprenda a combinação de subtarefas entre tarefas e melhorar a capacidade de generalização da estratégia.

2, Efeito Experimental

O modelo de linguagem grande usado pela LLaMA-Rider é o recém-lançado LLaMA-2-70B-chat. Entre as 30 tarefas nas três categorias do Minecraft, LLaMA-Rider superou os planejadores de tarefas baseados em ChatGPT, e o número de tarefas que LLaMA-Rider poderia concluir após o aprendizado também excedeu o número de tarefas que poderia ter sucesso na fase de exploração, demonstrando a capacidade do LLaMA-Rider de aprender continuamente e resolver várias tarefas no mundo aberto.

Em comparação com os métodos de aprendizagem por reforço (RL), LLaMA-Rider mostra as vantagens de alta eficiência de amostragem e baixo custo de treinamento. Mesmo em tarefas relacionadas com madeira, com dificuldade simples e pequeno número de passos, o método RL é difícil de alcançar resultados de treino, indicando que o método de treino de aprendizagem por reforço é difícil de estender a grandes espaços motores e cenas complexas. LLaMA-Rider, por outro lado, usou apenas 5-10 explorações de tarefas para completar a coleta de dados na fase de exploração, e só treinou em um conjunto de dados com um tamanho de amostra de 1,3k na fase de aprendizagem para alcançar melhores resultados.

Os autores descobriram ainda que, depois de explorar as 30 tarefas acima, LLaMA-Rider foi capaz de alcançar uma melhoria na eficácia de tarefas mais difíceis relacionadas ao minério de ferro que não foram exploradas durante o processo de aprendizagem. Isso demonstra ainda mais a generalização da capacidade de tomada de decisão que LLaMA-Rider aprendeu.

No experimento de ablação, os autores usaram tarefas relacionadas à pedra com mais subtarefas para verificar o papel-chave do método de rerotulagem de subtarefas na taxa de sucesso da tarefa e na capacidade de generalização da tarefa.

Além disso, embora LLaMA-Rider apenas aprenda os dados relacionados à tomada de decisão da tarefa, quando o autor faz perguntas relacionadas à tarefa, LLaMA-Rider também dá uma resposta mais precisa, indicando que também aprende conhecimento ambiental durante o processo de treinamento, provando que LLaMA-Rider desempenha um papel no alinhamento com o conhecimento ambiental.

3, Resumo

Os autores propõem a estrutura de treinamento de modelo de linguagem grande do LLaMA-Rider, que permite que o modelo de linguagem grande explore o mundo aberto de forma independente de acordo com o feedback ambiental combinado com suas próprias capacidades, e completa a aprendizagem eficiente com base na experiência coletada, e alcança melhores capacidades de resolução de multitarefas no ambiente Minecraft do que outros métodos, incluindo o planejador de tarefas ChatGPT, para que o modelo de linguagem grande possa ganhar adaptabilidade ao mundo aberto. Além disso, a capacidade de generalização do LLaMA-Rider para resolver novas tarefas usando a experiência de tarefas passadas indica a perspetiva de aplicar este método à aprendizagem de exploração ao longo da vida de grandes modelos.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)