Os videojogos tornaram-se uma simulação do mundo real de hoje, e as possibilidades são infinitas. No jogo Grand Theft Auto (GTA), por exemplo, os jogadores podem experimentar uma vida colorida em Los Santos (a cidade virtual do jogo) a partir de uma perspetiva em primeira pessoa. No entanto, se um jogador humano pode vagar por Los Santos e completar uma série de missões, também podemos ter um modelo de visão de IA que controla um personagem GTA e se torna um "jogador" em missões?
Os modelos linguísticos visuais (VLMs) atuais fizeram progressos substanciais na perceção e raciocínio multimodais, mas muitas vezes são baseados em tarefas mais simples de resposta a perguntas visuais (VQA) ou anotação visual (legenda). Obviamente, essas tarefas não permitem que o VLM realmente realize tarefas do mundo real. Porque a tarefa real requer não só a compreensão da informação visual, mas também a capacidade do modelo de ter raciocínio de planeamento e feedback com base em informação ambiental atualizada em tempo real. Ao mesmo tempo, o plano resultante também precisa ser capaz de manipular as entidades no ambiente para realizar a tarefa de forma realista.
Embora os modelos de linguagem existentes (LLMs) possam planejar tarefas com base nas informações fornecidas, eles não conseguem entender a entrada visual, o que limita muito o escopo de aplicação dos modelos de linguagem ao executar tarefas específicas no mundo real, especialmente para algumas tarefas de inteligência incorporadas, a entrada baseada em texto é muitas vezes difícil de ser detalhada ou muito complexa, de modo que os modelos de linguagem não podem extrair eficientemente informações deles para concluir a tarefa. Os modelos de linguagem atuais fizeram algumas explorações para a geração de programas, mas a exploração da geração de código estruturado, executável e robusto com base na entrada visual ainda não foi explorada.
A fim de resolver o problema de como fazer grandes modelos incorporados e inteligentes, e criar sistemas de consciência situacional e autônomos que podem formular planos com precisão e executar comandos, estudiosos da Universidade Tecnológica de Nanyang em Cingapura, Universidade de Tsinghua, etc., propuseram Octopus. Octopus é um agente programável baseado em visão cujo objetivo é aprender através de entrada visual, entender o mundo real e realizar uma variedade de tarefas do mundo real de uma forma que gera código executável. Treinado em um grande número de entradas visuais e pares de códigos executáveis, Octopus aprendeu a manipular personagens de videogames para completar tarefas no jogo ou completar tarefas domésticas complexas.
* Endereço:
Página do Projeto:
Código fonte aberto:
Recolha de Dados & Formação
Para treinar um modelo de linguagem de visão capaz de executar tarefas de inteligência incorporadas, os pesquisadores também desenvolveram o OctoVerse, que consiste em dois sistemas de simulação que fornecem dados de treinamento e um ambiente de teste para o treinamento do Octopus. Esses dois ambientes de simulação fornecem cenários de treinamento e teste utilizáveis para a inteligência incorporada do VLM e apresentam requisitos mais altos para os recursos de inferência e planejamento de tarefas do modelo. Os detalhes são os seguintes:
OctoGibson: Baseado no OmniGibson desenvolvido pela Universidade de Stanford, inclui um total de 476 atividades domésticas da vida real. Todo o ambiente de simulação inclui 16 categorias diferentes de cenários domésticos, abrangendo 155 exemplos de ambientes domésticos do mundo real. O modelo pode manipular o grande número de objetos interacionáveis presentes nele para realizar a tarefa final.
OctoGTA: Baseado no jogo Grand Theft Auto (GTA), um total de 20 missões são construídas e generalizadas em cinco cenários diferentes. Coloque o jogador em uma posição fixa através de um programa pré-definido e forneça os itens e NPCs necessários para completar a missão para garantir que a missão possa ser executada sem problemas.
O diagrama a seguir mostra a classificação de tarefas de OctoGibson e algumas das estatísticas para OctoGibson e OctoGTA.
A fim de coletar dados de treinamento de forma eficiente nos dois ambientes de simulação, os pesquisadores construíram um sistema completo de coleta de dados. Ao introduzir o GPT-4 como o executor da tarefa, os pesquisadores usam as funções pré-implementadas para processar a entrada visual coletada no ambiente de simulação em informações de texto e fornecê-las ao GPT-4 e, em seguida, executar o código no ambiente de simulação depois que o GPT-4 retornar o planejamento da tarefa e o código executável da etapa atual e julgar se a tarefa da etapa atual foi concluída. Se for bem-sucedido, prossiga para coletar a próxima entrada visual; Se falhar, volte à posição inicial da etapa anterior e colete novamente os dados.
O diagrama acima ilustra o processo completo de coleta de dados usando a tarefa Cook a Bacon em um ambiente OctoGibson como exemplo. Deve-se salientar que, no processo de coleta de dados, os pesquisadores não apenas registraram as informações visuais durante a execução da tarefa, o código executável retornado pelo GPT-4, etc., mas também registraram o sucesso de cada subtarefa, que será usada como base para a introdução subsequente do aprendizado de reforço para construir um VLM mais eficiente. O GPT-4, embora poderoso, não é invulnerável. Os erros podem manifestar-se de várias maneiras, incluindo erros de sintaxe e desafios físicos no simulador. Por exemplo, como mostrado na Figura 3, entre os estados #5 e #6, a ação "Put Bacon in the Pan" falha porque o Agente está segurando o bacon está muito longe da panela. Tais contratempos redefinem a tarefa para seu estado anterior. Se uma tarefa não for concluída após 10 etapas, ela será considerada malsucedida, encerraremos a tarefa por motivos de orçamento e todos os pares de dados das subtarefas da tarefa serão considerados sem êxito.
Depois de coletar uma certa escala de dados de treinamento, os pesquisadores usaram esses dados para treinar um modelo de linguagem de visão incorporado e inteligente, Octopus. O diagrama acima mostra o processo completo de aquisição de dados e treinamento. Na primeira etapa, usando os dados coletados para ajuste fino supervisionado, os pesquisadores foram capazes de construir um modelo VLM que poderia usar informações visuais como entrada e seguir um formato fixo para saída. Nesta etapa, o modelo é capaz de concluir o mapeamento de informações visuais de entrada para o plano de tarefas e código executável. Na segunda fase, os investigadores introduziram o RLEF
(Reinforcement Learning with Environmental Feedback) usa o sucesso das subtarefas previamente coletadas como um sinal de recompensa, e o algoritmo de aprendizagem por reforço é usado para melhorar ainda mais a capacidade de planejamento de tarefas do VLM, melhorando assim a taxa de sucesso geral da tarefa.
Resultados Experimentais
Os pesquisadores testaram os VLMs e LLMs atuais no ambiente OctoGibson, e a tabela a seguir mostra os principais resultados experimentais. Para diferentes modelos de teste, o Modelo de Visão enumera os modelos visuais usados pelos diferentes modelos e, para LLMs, o pesquisador processa informações visuais como texto como entrada para o LLM. onde O significa fornecer informações sobre os objetos interacionáveis na cena, R significa fornecer informações sobre as relações relativas dos objetos na cena, e GT significa usar informações reais e precisas sem introduzir modelos visuais adicionais para deteção.
Para todas as tarefas de teste, os pesquisadores relataram o poder completo de integração do teste, e ainda o dividiram em quatro categorias, que registraram a capacidade de completar novas tarefas em cenários que existiam no conjunto de treinamento, a capacidade de generalização para completar novas tarefas em cenários que não existiam no conjunto de treinamento e a capacidade de generalização para completar tarefas simples de seguimento e tarefas de raciocínio complexas. Para cada categoria de estatística, os pesquisadores relataram dois indicadores de avaliação, o primeiro dos quais foi a taxa de conclusão da tarefa, que mediu a taxa de sucesso do modelo na conclusão da tarefa de inteligência incorporada; O segundo é a precisão do planejamento de tarefas, que é usado para refletir a capacidade do modelo de planejar tarefas.
Além disso, os pesquisadores mostram exemplos de como diferentes modelos respondem a dados visuais adquiridos no ambiente de simulação OctoGibson. A imagem abaixo mostra as respostas do TAPA+CodeLLaMA, Octopus e GPT-4V à entrada visual gerada no OctoGibson. Pode-se ver que, em comparação com TAPA+CodeLLaMA e o modelo Octopus com apenas ajuste fino supervisionado, o modelo Octopus treinado com RLEF tem um planejamento de tarefas mais razoável e pode fornecer um plano mais completo mesmo para as instruções de tarefas mais ambíguas (encontrar um garrafão). Esses desempenhos ilustram ainda mais a eficácia da estratégia de treinamento RLEF na melhoria da capacidade de planejamento de tarefas e inferência do modelo.
Em geral, ainda há muito espaço para melhorias nas capacidades reais de conclusão e planejamento de tarefas dos modelos existentes no ambiente de simulação. Os pesquisadores resumiram algumas das principais descobertas:
**1.CodeLLaMA pode melhorar a capacidade de geração de código do modelo, mas não a capacidade de planejamento de tarefas. **
Os pesquisadores apontaram que os resultados experimentais mostram que o CodeLLaMA pode melhorar significativamente a capacidade de geração de código do modelo. Em comparação com LLMs tradicionais, o CodeLLaMA permite um código melhor com taxas executáveis mais altas. No entanto, embora alguns modelos usem CodeLLaMA para geração de código, a taxa de sucesso geral da tarefa ainda é limitada pela capacidade de planejamento da tarefa. Por outro lado, Octopus, embora a taxa executável de código tenha diminuído devido à falta de CodeLLaMA, a taxa geral de sucesso de tarefas ainda é melhor do que a de outros modelos devido à sua forte capacidade de planejamento de tarefas.
**2.LLMs são difíceis de manusear em face de uma grande quantidade de entrada de texto. **
No processo de teste real, os pesquisadores compararam os resultados experimentais do TAPA e do CodeLLaMA e chegaram à conclusão de que é difícil para os modelos de linguagem lidar bem com a entrada de texto longo. Os pesquisadores seguiram a abordagem do TAPA e usaram informações reais de objetos para o planejamento da missão, enquanto o CodeLLaMA usou as relações de posição relativa entre objetos para fornecer informações mais completas. No entanto, no decorrer do experimento, os pesquisadores descobriram que, devido à grande quantidade de informações redundantes no ambiente, quando o ambiente é mais complexo, a entrada de texto aumenta significativamente, e é difícil para os LLMs extrair pistas valiosas da grande quantidade de informações redundantes, reduzindo assim a taxa de sucesso da tarefa. Isso também reflete as limitações dos LLMs, que são que o uso de informações textuais para representar cenários complexos pode resultar em uma grande quantidade de informações redundantes e inúteis.
O polvo demonstrou boa capacidade de generalização de tarefas. **
Através dos resultados experimentais, pode-se concluir que o Polvo tem uma forte capacidade de generalizar tarefas. A taxa de sucesso de conclusão e planejamento de tarefas em novos cenários que não aparecem no conjunto de treinamento são melhores do que as dos modelos existentes. Isso também mostra algumas das vantagens inerentes dos modelos de linguagem visual, que são mais generalizáveis do que os LLMs tradicionais para a mesma classe de tarefas.
O RLEF melhora as capacidades de planeamento de tarefas do modelo. **
Nos resultados experimentais, os pesquisadores forneceram uma comparação entre o desempenho do modelo que havia passado apenas pela primeira etapa de ajuste fino supervisionado e o modelo que havia sido treinado pelo RLEF. Pode-se observar que, após o treinamento RLEF, a taxa de sucesso geral e a capacidade de planejamento do modelo foram significativamente melhoradas em tarefas que exigem forte capacidade de raciocínio e capacidade de planejamento de tarefas. O RLEF também é muito mais eficiente do que as estratégias de treinamento VLM existentes. O exemplo mostrado na figura acima também pode ilustrar a melhoria da capacidade de planejamento de tarefas do modelo após o treinamento RLEF. Os modelos treinados em RLEF são capazes de entender como navegar no ambiente quando confrontados com tarefas mais complexas, e o modelo é mais compatível com os requisitos reais do ambiente de simulação em termos de planejamento de tarefas (por exemplo, o modelo precisa se mover para o objeto para interagir antes de começar a interagir), reduzindo assim a taxa de falha do planejamento de tarefas.
Discussão
Experiência de Ablação
Depois de avaliar as capacidades reais do modelo, os pesquisadores analisaram mais de perto alguns possíveis fatores que poderiam afetar o desempenho do modelo. Como mostra a figura abaixo, os pesquisadores conduziram experimentos a partir de três aspetos.
O peso dos parâmetros de treino
Os pesquisadores compararam o desempenho de uma camada conectada treinada apenas com um modelo de linguagem, uma camada de conexão treinada e um modelo de linguagem, e um modelo totalmente treinado. Pode-se observar que com o aumento dos parâmetros de treinamento, o desempenho do modelo é gradualmente melhorado. Isso mostra que o número de parâmetros de treinamento é crucial para saber se o modelo pode concluir a tarefa em alguns cenários fixos.
O tamanho do modelo
Os pesquisadores compararam o desempenho do modelo de parâmetro 3B menor com o modelo 7B de linha de base nas duas fases de treinamento. Através da comparação, pode-se ver que quando os parâmetros gerais do modelo são grandes, o desempenho do modelo também será significativamente melhorado. Como selecionar parâmetros de treinamento do modelo apropriados, para que o modelo possa ter a capacidade de completar as tarefas correspondentes e, ao mesmo tempo, garantir a velocidade de inferência leve e rápida do modelo, será um ponto-chave na pesquisa futura no campo do VLM.
Continuidade da entrada visual
A fim de explorar o impacto de diferentes entradas visuais no desempenho de VLMs reais, os pesquisadores experimentaram a ordem de entrada de informações visuais. Durante o teste, o modelo gira sequencialmente no ambiente de simulação para capturar imagens em primeira pessoa e duas vistas panorâmicas, que são então alimentadas sequencialmente no VLM. No experimento, quando o pesquisador embaralhou aleatoriamente a ordem das imagens visuais e depois as alimentou no VLM, o VLM produziu uma grande perda de desempenho. Por um lado, isso ilustra a importância da informação visual completa e estruturada para o VLM e, por outro lado, também reflete, em certa medida, que o VLM depende da conexão interna de imagens visuais em resposta à entrada visual, e uma vez que essa conexão visual é quebrada, isso afetará muito o desempenho do VLM.
GPT-4
Além disso, os pesquisadores também testaram e calcularam o desempenho de GPT-4 e GPT-4V em um ambiente simulado.
1.GPT-4
No caso do GPT-4, o pesquisador fornece exatamente as mesmas informações textuais como entrada durante o teste como ao usá-lo para coletar dados de treinamento. O GPT-4 pode completar metade das tarefas de teste, o que mostra que o VLM existente ainda tem muito espaço para melhorar o desempenho em comparação com modelos de linguagem como o GPT-4 e, por outro lado, também mostra que mesmo modelos de linguagem com forte desempenho, como o GPT-4, ainda precisam melhorar ainda mais suas capacidades de planejamento e execução de tarefas em face de tarefas de inteligência incorporadas.
2.GPT-4V
Como o GPT-4V acaba de lançar uma API que pode ser chamada diretamente, os pesquisadores ainda não tiveram tempo de experimentá-la, mas os pesquisadores também testaram manualmente alguns exemplos para demonstrar o desempenho do GPT-4V. Através de alguns exemplos, os pesquisadores acreditam que o GPT-4V tem uma forte capacidade de generalização zero-shot para tarefas no ambiente de simulação, e também pode gerar código executável correspondente com base em entradas visuais, mas é ligeiramente inferior ao modelo ajustado nos dados coletados no ambiente de simulação em algum planejamento de tarefas.
Resumo
Os pesquisadores apontam algumas limitações do trabalho atual:
O atual modelo Octopus não é satisfatório para tarefas mais complexas. Quando confrontado com tarefas complexas, Octopus muitas vezes faz planos incorretos e depende muito do feedback do ambiente, muitas vezes acabando lutando para concluir a tarefa geral.
Os modelos Octopus são treinados apenas em um ambiente de simulação, e como migrá-los para o mundo real enfrentará uma série de problemas. Por exemplo, no ambiente real, será difícil para o modelo obter informações mais precisas sobre a posição relativa dos objetos, e como construir a compreensão dos objetos na cena se tornará mais difícil.
Octopus é atualmente uma entrada visual de imagens estáticas discretas, e como torná-lo capaz de lidar com vídeo contínuo será um desafio no futuro. O vídeo contínuo pode melhorar ainda mais o desempenho do modelo para concluir a tarefa, mas como processar e entender eficientemente a entrada visual contínua será a chave para melhorar ainda mais o desempenho do VLM.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
Para tornar o modelo de IA um jogador de cinco estrelas GTA, o agente programável baseado em visão Octopus está aqui
Fonte original: Heart of the Machine
Os videojogos tornaram-se uma simulação do mundo real de hoje, e as possibilidades são infinitas. No jogo Grand Theft Auto (GTA), por exemplo, os jogadores podem experimentar uma vida colorida em Los Santos (a cidade virtual do jogo) a partir de uma perspetiva em primeira pessoa. No entanto, se um jogador humano pode vagar por Los Santos e completar uma série de missões, também podemos ter um modelo de visão de IA que controla um personagem GTA e se torna um "jogador" em missões?
Os modelos linguísticos visuais (VLMs) atuais fizeram progressos substanciais na perceção e raciocínio multimodais, mas muitas vezes são baseados em tarefas mais simples de resposta a perguntas visuais (VQA) ou anotação visual (legenda). Obviamente, essas tarefas não permitem que o VLM realmente realize tarefas do mundo real. Porque a tarefa real requer não só a compreensão da informação visual, mas também a capacidade do modelo de ter raciocínio de planeamento e feedback com base em informação ambiental atualizada em tempo real. Ao mesmo tempo, o plano resultante também precisa ser capaz de manipular as entidades no ambiente para realizar a tarefa de forma realista.
Embora os modelos de linguagem existentes (LLMs) possam planejar tarefas com base nas informações fornecidas, eles não conseguem entender a entrada visual, o que limita muito o escopo de aplicação dos modelos de linguagem ao executar tarefas específicas no mundo real, especialmente para algumas tarefas de inteligência incorporadas, a entrada baseada em texto é muitas vezes difícil de ser detalhada ou muito complexa, de modo que os modelos de linguagem não podem extrair eficientemente informações deles para concluir a tarefa. Os modelos de linguagem atuais fizeram algumas explorações para a geração de programas, mas a exploração da geração de código estruturado, executável e robusto com base na entrada visual ainda não foi explorada.
A fim de resolver o problema de como fazer grandes modelos incorporados e inteligentes, e criar sistemas de consciência situacional e autônomos que podem formular planos com precisão e executar comandos, estudiosos da Universidade Tecnológica de Nanyang em Cingapura, Universidade de Tsinghua, etc., propuseram Octopus. Octopus é um agente programável baseado em visão cujo objetivo é aprender através de entrada visual, entender o mundo real e realizar uma variedade de tarefas do mundo real de uma forma que gera código executável. Treinado em um grande número de entradas visuais e pares de códigos executáveis, Octopus aprendeu a manipular personagens de videogames para completar tarefas no jogo ou completar tarefas domésticas complexas.
Recolha de Dados & Formação
Para treinar um modelo de linguagem de visão capaz de executar tarefas de inteligência incorporadas, os pesquisadores também desenvolveram o OctoVerse, que consiste em dois sistemas de simulação que fornecem dados de treinamento e um ambiente de teste para o treinamento do Octopus. Esses dois ambientes de simulação fornecem cenários de treinamento e teste utilizáveis para a inteligência incorporada do VLM e apresentam requisitos mais altos para os recursos de inferência e planejamento de tarefas do modelo. Os detalhes são os seguintes:
OctoGibson: Baseado no OmniGibson desenvolvido pela Universidade de Stanford, inclui um total de 476 atividades domésticas da vida real. Todo o ambiente de simulação inclui 16 categorias diferentes de cenários domésticos, abrangendo 155 exemplos de ambientes domésticos do mundo real. O modelo pode manipular o grande número de objetos interacionáveis presentes nele para realizar a tarefa final.
OctoGTA: Baseado no jogo Grand Theft Auto (GTA), um total de 20 missões são construídas e generalizadas em cinco cenários diferentes. Coloque o jogador em uma posição fixa através de um programa pré-definido e forneça os itens e NPCs necessários para completar a missão para garantir que a missão possa ser executada sem problemas.
O diagrama a seguir mostra a classificação de tarefas de OctoGibson e algumas das estatísticas para OctoGibson e OctoGTA.
(Reinforcement Learning with Environmental Feedback) usa o sucesso das subtarefas previamente coletadas como um sinal de recompensa, e o algoritmo de aprendizagem por reforço é usado para melhorar ainda mais a capacidade de planejamento de tarefas do VLM, melhorando assim a taxa de sucesso geral da tarefa.
Resultados Experimentais
Os pesquisadores testaram os VLMs e LLMs atuais no ambiente OctoGibson, e a tabela a seguir mostra os principais resultados experimentais. Para diferentes modelos de teste, o Modelo de Visão enumera os modelos visuais usados pelos diferentes modelos e, para LLMs, o pesquisador processa informações visuais como texto como entrada para o LLM. onde O significa fornecer informações sobre os objetos interacionáveis na cena, R significa fornecer informações sobre as relações relativas dos objetos na cena, e GT significa usar informações reais e precisas sem introduzir modelos visuais adicionais para deteção.
Para todas as tarefas de teste, os pesquisadores relataram o poder completo de integração do teste, e ainda o dividiram em quatro categorias, que registraram a capacidade de completar novas tarefas em cenários que existiam no conjunto de treinamento, a capacidade de generalização para completar novas tarefas em cenários que não existiam no conjunto de treinamento e a capacidade de generalização para completar tarefas simples de seguimento e tarefas de raciocínio complexas. Para cada categoria de estatística, os pesquisadores relataram dois indicadores de avaliação, o primeiro dos quais foi a taxa de conclusão da tarefa, que mediu a taxa de sucesso do modelo na conclusão da tarefa de inteligência incorporada; O segundo é a precisão do planejamento de tarefas, que é usado para refletir a capacidade do modelo de planejar tarefas.
**1.CodeLLaMA pode melhorar a capacidade de geração de código do modelo, mas não a capacidade de planejamento de tarefas. **
Os pesquisadores apontaram que os resultados experimentais mostram que o CodeLLaMA pode melhorar significativamente a capacidade de geração de código do modelo. Em comparação com LLMs tradicionais, o CodeLLaMA permite um código melhor com taxas executáveis mais altas. No entanto, embora alguns modelos usem CodeLLaMA para geração de código, a taxa de sucesso geral da tarefa ainda é limitada pela capacidade de planejamento da tarefa. Por outro lado, Octopus, embora a taxa executável de código tenha diminuído devido à falta de CodeLLaMA, a taxa geral de sucesso de tarefas ainda é melhor do que a de outros modelos devido à sua forte capacidade de planejamento de tarefas.
**2.LLMs são difíceis de manusear em face de uma grande quantidade de entrada de texto. **
No processo de teste real, os pesquisadores compararam os resultados experimentais do TAPA e do CodeLLaMA e chegaram à conclusão de que é difícil para os modelos de linguagem lidar bem com a entrada de texto longo. Os pesquisadores seguiram a abordagem do TAPA e usaram informações reais de objetos para o planejamento da missão, enquanto o CodeLLaMA usou as relações de posição relativa entre objetos para fornecer informações mais completas. No entanto, no decorrer do experimento, os pesquisadores descobriram que, devido à grande quantidade de informações redundantes no ambiente, quando o ambiente é mais complexo, a entrada de texto aumenta significativamente, e é difícil para os LLMs extrair pistas valiosas da grande quantidade de informações redundantes, reduzindo assim a taxa de sucesso da tarefa. Isso também reflete as limitações dos LLMs, que são que o uso de informações textuais para representar cenários complexos pode resultar em uma grande quantidade de informações redundantes e inúteis.
Através dos resultados experimentais, pode-se concluir que o Polvo tem uma forte capacidade de generalizar tarefas. A taxa de sucesso de conclusão e planejamento de tarefas em novos cenários que não aparecem no conjunto de treinamento são melhores do que as dos modelos existentes. Isso também mostra algumas das vantagens inerentes dos modelos de linguagem visual, que são mais generalizáveis do que os LLMs tradicionais para a mesma classe de tarefas.
Nos resultados experimentais, os pesquisadores forneceram uma comparação entre o desempenho do modelo que havia passado apenas pela primeira etapa de ajuste fino supervisionado e o modelo que havia sido treinado pelo RLEF. Pode-se observar que, após o treinamento RLEF, a taxa de sucesso geral e a capacidade de planejamento do modelo foram significativamente melhoradas em tarefas que exigem forte capacidade de raciocínio e capacidade de planejamento de tarefas. O RLEF também é muito mais eficiente do que as estratégias de treinamento VLM existentes. O exemplo mostrado na figura acima também pode ilustrar a melhoria da capacidade de planejamento de tarefas do modelo após o treinamento RLEF. Os modelos treinados em RLEF são capazes de entender como navegar no ambiente quando confrontados com tarefas mais complexas, e o modelo é mais compatível com os requisitos reais do ambiente de simulação em termos de planejamento de tarefas (por exemplo, o modelo precisa se mover para o objeto para interagir antes de começar a interagir), reduzindo assim a taxa de falha do planejamento de tarefas.
Discussão
Experiência de Ablação
Depois de avaliar as capacidades reais do modelo, os pesquisadores analisaram mais de perto alguns possíveis fatores que poderiam afetar o desempenho do modelo. Como mostra a figura abaixo, os pesquisadores conduziram experimentos a partir de três aspetos.
Os pesquisadores compararam o desempenho de uma camada conectada treinada apenas com um modelo de linguagem, uma camada de conexão treinada e um modelo de linguagem, e um modelo totalmente treinado. Pode-se observar que com o aumento dos parâmetros de treinamento, o desempenho do modelo é gradualmente melhorado. Isso mostra que o número de parâmetros de treinamento é crucial para saber se o modelo pode concluir a tarefa em alguns cenários fixos.
Os pesquisadores compararam o desempenho do modelo de parâmetro 3B menor com o modelo 7B de linha de base nas duas fases de treinamento. Através da comparação, pode-se ver que quando os parâmetros gerais do modelo são grandes, o desempenho do modelo também será significativamente melhorado. Como selecionar parâmetros de treinamento do modelo apropriados, para que o modelo possa ter a capacidade de completar as tarefas correspondentes e, ao mesmo tempo, garantir a velocidade de inferência leve e rápida do modelo, será um ponto-chave na pesquisa futura no campo do VLM.
A fim de explorar o impacto de diferentes entradas visuais no desempenho de VLMs reais, os pesquisadores experimentaram a ordem de entrada de informações visuais. Durante o teste, o modelo gira sequencialmente no ambiente de simulação para capturar imagens em primeira pessoa e duas vistas panorâmicas, que são então alimentadas sequencialmente no VLM. No experimento, quando o pesquisador embaralhou aleatoriamente a ordem das imagens visuais e depois as alimentou no VLM, o VLM produziu uma grande perda de desempenho. Por um lado, isso ilustra a importância da informação visual completa e estruturada para o VLM e, por outro lado, também reflete, em certa medida, que o VLM depende da conexão interna de imagens visuais em resposta à entrada visual, e uma vez que essa conexão visual é quebrada, isso afetará muito o desempenho do VLM.
Além disso, os pesquisadores também testaram e calcularam o desempenho de GPT-4 e GPT-4V em um ambiente simulado.
1.GPT-4
No caso do GPT-4, o pesquisador fornece exatamente as mesmas informações textuais como entrada durante o teste como ao usá-lo para coletar dados de treinamento. O GPT-4 pode completar metade das tarefas de teste, o que mostra que o VLM existente ainda tem muito espaço para melhorar o desempenho em comparação com modelos de linguagem como o GPT-4 e, por outro lado, também mostra que mesmo modelos de linguagem com forte desempenho, como o GPT-4, ainda precisam melhorar ainda mais suas capacidades de planejamento e execução de tarefas em face de tarefas de inteligência incorporadas.
2.GPT-4V
Como o GPT-4V acaba de lançar uma API que pode ser chamada diretamente, os pesquisadores ainda não tiveram tempo de experimentá-la, mas os pesquisadores também testaram manualmente alguns exemplos para demonstrar o desempenho do GPT-4V. Através de alguns exemplos, os pesquisadores acreditam que o GPT-4V tem uma forte capacidade de generalização zero-shot para tarefas no ambiente de simulação, e também pode gerar código executável correspondente com base em entradas visuais, mas é ligeiramente inferior ao modelo ajustado nos dados coletados no ambiente de simulação em algum planejamento de tarefas.
Resumo
Os pesquisadores apontam algumas limitações do trabalho atual:
O atual modelo Octopus não é satisfatório para tarefas mais complexas. Quando confrontado com tarefas complexas, Octopus muitas vezes faz planos incorretos e depende muito do feedback do ambiente, muitas vezes acabando lutando para concluir a tarefa geral.
Os modelos Octopus são treinados apenas em um ambiente de simulação, e como migrá-los para o mundo real enfrentará uma série de problemas. Por exemplo, no ambiente real, será difícil para o modelo obter informações mais precisas sobre a posição relativa dos objetos, e como construir a compreensão dos objetos na cena se tornará mais difícil.
Octopus é atualmente uma entrada visual de imagens estáticas discretas, e como torná-lo capaz de lidar com vídeo contínuo será um desafio no futuro. O vídeo contínuo pode melhorar ainda mais o desempenho do modelo para concluir a tarefa, mas como processar e entender eficientemente a entrada visual contínua será a chave para melhorar ainda mais o desempenho do VLM.