Quem já pisou na armadilha do colapso de padrão provavelmente não são poucos, finalmente alguém falou isso de forma sistemática.

Ver original
MeNews
Equipe de PLN de Stanford apresenta novos avanços em pesquisa de IA automatizada
Stanford NLP na ICML 2026 apresenta a transformação do pré-treinamento e pós-treinamento de LLMs em ambientes de execução por meio de atuadores automatizados, usando feedback de execução para melhorar a eficiência da pesquisa. Dois métodos: busca evolutiva supera o GRPO (69,4% contra 48,0%) em tarefas de pós-treinamento, e a fórmula encontrada na pré-treinamento é mais rápida que o nanoGPT (19,7 minutos contra 35,9 minutos), ambos concluídos em dez rodadas de busca; o aprendizado por reforço baseado em recompensas de execução é propenso a colapsos de padrão, embora aumente a recompensa média, não melhora o limite superior. Este trabalho aponta para uma direção na pesquisa automatizada de IA orientada por execução.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado