Relatório técnico do Zhipu GLM-5V-Turbo: Design2Code super Claude Opus4.6, escreva o código diretamente a partir da captura de tela

robot
Geração do resumo em andamento

De acordo com o monitoramento Beating, a Zhipu AI lançou o relatório técnico do GLM-5V-Turbo. O modelo já está disponível na API Z.ai e OpenRouter desde o início de abril, e desta vez é uma divulgação da metodologia de reenvio, o modelo não foi open source. O GLM-5V-Turbo é o primeiro modelo multimodal de base de programação da Zhipu, suportando cerca de 200K de contexto, podendo se conectar a frameworks de agentes como Claude Code e OpenClaw. Diferentemente da maioria das abordagens que tratam a visão como um complemento ao modelo de linguagem, este modelo incorpora percepção visual desde a fase de pré-treinamento em todo o processo de raciocínio, planejamento, chamada de ferramentas e execução.

A arquitetura do modelo possui três designs-chave. Primeiro, o novo codificador visual CogViT, que utiliza SigLIP2 e DINOv3 para um pré-treinamento por distilação com dois professores, seguido de alinhamento por aprendizado contrastivo com um corpus de 8 bilhões de textos bilíngues chinês-inglês com imagens. Segundo, previsão multimodal de múltiplos tokens (MMTP), que usa um token especial <|image|> compartilhado e aprendível para substituir a transmissão direta de embeddings visuais, reduzindo a complexidade de comunicação entre fases do pipeline e tornando o treinamento mais estável. Terceiro, aprendizado reforçado conjunto de mais de 30 tarefas, cobrindo níveis de percepção, raciocínio e execução de agentes.

A melhoria na fase de RL é ampla: localização de imagens 2D +4,8%, compreensão de vídeos +5,6%, localização 3D +7,7%, OCR +4,2%, compreensão de gráficos +7,7%, agente GUI (OSWorld) +4,9%, chamada de ferramentas de busca multimodal +3,5%. A equipe destacou no artigo que o RL multitarefa difere do SFT comum na interferência entre domínios, permitindo que diferentes habilidades melhorem de forma estável juntas, e até mesmo padrões de raciocínio aprendidos em um domínio podem ser transferidos para outros.

Resultados específicos: Design2Code 94,8, superando Claude Opus em 4,6; OSWorld 62,3, AndroidWorld 75,7; busca multimodal MMSearch 72,9, BrowseComp-VL 51,9; programação em texto puro no backend do CC-Bench-V2 (22,8), frontend (68,4) e exploração de repositórios de código (72,2), superando sua base de texto puro GLM-5-Turbo. MMSearch-Plus obteve 30,0, quase 8 vezes superior ao GLM-4.6V da geração anterior; a base de busca visual profunda autogerada ImageMining atingiu 30,7.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar