Relatório técnico do Zhipu GLM-5V-Turbo: Design2Code super Claude Opus4.6, escreva o código diretamente a partir da captura de tela

robot
Geração do resumo em andamento

Notícias do CoinWorld, a Zhipu AI lançou o relatório técnico do GLM-5V-Turbo, que foi disponibilizado na API z.ai e OpenRouter no início de abril. Este relatório complementa a metodologia, o modelo não foi open source. O GLM-5V-Turbo é o primeiro modelo de base multimodal de programação da Zhipu, suportando um contexto de cerca de 200 mil, podendo se conectar a frameworks de agentes como Claude Code e OpenClaw. Desde a fase de pré-treinamento, o modelo incorpora percepção visual em todo o processo de raciocínio, planejamento, chamada de ferramentas e execução. A arquitetura do modelo possui três designs-chave: o novo codificador visual CogVit, treinado com destilação dupla usando SigLip2 e DinoV3, e alinhado por aprendizado contrastivo com 8 bilhões de dados bilíngues em chinês e inglês para previsão multimodal de múltiplos tokens (MMTP), usando um token especial compartilhado e aprendível para substituir a transmissão direta de embeddings visuais, reduzindo a complexidade de comunicação entre etapas do pipeline, com treinamento mais estável por reforço conjunto que cobre percepção, raciocínio e execução de agentes em três níveis. Os resultados específicos mostram que o Design2Code alcançou 94,8, superando o Claude Opus com 4,6.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar