Zhipu AI lança o relatório técnico do GLM-5V-Turbo, a primeira base de programação multimodal, com 200K de contexto, compatível com ClaudeCode/OpenClaw, não open source. Três principais designs: codificação visual CogViT, token compartilhado MMTP<|image|>, aprendizado por reforço conjunto para mais de 30 tarefas. Melhorias significativas em múltiplos domínios de RL, Design2Code 94.8, MMSearch-Plus 30.0, ImageMining 30.7.

BlockBeatNews

2026-05-08 02:53:48

Geração do resumo em andamento

De acordo com o monitoramento Beating, a Zhipu AI lançou o relatório técnico do GLM-5V-Turbo. O modelo já está disponível na API Z.ai e OpenRouter desde o início de abril, e desta vez é uma divulgação da metodologia de reenvio, o modelo não foi open source. O GLM-5V-Turbo é o primeiro modelo multimodal de base de programação da Zhipu, suportando cerca de 200K de contexto, podendo se conectar a frameworks de agentes como Claude Code e OpenClaw. Diferentemente da maioria das abordagens que tratam a visão como um complemento ao modelo de linguagem, este modelo incorpora percepção visual desde a fase de pré-treinamento em todo o processo de raciocínio, planejamento, chamada de ferramentas e execução.

A arquitetura do modelo possui três designs-chave. Primeiro, o novo codificador visual CogViT, que utiliza SigLIP2 e DINOv3 para um pré-treinamento por distilação com dois professores, seguido de alinhamento por aprendizado contrastivo com um corpus de 8 bilhões de textos bilíngues chinês-inglês com imagens. Segundo, previsão multimodal de múltiplos tokens (MMTP), que usa um token especial <|image|> compartilhado e aprendível para substituir a transmissão direta de embeddings visuais, reduzindo a complexidade de comunicação entre fases do pipeline e tornando o treinamento mais estável. Terceiro, aprendizado reforçado conjunto de mais de 30 tarefas, cobrindo níveis de percepção, raciocínio e execução de agentes.

A melhoria na fase de RL é ampla: localização de imagens 2D +4,8%, compreensão de vídeos +5,6%, localização 3D +7,7%, OCR +4,2%, compreensão de gráficos +7,7%, agente GUI (OSWorld) +4,9%, chamada de ferramentas de busca multimodal +3,5%. A equipe destacou no artigo que o RL multitarefa difere do SFT comum na interferência entre domínios, permitindo que diferentes habilidades melhorem de forma estável juntas, e até mesmo padrões de raciocínio aprendidos em um domínio podem ser transferidos para outros.

Resultados específicos: Design2Code 94,8, superando Claude Opus em 4,6; OSWorld 62,3, AndroidWorld 75,7; busca multimodal MMSearch 72,9, BrowseComp-VL 51,9; programação em texto puro no backend do CC-Bench-V2 (22,8), frontend (68,4) e exploração de repositórios de código (72,2), superando sua base de texto puro GLM-5-Turbo. MMSearch-Plus obteve 30,0, quase 8 vezes superior ao GLM-4.6V da geração anterior; a base de busca visual profunda autogerada ImageMining atingiu 30,7.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateSquareMayTradingShare
741.04K Popularidade
#
BitcoinFallsBelow80K
95.02M Popularidade
#
IsraelStrikesIranBTCPlunges
44.29K Popularidade
#
IranUSConflictEscalates
86.63K Popularidade
#
OilPriceRollerCoaster
304.89K Popularidade

Marcar

sitemap

Relatório técnico do Zhipu GLM-5V-Turbo: Design2Code super Claude Opus4.6, escreva o código diretamente a partir da captura de tela

Tendências

GateSquareMayTradingShare

BitcoinFallsBelow80K

IsraelStrikesIranBTCPlunges

IranUSConflictEscalates

OilPriceRollerCoaster

Marcar