R1 um ano de revelação MODEL1: Pistas técnicas deixadas pelo DeepSeek no GitHub

DeepSeek-R1 lançado há mais de um ano, neste momento, uma nova arquitetura começa a surgir nos códigos do GitHub. Segundo as últimas informações, ao atualizar o repositório FlashMLA, foram mencionados “MODEL1” em 28 dos 114 arquivos, diferenciando-se do conhecido V32 (DeepSeek-V3.2) como uma arquitetura distinta. Essas pistas dispersas no código delineiam uma visão de DeepSeek continuamente iterando novas arquiteturas.

Sinais de inovação no código

Diferenças nos detalhes técnicos

MODEL1 e V32 apresentam diferenças evidentes na implementação do código, principalmente em três aspectos-chave:

  • Otimização do layout de cache KV
  • Melhoria no mecanismo de tratamento de esparsidade
  • Inovação na decodificação FP8

Essas mudanças apontam na mesma direção: otimização de memória. Na aplicação prática de inferência de grandes modelos, a gestão do cache KV afeta diretamente a velocidade de inferência e o uso de VRAM, o tratamento de esparsidade diz respeito à eficiência do modelo, e a decodificação FP8 envolve equilíbrio entre precisão de cálculo e velocidade. Todos esses são focos de avanços atuais na indústria.

Por que uma nova arquitetura

V32 é uma versão iterativa do V3, uma otimização da mesma geração. Já o MODEL1 aparece no código como uma identificação de modelo independente, indicando que não se trata apenas de ajuste de parâmetros, mas possivelmente de uma inovação a nível de arquitetura. Essa distinção é pouco comum na gestão de código do DeepSeek, sugerindo a importância do MODEL1.

Capacidade de pesquisa e desenvolvimento por trás

A aparição do MODEL1 reflete o contínuo investimento técnico da DeepSeek. Segundo informações públicas, o custo de treinamento do R1 foi de aproximadamente 29,4 mil dólares, enquanto o orçamento total do V3 foi de 5,57 milhões de dólares. Esses custos, comparados aos principais laboratórios do Vale do Silício, não são altos, mas lançar novas arquiteturas e modelos exige suporte financeiro estável.

Esse suporte vem do Quantum, a solução de quantização da DeepSeek. Em 2025, a receita média do Quantum atingiu 56,55%, com uma gestão superior a 70 bilhões de yuan, e a receita anual estimada pode ultrapassar 5 bilhões de RMB. Esse fluxo de caixa permite que a DeepSeek concentre-se em pesquisa e desenvolvimento de longo prazo, sem pressão de financiamento externo.

Possíveis direções futuras

Com base nas melhorias no código, o MODEL1 pode avançar em várias áreas:

  • Aumento da eficiência de inferência, especialmente em dispositivos móveis ou cenários de edge computing
  • Novo equilíbrio entre escala de parâmetros e desempenho
  • Design de arquiteturas específicas para aplicações particulares

Essas direções estão alinhadas com as tendências atuais de grandes modelos — não apenas aumentar parâmetros cegamente, mas buscar soluções ótimas em eficiência, custo e desempenho.

Resumo

A revelação do MODEL1 na comemoração de um ano do R1 representa uma continuidade natural de inovação técnica e o ritmo de pesquisa e desenvolvimento da DeepSeek. Pelos detalhes do código, fica claro que a empresa está focada em otimizações de engenharia, não em hype. Em comparação com outros players, a DeepSeek possui duas vantagens: recursos robustos de P&D e acumulação contínua de tecnologia. A aparição do MODEL1 é apenas um marco nesse processo. As próximas perguntas são: quando essa nova arquitetura será oficialmente lançada e qual será o impacto no desempenho. Essas respostas, provavelmente, serão reveladas em breve.

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)