DeepSeek-R1 lançado há mais de um ano, neste momento, uma nova arquitetura começa a surgir nos códigos do GitHub. Segundo as últimas informações, ao atualizar o repositório FlashMLA, foram mencionados “MODEL1” em 28 dos 114 arquivos, diferenciando-se do conhecido V32 (DeepSeek-V3.2) como uma arquitetura distinta. Essas pistas dispersas no código delineiam uma visão de DeepSeek continuamente iterando novas arquiteturas.
Sinais de inovação no código
Diferenças nos detalhes técnicos
MODEL1 e V32 apresentam diferenças evidentes na implementação do código, principalmente em três aspectos-chave:
Otimização do layout de cache KV
Melhoria no mecanismo de tratamento de esparsidade
Inovação na decodificação FP8
Essas mudanças apontam na mesma direção: otimização de memória. Na aplicação prática de inferência de grandes modelos, a gestão do cache KV afeta diretamente a velocidade de inferência e o uso de VRAM, o tratamento de esparsidade diz respeito à eficiência do modelo, e a decodificação FP8 envolve equilíbrio entre precisão de cálculo e velocidade. Todos esses são focos de avanços atuais na indústria.
Por que uma nova arquitetura
V32 é uma versão iterativa do V3, uma otimização da mesma geração. Já o MODEL1 aparece no código como uma identificação de modelo independente, indicando que não se trata apenas de ajuste de parâmetros, mas possivelmente de uma inovação a nível de arquitetura. Essa distinção é pouco comum na gestão de código do DeepSeek, sugerindo a importância do MODEL1.
Capacidade de pesquisa e desenvolvimento por trás
A aparição do MODEL1 reflete o contínuo investimento técnico da DeepSeek. Segundo informações públicas, o custo de treinamento do R1 foi de aproximadamente 29,4 mil dólares, enquanto o orçamento total do V3 foi de 5,57 milhões de dólares. Esses custos, comparados aos principais laboratórios do Vale do Silício, não são altos, mas lançar novas arquiteturas e modelos exige suporte financeiro estável.
Esse suporte vem do Quantum, a solução de quantização da DeepSeek. Em 2025, a receita média do Quantum atingiu 56,55%, com uma gestão superior a 70 bilhões de yuan, e a receita anual estimada pode ultrapassar 5 bilhões de RMB. Esse fluxo de caixa permite que a DeepSeek concentre-se em pesquisa e desenvolvimento de longo prazo, sem pressão de financiamento externo.
Possíveis direções futuras
Com base nas melhorias no código, o MODEL1 pode avançar em várias áreas:
Aumento da eficiência de inferência, especialmente em dispositivos móveis ou cenários de edge computing
Novo equilíbrio entre escala de parâmetros e desempenho
Design de arquiteturas específicas para aplicações particulares
Essas direções estão alinhadas com as tendências atuais de grandes modelos — não apenas aumentar parâmetros cegamente, mas buscar soluções ótimas em eficiência, custo e desempenho.
Resumo
A revelação do MODEL1 na comemoração de um ano do R1 representa uma continuidade natural de inovação técnica e o ritmo de pesquisa e desenvolvimento da DeepSeek. Pelos detalhes do código, fica claro que a empresa está focada em otimizações de engenharia, não em hype. Em comparação com outros players, a DeepSeek possui duas vantagens: recursos robustos de P&D e acumulação contínua de tecnologia. A aparição do MODEL1 é apenas um marco nesse processo. As próximas perguntas são: quando essa nova arquitetura será oficialmente lançada e qual será o impacto no desempenho. Essas respostas, provavelmente, serão reveladas em breve.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
R1 um ano de revelação MODEL1: Pistas técnicas deixadas pelo DeepSeek no GitHub
DeepSeek-R1 lançado há mais de um ano, neste momento, uma nova arquitetura começa a surgir nos códigos do GitHub. Segundo as últimas informações, ao atualizar o repositório FlashMLA, foram mencionados “MODEL1” em 28 dos 114 arquivos, diferenciando-se do conhecido V32 (DeepSeek-V3.2) como uma arquitetura distinta. Essas pistas dispersas no código delineiam uma visão de DeepSeek continuamente iterando novas arquiteturas.
Sinais de inovação no código
Diferenças nos detalhes técnicos
MODEL1 e V32 apresentam diferenças evidentes na implementação do código, principalmente em três aspectos-chave:
Essas mudanças apontam na mesma direção: otimização de memória. Na aplicação prática de inferência de grandes modelos, a gestão do cache KV afeta diretamente a velocidade de inferência e o uso de VRAM, o tratamento de esparsidade diz respeito à eficiência do modelo, e a decodificação FP8 envolve equilíbrio entre precisão de cálculo e velocidade. Todos esses são focos de avanços atuais na indústria.
Por que uma nova arquitetura
V32 é uma versão iterativa do V3, uma otimização da mesma geração. Já o MODEL1 aparece no código como uma identificação de modelo independente, indicando que não se trata apenas de ajuste de parâmetros, mas possivelmente de uma inovação a nível de arquitetura. Essa distinção é pouco comum na gestão de código do DeepSeek, sugerindo a importância do MODEL1.
Capacidade de pesquisa e desenvolvimento por trás
A aparição do MODEL1 reflete o contínuo investimento técnico da DeepSeek. Segundo informações públicas, o custo de treinamento do R1 foi de aproximadamente 29,4 mil dólares, enquanto o orçamento total do V3 foi de 5,57 milhões de dólares. Esses custos, comparados aos principais laboratórios do Vale do Silício, não são altos, mas lançar novas arquiteturas e modelos exige suporte financeiro estável.
Esse suporte vem do Quantum, a solução de quantização da DeepSeek. Em 2025, a receita média do Quantum atingiu 56,55%, com uma gestão superior a 70 bilhões de yuan, e a receita anual estimada pode ultrapassar 5 bilhões de RMB. Esse fluxo de caixa permite que a DeepSeek concentre-se em pesquisa e desenvolvimento de longo prazo, sem pressão de financiamento externo.
Possíveis direções futuras
Com base nas melhorias no código, o MODEL1 pode avançar em várias áreas:
Essas direções estão alinhadas com as tendências atuais de grandes modelos — não apenas aumentar parâmetros cegamente, mas buscar soluções ótimas em eficiência, custo e desempenho.
Resumo
A revelação do MODEL1 na comemoração de um ano do R1 representa uma continuidade natural de inovação técnica e o ritmo de pesquisa e desenvolvimento da DeepSeek. Pelos detalhes do código, fica claro que a empresa está focada em otimizações de engenharia, não em hype. Em comparação com outros players, a DeepSeek possui duas vantagens: recursos robustos de P&D e acumulação contínua de tecnologia. A aparição do MODEL1 é apenas um marco nesse processo. As próximas perguntas são: quando essa nova arquitetura será oficialmente lançada e qual será o impacto no desempenho. Essas respostas, provavelmente, serão reveladas em breve.