R1 um ano de revelação MODEL1: Pistas técnicas deixadas pelo DeepSeek no GitHub

2026-01-21 00:00:28

DeepSeek-R1 lançado há mais de um ano, neste momento, uma nova arquitetura começa a surgir nos códigos do GitHub. Segundo as últimas informações, ao atualizar o repositório FlashMLA, foram mencionados “MODEL1” em 28 dos 114 arquivos, diferenciando-se do conhecido V32 (DeepSeek-V3.2) como uma arquitetura distinta. Essas pistas dispersas no código delineiam uma visão de DeepSeek continuamente iterando novas arquiteturas.

Sinais de inovação no código

Diferenças nos detalhes técnicos

MODEL1 e V32 apresentam diferenças evidentes na implementação do código, principalmente em três aspectos-chave:

Otimização do layout de cache KV
Melhoria no mecanismo de tratamento de esparsidade
Inovação na decodificação FP8

Essas mudanças apontam na mesma direção: otimização de memória. Na aplicação prática de inferência de grandes modelos, a gestão do cache KV afeta diretamente a velocidade de inferência e o uso de VRAM, o tratamento de esparsidade diz respeito à eficiência do modelo, e a decodificação FP8 envolve equilíbrio entre precisão de cálculo e velocidade. Todos esses são focos de avanços atuais na indústria.

Por que uma nova arquitetura

V32 é uma versão iterativa do V3, uma otimização da mesma geração. Já o MODEL1 aparece no código como uma identificação de modelo independente, indicando que não se trata apenas de ajuste de parâmetros, mas possivelmente de uma inovação a nível de arquitetura. Essa distinção é pouco comum na gestão de código do DeepSeek, sugerindo a importância do MODEL1.

Capacidade de pesquisa e desenvolvimento por trás

A aparição do MODEL1 reflete o contínuo investimento técnico da DeepSeek. Segundo informações públicas, o custo de treinamento do R1 foi de aproximadamente 29,4 mil dólares, enquanto o orçamento total do V3 foi de 5,57 milhões de dólares. Esses custos, comparados aos principais laboratórios do Vale do Silício, não são altos, mas lançar novas arquiteturas e modelos exige suporte financeiro estável.

Esse suporte vem do Quantum, a solução de quantização da DeepSeek. Em 2025, a receita média do Quantum atingiu 56,55%, com uma gestão superior a 70 bilhões de yuan, e a receita anual estimada pode ultrapassar 5 bilhões de RMB. Esse fluxo de caixa permite que a DeepSeek concentre-se em pesquisa e desenvolvimento de longo prazo, sem pressão de financiamento externo.

Possíveis direções futuras

Com base nas melhorias no código, o MODEL1 pode avançar em várias áreas:

Aumento da eficiência de inferência, especialmente em dispositivos móveis ou cenários de edge computing
Novo equilíbrio entre escala de parâmetros e desempenho
Design de arquiteturas específicas para aplicações particulares

Essas direções estão alinhadas com as tendências atuais de grandes modelos — não apenas aumentar parâmetros cegamente, mas buscar soluções ótimas em eficiência, custo e desempenho.

Resumo

A revelação do MODEL1 na comemoração de um ano do R1 representa uma continuidade natural de inovação técnica e o ritmo de pesquisa e desenvolvimento da DeepSeek. Pelos detalhes do código, fica claro que a empresa está focada em otimizações de engenharia, não em hype. Em comparação com outros players, a DeepSeek possui duas vantagens: recursos robustos de P&D e acumulação contínua de tecnologia. A aparição do MODEL1 é apenas um marco nesse processo. As próximas perguntas são: quando essa nova arquitetura será oficialmente lançada e qual será o impacto no desempenho. Essas respostas, provavelmente, serão reveladas em breve.

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

0/400

Nenhum comentário

Tópicos em destaque
Ver mais
#
JoinGateTradFitoWinGoldPack
23.4K Popularidade
#
SpotGoldHitsaNewHigh
5.69K Popularidade
#
GateLaunchpadIMU
57.42K Popularidade
#
TariffTensionsHitCryptoMarket
46.05K Popularidade
#
CryptoMarketPullback
340.61K Popularidade

Gate Fun tendência
Ver mais

1
北极马
北极马
LM:$3.36KTitulares:1
0.00%
2
Layer
Layer
LM:$3.36KTitulares:1
0.00%
3
THEWEEKND
THEWEEKND
LM:$3.36KTitulares:1
0.00%
4
马芝麻社区
马芝麻社区
LM:$3.36KTitulares:1
0.00%
5
京巴
京巴
LM:$3.36KTitulares:1
0.00%

Fixar

R1 um ano de revelação MODEL1: Pistas técnicas deixadas pelo DeepSeek no GitHub

Sinais de inovação no código

Diferenças nos detalhes técnicos

Por que uma nova arquitetura

Capacidade de pesquisa e desenvolvimento por trás

Possíveis direções futuras

Resumo

Tópicos em destaque

JoinGateTradFitoWinGoldPack

SpotGoldHitsaNewHigh

GateLaunchpadIMU

TariffTensionsHitCryptoMarket

CryptoMarketPullback

Gate Fun tendência

北极马

北极马

Layer

Layer

THEWEEKND

THEWEEKND

马芝麻社区

马芝麻社区

京巴

京巴

Fixar