R1 однолетие: раскрытие MODEL1 — технические зацепки, оставленные DeepSeek на GitHub

2026-01-21 00:00:28

DeepSeek-R1发布已满一年，就在这个节点，一个新模型的身影在GitHub代码中浮出水面。根据最新消息，DeepSeek在更新FlashMLA代码库时，在114个文件中的28处提到了"MODEL1"，与已知的V32（DeepSeek-V3.2）作为不同的模型架构出现。这些零散的代码线索勾勒出DeepSeek在持续迭代新架构的图景。

代码中的创新信号

技术细节的差异

MODEL1与V32在代码实现上存在明显差异，主要体现在三个关键方面：

KV缓存布局的优化调整
稀疏性处理机制的改进
FP8解码方式的创新

这些改动都指向同一个方向：内存优化。在大模型推理的实际应用中，KV缓存的管理直接影响推理速度和显存占用，稀疏性处理关乎模型效率，FP8解码则涉及计算精度与速度的平衡。这些都是业界正在重点突破的方向。

为什么是新架构

V32是V3的迭代版本，属于同一代系列的优化。而MODEL1在代码中作为独立的模型标识出现，说明这不是简单的参数调整，很可能代表了架构级别的创新。这种区分方式在DeepSeek的代码管理中比较少见，暗示MODEL1的重要性。

背后的研发能力

MODEL1的出现，反映的是DeepSeek持续的技术投入。根据公开信息，DeepSeek的R1训练成本约29.4万美元，V3总预算557万美元。这些成本对标硅谷顶级实验室来说并不算高，但持续推出新架构、新模型需要稳定的资金支撑。

而这种支撑来自于DeepSeek背后的幻方量化。2025年幻方量化收益均值达56.55%，管理规模超700亿元，年度营收估算可能突破50亿人民币。这样的现金流，足以让DeepSeek在没有外部融资压力的情况下，专注于长期的技术研发。

可能的未来方向

基于代码中的优化方向，MODEL1可能在以下几个方面有所突破：

推理效率的进一步提升，特别是在移动端或边缘计算场景
模型参数规模与性能的新平衡点
针对特定应用场景的专用架构设计

这些方向都符合当前大模型发展的主流趋势——不是盲目堆砌参数，而是在效率、成本、性能之间寻求最优解。

总结

R1一周年时曝光MODEL1，既是技术创新的自然延续，也是DeepSeek研发节奏的体现。从代码细节看，这家公司在认真做工程优化，而不是炒作概念。与其他企业相比，DeepSeek有两个优势：充足的研发资源和持续的技术积累。MODEL1的出现，只是这个过程中的一个里程碑。接下来的问题是，这个新架构何时会正式发布，又会在性能上带来多大的提升。这些答案，可能很快就会揭晓。

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .