На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
R1 однолетие: раскрытие MODEL1 — технические зацепки, оставленные DeepSeek на GitHub
DeepSeek-R1发布已满一年,就在这个节点,一个新模型的身影在GitHub代码中浮出水面。根据最新消息,DeepSeek在更新FlashMLA代码库时,在114个文件中的28处提到了"MODEL1",与已知的V32(DeepSeek-V3.2)作为不同的模型架构出现。这些零散的代码线索勾勒出DeepSeek在持续迭代新架构的图景。
代码中的创新信号
技术细节的差异
MODEL1与V32在代码实现上存在明显差异,主要体现在三个关键方面:
这些改动都指向同一个方向:内存优化。在大模型推理的实际应用中,KV缓存的管理直接影响推理速度和显存占用,稀疏性处理关乎模型效率,FP8解码则涉及计算精度与速度的平衡。这些都是业界正在重点突破的方向。
为什么是新架构
V32是V3的迭代版本,属于同一代系列的优化。而MODEL1在代码中作为独立的模型标识出现,说明这不是简单的参数调整,很可能代表了架构级别的创新。这种区分方式在DeepSeek的代码管理中比较少见,暗示MODEL1的重要性。
背后的研发能力
MODEL1的出现,反映的是DeepSeek持续的技术投入。根据公开信息,DeepSeek的R1训练成本约29.4万美元,V3总预算557万美元。这些成本对标硅谷顶级实验室来说并不算高,但持续推出新架构、新模型需要稳定的资金支撑。
而这种支撑来自于DeepSeek背后的幻方量化。2025年幻方量化收益均值达56.55%,管理规模超700亿元,年度营收估算可能突破50亿人民币。这样的现金流,足以让DeepSeek在没有外部融资压力的情况下,专注于长期的技术研发。
可能的未来方向
基于代码中的优化方向,MODEL1可能在以下几个方面有所突破:
这些方向都符合当前大模型发展的主流趋势——不是盲目堆砌参数,而是在效率、成本、性能之间寻求最优解。
总结
R1一周年时曝光MODEL1,既是技术创新的自然延续,也是DeepSeek研发节奏的体现。从代码细节看,这家公司在认真做工程优化,而不是炒作概念。与其他企业相比,DeepSeek有两个优势:充足的研发资源和持续的技术积累。MODEL1的出现,只是这个过程中的一个里程碑。接下来的问题是,这个新架构何时会正式发布,又会在性能上带来多大的提升。这些答案,可能很快就会揭晓。