Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
R1一周年曝光MODEL1:DeepSeek在GitHub留下的技术线索
DeepSeek-R1发布已满一年,就在这个节点,一个新模型的身影在GitHub代码中浮出水面。根据最新消息,DeepSeek在更新FlashMLA代码库时,在114个文件中的28处提到了"MODEL1",与已知的V32(DeepSeek-V3.2)作为不同的模型架构出现。这些零散的代码线索勾勒出DeepSeek在持续迭代新架构的图景。
代码中的创新信号
技术细节的差异
MODEL1与V32在代码实现上存在明显差异,主要体现在三个关键方面:
这些改动都指向同一个方向:内存优化。在大模型推理的实际应用中,KV缓存的管理直接影响推理速度和显存占用,稀疏性处理关乎模型效率,FP8解码则涉及计算精度与速度的平衡。这些都是业界正在重点突破的方向。
为什么是新架构
V32是V3的迭代版本,属于同一代系列的优化。而MODEL1在代码中作为独立的模型标识出现,说明这不是简单的参数调整,很可能代表了架构级别的创新。这种区分方式在DeepSeek的代码管理中比较少见,暗示MODEL1的重要性。
背后的研发能力
MODEL1的出现,反映的是DeepSeek持续的技术投入。根据公开信息,DeepSeek的R1训练成本约29.4万美元,V3总预算557万美元。这些成本对标硅谷顶级实验室来说并不算高,但持续推出新架构、新模型需要稳定的资金支撑。
而这种支撑来自于DeepSeek背后的幻方量化。2025年幻方量化收益均值达56.55%,管理规模超700亿元,年度营收估算可能突破50亿人民币。这样的现金流,足以让DeepSeek在没有外部融资压力的情况下,专注于长期的技术研发。
可能的未来方向
基于代码中的优化方向,MODEL1可能在以下几个方面有所突破:
这些方向都符合当前大模型发展的主流趋势——不是盲目堆砌参数,而是在效率、成本、性能之间寻求最优解。
总结
R1一周年时曝光MODEL1,既是技术创新的自然延续,也是DeepSeek研发节奏的体现。从代码细节看,这家公司在认真做工程优化,而不是炒作概念。与其他企业相比,DeepSeek有两个优势:充足的研发资源和持续的技术积累。MODEL1的出现,只是这个过程中的一个里程碑。接下来的问题是,这个新架构何时会正式发布,又会在性能上带来多大的提升。这些答案,可能很快就会揭晓。