DeepSeek-R1のリリース1周年を記念して新モデル「MODEL1」を公開

robot
概要作成中

1 月 21 日,据量子位报道,DeepSeek-R1 发布一周年之际对新模型「MODEL1」进行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代码,横跨 114 个文件中有 28 处提到 MODEL1,与 V32 作为不同的模型出现。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在 KV 缓存布局、稀疏性处理和 FP8 解码方面,在内存优化上有多处不同。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン