DeepSeek-R1發布一周年之際曝光新模型「MODEL1」

robot
摘要生成中

1 月 21 日,据量子位报道,DeepSeek-R1 發布一週年之際對新模型「MODEL1」進行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代碼,橫跨 114 個文件中有 28 處提到 MODEL1,與 V32 作為不同的模型出現。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架構。代碼中的具體差異體現在 KV 緩存佈局、稀疏性處理和 FP8 解碼方面,在記憶體優化上有多處不同。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言