Gate Booster 第 4 期:發帖瓜分 1,500 $USDT
🔹 發布 TradFi 黃金福袋原創內容,可得 15 $USDT,名額有限先到先得
🔹 本期支持 X、YouTube 發布原創內容
🔹 無需複雜操作,流程清晰透明
🔹 流程:申請成為 Booster → 領取任務 → 發布原創內容 → 回鏈登記 → 等待審核及發獎
📅 任務截止時間:03月20日16:00(UTC+8)
立即領取任務:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多詳情:https://www.gate.com/announcements/article/50203
R1一周年曝光MODEL1:DeepSeek在GitHub留下的技術線索
DeepSeek-R1發布已滿一年,就在這個節點,一個新模型的身影在GitHub代碼中浮出水面。根據最新消息,DeepSeek在更新FlashMLA代碼庫時,在114個文件中的28處提到了"MODEL1",與已知的V32(DeepSeek-V3.2)作為不同的模型架構出現。這些零散的代碼線索勾勒出DeepSeek在持續迭代新架構的圖景。
代碼中的創新信號
技術細節的差異
MODEL1與V32在代碼實現上存在明顯差異,主要體現在三個關鍵方面:
這些改動都指向同一個方向:記憶體優化。在大模型推理的實際應用中,KV快取的管理直接影響推理速度和顯存佔用,稀疏性處理關乎模型效率,FP8解碼則涉及計算精度與速度的平衡。這些都是業界正在重點突破的方向。
為什麼是新架構
V32是V3的迭代版本,屬於同一代系列的優化。而MODEL1在代碼中作為獨立的模型標識出現,說明這不是簡單的參數調整,很可能代表了架構級別的創新。這種區分方式在DeepSeek的代碼管理中比較少見,暗示MODEL1的重要性。
背後的研發能力
MODEL1的出現,反映的是DeepSeek持續的技術投入。根據公開信息,DeepSeek的R1訓練成本約29.4萬美元,V3總預算557萬美元。這些成本對標硅谷頂級實驗室來說並不算高,但持續推出新架構、新模型需要穩定的資金支撐。
而這種支撐來自於DeepSeek背後的幻方量化。2025年幻方量化收益均值達56.55%,管理規模超700億元,年度營收估算可能突破50億人民幣。這樣的現金流,足以讓DeepSeek在沒有外部融資壓力的情況下,專注於長期的技術研發。
可能的未來方向
基於代碼中的優化方向,MODEL1可能在以下幾個方面有所突破:
這些方向都符合當前大模型發展的主流趨勢——不是盲目堆砌參數,而是在效率、成本、性能之間尋求最優解。
總結
R1一周年時曝光MODEL1,既是技術創新的自然延續,也是DeepSeek研發節奏的體現。从代码細節看,這家公司在認真做工程優化,而不是炒作概念。與其他企業相比,DeepSeek有兩個優勢:充足的研發資源和持續的技術積累。MODEL1的出現,只是這個過程中的一個里程碑。接下來的問題是,這個新架構何時會正式發布,又會在性能上帶來多大的提升。這些答案,可能很快就會揭曉。