Звіт з CoinWorld, 21 січня, згідно з повідомленням QuantumBit, у зв’язку з одноріччям випуску DeepSeek-R1 було розкрито нову модель «MODEL1». DeepSeek оновив код FlashMLA на GitHub, де у 114 файлах згадується MODEL1 у 28 випадках, і вона з’являється поруч із V32 як окрема модель. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1 ймовірно є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Звіт з CoinWorld, 21 січня, згідно з повідомленням QuantumBit, у зв’язку з одноріччям випуску DeepSeek-R1 було розкрито нову модель «MODEL1». DeepSeek оновив код FlashMLA на GitHub, де у 114 файлах згадується MODEL1 у 28 випадках, і вона з’являється поруч із V32 як окрема модель. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1 ймовірно є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.