21 січня, згідно з даними від Quantum, у рік випуску DeepSeek-R1 було розкрито нову модель «MODEL1». DeepSeek оновив код FlashMLA на GitHub, у 114 файлах згадується 28 разів MODEL1, яка з’являється поруч із V32 як окрема модель. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1, ймовірно, є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
DeepSeek-R1 випущено рік тому, представлено нову модель «MODEL1»
21 січня, згідно з даними від Quantum, у рік випуску DeepSeek-R1 було розкрито нову модель «MODEL1». DeepSeek оновив код FlashMLA на GitHub, у 114 файлах згадується 28 разів MODEL1, яка з’являється поруч із V32 як окрема модель. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1, ймовірно, є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.