DeepSeek-R1 випущено рік тому, представлено нову модель «MODEL1»

BlockBeats повідомляє, 21 січня, згідно з даними Quantum Bit, у рік випуску DeepSeek-R1 було розкрито нову модель «MODEL1» у честь першої річниці. DeepSeek оновив код FlashMLA на GitHub, у 114 файлах згадується 28 разів MODEL1, яка з’являється як окрема модель від V32. Відомо, що V32 — це DeepSeek-V3.2, а MODEL1 ймовірно є новою архітектурою. Конкретні відмінності у коді проявляються у розташуванні кешу KV, обробці розрідженості та декодуванні FP8, а також у кількох аспектах оптимізації пам’яті.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів