DeepSeek-R1 виповнився рік з моменту запуску, і саме на цій точці зору з’явилася нова модель у коді GitHub. За останніми новинами, під час оновлення коду FlashMLA у 114 файлах згадуються 28 разів “MODEL1”, що відрізняється від відомої V32 (DeepSeek-V3.2) як окрема архітектура моделі. Ці розрізнені кодові підказки малюють картину постійних ітерацій нових архітектур DeepSeek.
Інноваційні сигнали у коді
Технічні деталі відмінностей
MODEL1 і V32 мають очевидні відмінності у реалізації коду, головним чином у трьох ключових аспектах:
Оптимізація розташування кешу KV
Покращення механізму обробки розрідженості
Інновації у способі декодування FP8
Ці зміни спрямовані в один бік: оптимізація пам’яті. У практичних застосуваннях великих моделей управління кешем KV безпосередньо впливає на швидкість обчислень і використання відеопам’яті, обробка розрідженості стосується ефективності моделі, а декодування FP8 — баланс між точністю обчислень і швидкістю. Це напрямки, у яких галузь активно шукає прориви.
Чому саме нова архітектура
V32 — це ітераційна версія V3, оптимізація тієї ж серії. А MODEL1 у коді з’являється як окрема позначка моделі, що свідчить про те, що це не просто налаштування параметрів, а ймовірно, інновація на рівні архітектури. Такий підхід у керуванні кодом DeepSeek зустрічається рідко і натякає на важливість MODEL1.
За цим стоїть дослідницький потенціал
З’явлення MODEL1 відображає постійні технічні інвестиції DeepSeek. За відкритими даними, витрати на тренування R1 становили близько 29.4 тисяч доларів, а загальний бюджет V3 — 5.57 мільйонів доларів. Ці витрати не є високими для провідних лабораторій Кремнієвої долини, але постійне впровадження нових архітектур і моделей потребує стабільного фінансування.
Це фінансування забезпечує Quantum, що стоїть за DeepSeek. У 2025 році середня прибутковість Quantum становить 56.55%, управлінський обсяг перевищує 70 мільярдів юанів, а річний дохід може перевищити 5 мільярдів юанів. Такий грошовий потік дозволяє DeepSeek зосередитися на довгострокових дослідженнях без зовнішнього фінансування.
Можливі напрямки розвитку
З урахуванням оптимізацій у коді, MODEL1 може мати прориви у таких сферах:
Подальше підвищення ефективності обчислень, особливо для мобільних або крайових сценаріїв
Новий баланс між кількістю параметрів і продуктивністю моделі
Спеціалізовані архітектури для конкретних застосувань
Ці напрямки відповідають сучасним трендам розвитку великих моделей — не просто нарощування параметрів, а пошук оптимального співвідношення між ефективністю, вартістю і продуктивністю.
Підсумки
Рік після запуску R1 і появи MODEL1 — це природне продовження технічних інновацій і відображення темпу досліджень DeepSeek. З деталей коду видно, що компанія серйозно займається інженерною оптимізацією, а не просто хайпом. У порівнянні з іншими компаніями, DeepSeek має два переваги: достатні ресурси для R&D і постійний технічний досвід. З’явлення MODEL1 — лише один із етапів цього процесу. Наступне питання — коли ця нова архітектура буде офіційно представлена і наскільки вона покращить продуктивність. Відповіді на ці питання можуть з’явитися дуже скоро.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
R1 однорічна річниця розкриття MODEL1: Технічні підказки DeepSeek, залишені на GitHub
DeepSeek-R1 виповнився рік з моменту запуску, і саме на цій точці зору з’явилася нова модель у коді GitHub. За останніми новинами, під час оновлення коду FlashMLA у 114 файлах згадуються 28 разів “MODEL1”, що відрізняється від відомої V32 (DeepSeek-V3.2) як окрема архітектура моделі. Ці розрізнені кодові підказки малюють картину постійних ітерацій нових архітектур DeepSeek.
Інноваційні сигнали у коді
Технічні деталі відмінностей
MODEL1 і V32 мають очевидні відмінності у реалізації коду, головним чином у трьох ключових аспектах:
Ці зміни спрямовані в один бік: оптимізація пам’яті. У практичних застосуваннях великих моделей управління кешем KV безпосередньо впливає на швидкість обчислень і використання відеопам’яті, обробка розрідженості стосується ефективності моделі, а декодування FP8 — баланс між точністю обчислень і швидкістю. Це напрямки, у яких галузь активно шукає прориви.
Чому саме нова архітектура
V32 — це ітераційна версія V3, оптимізація тієї ж серії. А MODEL1 у коді з’являється як окрема позначка моделі, що свідчить про те, що це не просто налаштування параметрів, а ймовірно, інновація на рівні архітектури. Такий підхід у керуванні кодом DeepSeek зустрічається рідко і натякає на важливість MODEL1.
За цим стоїть дослідницький потенціал
З’явлення MODEL1 відображає постійні технічні інвестиції DeepSeek. За відкритими даними, витрати на тренування R1 становили близько 29.4 тисяч доларів, а загальний бюджет V3 — 5.57 мільйонів доларів. Ці витрати не є високими для провідних лабораторій Кремнієвої долини, але постійне впровадження нових архітектур і моделей потребує стабільного фінансування.
Це фінансування забезпечує Quantum, що стоїть за DeepSeek. У 2025 році середня прибутковість Quantum становить 56.55%, управлінський обсяг перевищує 70 мільярдів юанів, а річний дохід може перевищити 5 мільярдів юанів. Такий грошовий потік дозволяє DeepSeek зосередитися на довгострокових дослідженнях без зовнішнього фінансування.
Можливі напрямки розвитку
З урахуванням оптимізацій у коді, MODEL1 може мати прориви у таких сферах:
Ці напрямки відповідають сучасним трендам розвитку великих моделей — не просто нарощування параметрів, а пошук оптимального співвідношення між ефективністю, вартістю і продуктивністю.
Підсумки
Рік після запуску R1 і появи MODEL1 — це природне продовження технічних інновацій і відображення темпу досліджень DeepSeek. З деталей коду видно, що компанія серйозно займається інженерною оптимізацією, а не просто хайпом. У порівнянні з іншими компаніями, DeepSeek має два переваги: достатні ресурси для R&D і постійний технічний досвід. З’явлення MODEL1 — лише один із етапів цього процесу. Наступне питання — коли ця нова архітектура буде офіційно представлена і наскільки вона покращить продуктивність. Відповіді на ці питання можуть з’явитися дуже скоро.