R1 однорічна річниця розкриття MODEL1: Технічні підказки DeepSeek, залишені на GitHub

DeepSeek-R1 виповнився рік з моменту запуску, і саме на цій точці зору з’явилася нова модель у коді GitHub. За останніми новинами, під час оновлення коду FlashMLA у 114 файлах згадуються 28 разів “MODEL1”, що відрізняється від відомої V32 (DeepSeek-V3.2) як окрема архітектура моделі. Ці розрізнені кодові підказки малюють картину постійних ітерацій нових архітектур DeepSeek.

Інноваційні сигнали у коді

Технічні деталі відмінностей

MODEL1 і V32 мають очевидні відмінності у реалізації коду, головним чином у трьох ключових аспектах:

  • Оптимізація розташування кешу KV
  • Покращення механізму обробки розрідженості
  • Інновації у способі декодування FP8

Ці зміни спрямовані в один бік: оптимізація пам’яті. У практичних застосуваннях великих моделей управління кешем KV безпосередньо впливає на швидкість обчислень і використання відеопам’яті, обробка розрідженості стосується ефективності моделі, а декодування FP8 — баланс між точністю обчислень і швидкістю. Це напрямки, у яких галузь активно шукає прориви.

Чому саме нова архітектура

V32 — це ітераційна версія V3, оптимізація тієї ж серії. А MODEL1 у коді з’являється як окрема позначка моделі, що свідчить про те, що це не просто налаштування параметрів, а ймовірно, інновація на рівні архітектури. Такий підхід у керуванні кодом DeepSeek зустрічається рідко і натякає на важливість MODEL1.

За цим стоїть дослідницький потенціал

З’явлення MODEL1 відображає постійні технічні інвестиції DeepSeek. За відкритими даними, витрати на тренування R1 становили близько 29.4 тисяч доларів, а загальний бюджет V3 — 5.57 мільйонів доларів. Ці витрати не є високими для провідних лабораторій Кремнієвої долини, але постійне впровадження нових архітектур і моделей потребує стабільного фінансування.

Це фінансування забезпечує Quantum, що стоїть за DeepSeek. У 2025 році середня прибутковість Quantum становить 56.55%, управлінський обсяг перевищує 70 мільярдів юанів, а річний дохід може перевищити 5 мільярдів юанів. Такий грошовий потік дозволяє DeepSeek зосередитися на довгострокових дослідженнях без зовнішнього фінансування.

Можливі напрямки розвитку

З урахуванням оптимізацій у коді, MODEL1 може мати прориви у таких сферах:

  • Подальше підвищення ефективності обчислень, особливо для мобільних або крайових сценаріїв
  • Новий баланс між кількістю параметрів і продуктивністю моделі
  • Спеціалізовані архітектури для конкретних застосувань

Ці напрямки відповідають сучасним трендам розвитку великих моделей — не просто нарощування параметрів, а пошук оптимального співвідношення між ефективністю, вартістю і продуктивністю.

Підсумки

Рік після запуску R1 і появи MODEL1 — це природне продовження технічних інновацій і відображення темпу досліджень DeepSeek. З деталей коду видно, що компанія серйозно займається інженерною оптимізацією, а не просто хайпом. У порівнянні з іншими компаніями, DeepSeek має два переваги: достатні ресурси для R&D і постійний технічний досвід. З’явлення MODEL1 — лише один із етапів цього процесу. Наступне питання — коли ця нова архітектура буде офіційно представлена і наскільки вона покращить продуктивність. Відповіді на ці питання можуть з’явитися дуже скоро.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити