DeepSeek опублікував новий науковий документ під авторством Лян Веньфена: запропоновано нову архітектуру mHC для підвищення стабільності тренування великих моделей

PANews 1 січня повідомляє, що за даними Jin10, DeepSeek опублікувала нову статтю, у якій запропоновано нову архітектуру під назвою Маніфольд Обмежень Надзвичайно Зв'язків (mHC), спрямовану на вирішення проблем нестабільності тренування та обмеженої масштабованості технології Надзвичайно Зв'язків (HC), викликаних руйнуванням властивості ідентичної відображення. Ця архітектура шляхом відображення простору залишкових з'єднань HC на певний маніфольд відновлює властивість ідентичного відображення, одночасно поєднуючи строгі оптимізації інфраструктури для забезпечення ефективності, досягає значних покращень у продуктивності та високої масштабованості. DeepSeek прогнозує, що mHC як гнучке та практичне розширення HC допоможе глибше зрозуміти топологічний дизайн архітектури та окреслить перспективні напрямки для еволюції базових моделей. Ця стаття спільно написана Жендою Сіє (解振达), Вей Ісюань (韦毅轩), Хуанці Цао (曹欢奇) у ролі перших авторів, а Веньфен Лян також входить до списку авторів.
Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів