DeepSeek merilis makalah baru yang ditandatangani oleh Liang Wenfeng: Mengusulkan arsitektur baru mHC untuk meningkatkan stabilitas pelatihan model besar

PANews 1 Januari 2024, menurut laporan dari Jinshi, DeepSeek merilis makalah baru yang mengusulkan sebuah arsitektur baru bernama Manifold-Constrained Hyper-Connection (mHC), yang bertujuan untuk mengatasi masalah ketidakstabilan pelatihan dan keterbatasan skalabilitas pada teknologi jaringan hyper-connection (HC) yang disebabkan oleh kerusakan sifat peta identitas. Arsitektur ini memetakan ruang residual HC ke manifold tertentu untuk memulihkan sifat peta identitas, sekaligus menggabungkan optimisasi infrastruktur yang ketat untuk memastikan efisiensi, sehingga mencapai peningkatan kinerja yang signifikan dan skalabilitas yang unggul. DeepSeek memperkirakan bahwa mHC, sebagai pengembangan yang fleksibel dan praktis dari HC, akan membantu pemahaman yang lebih mendalam tentang desain arsitektur topologi, serta menunjukkan arah yang menjanjikan untuk evolusi model dasar. Makalah ini ditulis bersama oleh Zhenda Xie (解振达), Yixuan Wei (韦毅轩), dan Huanqi Cao sebagai penulis utama, dan Liang Wenfeng juga termasuk dalam daftar penulis.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar