DeepSeek-R1 merayakan ulang tahun pertama peluncuran dengan mengungkap model baru 「MODEL1」

BlockBeats berita, 21 Januari, menurut laporan dari Quantum Bit, pada peringatan satu tahun peluncuran DeepSeek-R1, model baru 「MODEL1」 telah diungkapkan. DeepSeek memperbarui kode FlashMLA di GitHub, yang menyebutkan MODEL1 sebanyak 28 kali di 114 file berbeda, muncul sebagai model yang berbeda dari V32. Diketahui bahwa V32 adalah DeepSeek-V3.2, dan MODEL1 kemungkinan besar adalah arsitektur baru. Perbedaan spesifik dalam kode terletak pada tata letak cache KV, penanganan sparsity, dan decoding FP8, serta beberapa perbedaan dalam optimisasi memori.
Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar