R1 satu tahun perayaan MODEL1: Petunjuk teknologi yang ditinggalkan DeepSeek di GitHub

2026-01-21 00:00:28

DeepSeek-R1 telah lebih dari satu tahun dirilis, dan pada titik ini, bayangan model baru muncul di kode GitHub. Berdasarkan berita terbaru, saat memperbarui kode FlashMLA, DeepSeek menyebutkan “MODEL1” di 28 dari 114 file, berbeda dari V32 (DeepSeek-V3.2) yang muncul sebagai arsitektur model yang dikenal. Petunjuk kode yang tersebar ini menggambarkan gambaran DeepSeek yang terus mengiterasi arsitektur baru.

Sinyal inovasi dalam kode

Perbedaan detail teknis

MODEL1 dan V32 menunjukkan perbedaan mencolok dalam implementasi kode, terutama dalam tiga aspek kunci:

Optimasi pengaturan cache KV
Peningkatan mekanisme penanganan sparsity
Inovasi dalam metode decoding FP8

Perubahan ini semuanya mengarah ke satu arah: optimisasi memori. Dalam aplikasi inferensi model besar, pengelolaan cache KV secara langsung mempengaruhi kecepatan inferensi dan penggunaan memori GPU, penanganan sparsity berkaitan dengan efisiensi model, dan decoding FP8 menyangkut keseimbangan antara presisi perhitungan dan kecepatan. Semua ini adalah bidang utama yang sedang menjadi fokus inovasi industri.

Mengapa ini arsitektur baru

V32 adalah versi iterasi dari V3, termasuk dalam rangkaian seri yang dioptimalkan. Sedangkan MODEL1 muncul sebagai identifikasi model yang terpisah dalam kode, menunjukkan bahwa ini bukan sekadar penyesuaian parameter, melainkan kemungkinan besar inovasi tingkat arsitektur. Cara membedakan ini jarang terlihat dalam pengelolaan kode DeepSeek, mengisyaratkan pentingnya MODEL1.

Kemampuan R&D di baliknya

Kemunculan MODEL1 mencerminkan investasi teknologi berkelanjutan dari DeepSeek. Berdasarkan informasi terbuka, biaya pelatihan R1 sekitar 29,4 juta dolar AS, dan total anggaran V3 mencapai 5,57 juta dolar AS. Biaya ini tidak terlalu tinggi jika dibandingkan dengan laboratorium top di Silicon Valley, tetapi peluncuran arsitektur dan model baru secara konsisten membutuhkan dukungan dana yang stabil.

Dukungan ini berasal dari kuantifikasi Fandango di balik DeepSeek. Pada tahun 2025, rata-rata keuntungan kuantifikasi Fandango mencapai 56,55%, dengan skala pengelolaan lebih dari 70 miliar yuan, dan perkiraan pendapatan tahunan bisa menembus 5 miliar RMB. Arus kas sebesar ini cukup untuk memungkinkan DeepSeek fokus pada pengembangan teknologi jangka panjang tanpa tekanan pendanaan eksternal.

Arah masa depan yang mungkin

Berdasarkan optimisasi dalam kode, MODEL1 kemungkinan akan melakukan terobosan di beberapa bidang berikut:

Peningkatan efisiensi inferensi, terutama di perangkat mobile atau edge computing
Keseimbangan baru antara jumlah parameter dan performa model
Desain arsitektur khusus untuk aplikasi tertentu

Arah-arah ini sesuai dengan tren utama pengembangan model besar saat ini—bukan sekadar menumpuk parameter secara buta, tetapi mencari solusi optimal di antara efisiensi, biaya, dan performa.

Kesimpulan

Perkenalan MODEL1 saat ulang tahun R1 adalah kelanjutan alami dari inovasi teknologi sekaligus cerminan ritme pengembangan DeepSeek. Dari detail kode, terlihat bahwa perusahaan ini serius melakukan optimisasi rekayasa, bukan sekadar hype konsep. Dibandingkan perusahaan lain, DeepSeek memiliki dua keunggulan: sumber daya R&D yang cukup dan akumulasi teknologi yang berkelanjutan. Kehadiran MODEL1 hanyalah salah satu tonggak dalam proses ini. Pertanyaan berikutnya adalah kapan arsitektur baru ini akan dirilis secara resmi dan seberapa besar peningkatan performanya. Jawaban-jawaban ini mungkin akan segera terungkap.

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.