1 tháng 21, theo Quantum Bit đưa tin, nhân dịp kỷ niệm 1 năm ra mắt DeepSeek-R1, mô hình mới 「MODEL1」 đã được tiết lộ. DeepSeek đã cập nhật mã FlashMLA trên GitHub, trong đó có 28 lần đề cập đến MODEL1 trong tổng số 114 tệp, xuất hiện cùng với V32 như các mô hình khác nhau. Được biết V32 là DeepSeek-V3.2, rất có thể MODEL1 là kiến trúc mới. Những khác biệt cụ thể trong mã nằm ở cách bố trí bộ đệm KV, xử lý độ thưa và giải mã FP8, đồng thời có nhiều điểm khác biệt trong tối ưu hóa bộ nhớ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
DeepSeek-R1 phát hành tròn 1 năm, tiết lộ mô hình mới 「MODEL1」
1 tháng 21, theo Quantum Bit đưa tin, nhân dịp kỷ niệm 1 năm ra mắt DeepSeek-R1, mô hình mới 「MODEL1」 đã được tiết lộ. DeepSeek đã cập nhật mã FlashMLA trên GitHub, trong đó có 28 lần đề cập đến MODEL1 trong tổng số 114 tệp, xuất hiện cùng với V32 như các mô hình khác nhau. Được biết V32 là DeepSeek-V3.2, rất có thể MODEL1 là kiến trúc mới. Những khác biệt cụ thể trong mã nằm ở cách bố trí bộ đệm KV, xử lý độ thưa và giải mã FP8, đồng thời có nhiều điểm khác biệt trong tối ưu hóa bộ nhớ.