R1一周年曝光MODEL1:DeepSeek在GitHub留下的技术线索

DeepSeek-R1 phát hành đã tròn một năm, đúng vào thời điểm này, một mô hình mới đã xuất hiện trong mã nguồn của GitHub. Theo tin mới nhất, khi cập nhật kho mã FlashMLA, DeepSeek đã đề cập đến “MODEL1” ở 28 vị trí trong 114 tập tin, khác biệt với V32 (DeepSeek-V3.2) như một kiến trúc mô hình mới. Những mảnh mã rời rạc này phác thảo bức tranh về việc DeepSeek liên tục cập nhật và đổi mới kiến trúc mới.

Tín hiệu đổi mới trong mã nguồn

Sự khác biệt về chi tiết kỹ thuật

MODEL1 và V32 có sự khác biệt rõ ràng về cách thực thi trong mã nguồn, chủ yếu thể hiện ở ba khía cạnh chính:

  • Tối ưu hóa và điều chỉnh bố cục bộ nhớ đệm KV
  • Cải tiến cơ chế xử lý sparse
  • Sáng tạo trong phương thức giải mã FP8

Những thay đổi này đều hướng tới cùng một mục tiêu: tối ưu hóa bộ nhớ. Trong ứng dụng thực tế của các mô hình lớn, quản lý bộ nhớ đệm KV ảnh hưởng trực tiếp đến tốc độ suy luận và dung lượng bộ nhớ GPU, xử lý sparse liên quan đến hiệu quả của mô hình, còn giải mã FP8 liên quan đến cân bằng giữa độ chính xác tính toán và tốc độ. Đây đều là những hướng đi mà ngành công nghiệp đang tập trung đột phá.

Tại sao là kiến trúc mới

V32 là phiên bản cập nhật của V3, thuộc cùng dòng series tối ưu hóa. Trong khi đó, MODEL1 xuất hiện như một nhãn mô hình độc lập trong mã nguồn, cho thấy đây không chỉ là điều chỉnh tham số đơn thuần, mà có thể đại diện cho một đổi mới về kiến trúc. Cách phân biệt này ít gặp trong quản lý mã nguồn của DeepSeek, ám chỉ tầm quan trọng của MODEL1.

Năng lực R&D đằng sau

Sự xuất hiện của MODEL1 phản ánh sự đầu tư công nghệ liên tục của DeepSeek. Theo thông tin công khai, chi phí huấn luyện R1 của DeepSeek khoảng 29,4 nghìn USD, tổng ngân sách của V3 là 5,57 triệu USD. Những chi phí này không quá cao so với các phòng thí nghiệm hàng đầu tại Silicon Valley, nhưng việc liên tục ra mắt kiến trúc và mô hình mới đòi hỏi nguồn vốn ổn định.

Nguồn vốn này đến từ Quảng Phương lượng hóa của DeepSeek. Năm 2025, lợi nhuận trung bình của Quảng Phương đạt 56,55%, quy mô quản lý vượt 700 tỷ nhân dân tệ, doanh thu hàng năm ước tính có thể vượt 5 tỷ nhân dân tệ. Dòng tiền này đủ để DeepSeek tập trung vào nghiên cứu phát triển công nghệ dài hạn mà không gặp áp lực gọi vốn bên ngoài.

Hướng đi tương lai có thể

Dựa trên các hướng tối ưu trong mã nguồn, MODEL1 có thể đạt được đột phá ở một số lĩnh vực sau:

  • Nâng cao hiệu quả suy luận, đặc biệt trong các ứng dụng di động hoặc tính toán biên
  • Tìm ra điểm cân bằng mới giữa quy mô tham số và hiệu năng của mô hình
  • Thiết kế kiến trúc chuyên dụng cho các ứng dụng cụ thể

Những hướng này phù hợp với xu hướng phát triển của các mô hình lớn hiện nay — không phải là chỉ tập trung vào tăng số lượng tham số một cách mù quáng, mà là tối ưu hóa giữa hiệu quả, chi phí và hiệu năng.

Tóm lại

Việc tiết lộ MODEL1 vào dịp kỷ niệm 1 năm của R1 vừa là sự tiếp nối tự nhiên của đổi mới công nghệ, vừa thể hiện nhịp độ R&D của DeepSeek. Từ các chi tiết trong mã nguồn, có thể thấy công ty này đang làm tốt công tác tối ưu kỹ thuật, chứ không chỉ là PR về ý tưởng. So với các doanh nghiệp khác, DeepSeek có hai lợi thế: nguồn lực R&D dồi dào và tích lũy công nghệ liên tục. Sự xuất hiện của MODEL1 chỉ là một c milestone trong quá trình này. Câu hỏi tiếp theo là, khi nào kiến trúc mới này sẽ chính thức ra mắt và nó sẽ mang lại mức cải thiện hiệu năng ra sao. Những câu trả lời đó có thể sẽ sớm được hé lộ.

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$3.4KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.4KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$3.4KNgười nắm giữ:1
    0.00%
  • Ghim