Sự tiến hóa của trí tuệ nhân tạo phản ánh một chuyển đổi cơ bản: từ các hệ thống thống kê chỉ phù hợp với mẫu đến các khung lý luận có cấu trúc rõ ràng. Tại trung tâm của sự biến đổi này là học tăng cường—a phương pháp đã chuyển từ sự quan tâm học thuật sang nhu cầu thực tiễn. Tuy nhiên, phát triển hấp dẫn nhất ngày nay vượt ra ngoài các lựa chọn thuật toán cá nhân. Nó bao gồm cách chúng ta đào tạo hệ thống AI, ai quản lý các giá trị của chúng, và cách các động lực kinh tế thúc đẩy sự phù hợp được cấu trúc như thế nào. Tối ưu hóa sở thích trực tiếp (DPO) và các mạng Web3 phi tập trung đại diện cho hai công nghệ hội tụ hướng tới một sự định hình lại cách quản trị và sản xuất AI, thách thức độc quyền hiện tại của các ông lớn công nghệ tập trung về hệ thống thông minh.
Kiến trúc đào tạo AI hiện đại: Ba giai đoạn và giới hạn kinh tế của chúng
Các mô hình ngôn ngữ lớn hiện nay theo một quy trình đào tạo đã được thiết lập rõ ràng, mỗi giai đoạn phục vụ các chức năng riêng biệt với các đặc tính kinh tế và kỹ thuật hoàn toàn khác nhau. Hiểu rõ kiến trúc này giúp làm rõ tại sao một số giai đoạn vẫn mang tính tập trung vốn có trong khi các giai đoạn khác phù hợp tự nhiên với phân quyền.
Tiền đào tạo (Pre-training) tạo nền tảng, yêu cầu học tự giám sát quy mô lớn trên hàng nghìn tỷ token. Giai đoạn này đòi hỏi các cụm máy chủ toàn cầu đồng bộ gồm hàng nghìn GPU cao cấp và chiếm 80–95% tổng chi phí đào tạo. Yêu cầu băng thông, phức tạp trong phối hợp dữ liệu, và vốn đầu tư lớn khiến giai đoạn này bị khóa trong các môi trường tập trung do các tổ chức có vốn lớn vận hành.
Tinh chỉnh có giám sát (Supervised fine-tuning - SFT) bổ sung khả năng thực hiện nhiệm vụ và theo dõi hướng dẫn bằng các bộ dữ liệu nhỏ hơn. Dù chỉ tiêu thụ 5–15% chi phí, nó vẫn yêu cầu đồng bộ gradient giữa các nút, hạn chế khả năng phân quyền. Các kỹ thuật như LoRA và Q-LoRA cung cấp một số lối thoát nhưng chưa loại bỏ hoàn toàn nút thắt đồng bộ cơ bản.
Sau đào tạo (Post-training), giai đoạn cuối cùng, đại diện cho một điểm ngoặt. Giai đoạn này bao gồm học sở thích, mô hình thưởng, tối ưu hóa chính sách—tất cả các cơ chế để định hình khả năng lý luận và sự phù hợp. Chi phí của giai đoạn này chỉ 5–10% tổng thể nhưng lại mang lại tác động lớn đến hành vi của mô hình. Quan trọng hơn, kiến trúc của nó khác biệt căn bản so với tiền đào tạo: công việc tự nhiên phân thành các thành phần song song, không cần toàn bộ trọng số mô hình tại mỗi nút. Tính chất cấu trúc này trở nên đặc biệt quan trọng khi xem xét các phương án phân quyền.
Trong giai đoạn hậu đào tạo tồn tại nhiều phương pháp, mỗi phương pháp có các tác động khác nhau về tập trung, khả năng mở rộng và quản trị. Học tăng cường từ phản hồi của con người (RLHF) đã chiếm ưu thế lâu dài, sử dụng chú thích của con người để huấn luyện các mô hình thưởng, sau đó hướng dẫn chính sách qua Proximal Policy Optimization (PPO). Nhưng các phương pháp mới đã xuất hiện. Tối ưu hóa sở thích trực tiếp (DPO) bỏ qua hoàn toàn việc huấn luyện mô hình thưởng, tối ưu hóa hành vi mô hình trực tiếp từ các cặp sở thích. Học tăng cường từ phản hồi AI (RLAIF) tự động hóa đánh giá của con người qua các trọng tài AI. Các phương pháp đa dạng này cho thấy không có một con đường tối ưu duy nhất mà là nhiều kiến trúc khả thi—mỗi kiến trúc có các tác động khác nhau về chi phí, khả năng mở rộng và quản trị.
Điểm mấu chốt: khả năng song song tự nhiên và chi phí dữ liệu thấp của hậu đào tạo khiến nó phù hợp đặc biệt cho các mạng mở, phân quyền. Tối ưu sở thích trực tiếp thể hiện tiềm năng này: bằng cách loại bỏ bước mô hình thưởng riêng biệt vốn yêu cầu hạ tầng đào tạo tập trung, DPO giảm sự phụ thuộc tính toán giữa các nút, cho phép các nhà vận hành nhỏ hơn tham gia một cách ý nghĩa.
Hệ thống học tăng cường: Phân tích kiến trúc và động lực
Học tăng cường hoạt động qua một vòng lặp đơn giản về mặt khái niệm nhưng mang tính cơ học phong phú: tương tác với môi trường tạo ra các quỹ đạo (rollouts), tín hiệu thưởng đánh giá chất lượng, và cập nhật chính sách để hướng hành vi mô hình tới các hành động có giá trị cao hơn. Cách thức này che giấu các chi tiết cấu trúc quan trọng trở nên đặc biệt quan trọng trong các bối cảnh phân tán.
Một hệ thống RL hoàn chỉnh gồm ba mô-đun riêng biệt:
Mạng chính sách (Policy Network): mô hình tạo ra hành động dựa trên trạng thái. Trong quá trình huấn luyện, chính sách tương đối ổn định trong các chu kỳ cập nhật, tập trung vào tính đồng bộ của gradient trên trung tâm tính toán. Trong suy luận, nó có thể song song cao trên phần cứng đa dạng.
Quỹ đạo (Rollout - Sinh dữ liệu): giai đoạn các chính sách đã triển khai tương tác với môi trường hoặc nhiệm vụ, tạo ra các quỹ đạo. Giai đoạn này yêu cầu ít liên lạc, hoạt động bất đồng bộ trên các nút, không cần đồng bộ giữa các worker. Đây có thể coi là thành phần tự nhiên nhất của các hệ thống ML hiện đại về khả năng phân quyền.
Người học (Learner - Cập nhật chính sách): tổng hợp các quỹ đạo và tính toán các cập nhật dựa trên gradient. Thành phần này đòi hỏi cường độ tính toán cao, đồng bộ chặt chẽ và kiểm soát tập trung để đảm bảo hội tụ. Nó là nơi lý tưởng để tập trung các nguồn lực tính toán.
Phân tích kiến trúc này cho thấy lý do tại sao RL tự nhiên phù hợp với tính phân quyền: thành phần sinh quỹ đạo—thành phần dễ phân tán nhất—có thể giao cho các nút toàn cầu, trong khi cập nhật chính sách vẫn cần trung tâm.
Các đổi mới thuật toán gần đây đã củng cố tiềm năng này. Group Relative Policy Optimization (GRPO), do DeepSeek-R1 tiên phong, thay thế critic của PPO bằng ước lượng lợi thế trong nhóm. Thay đổi này giảm tải bộ nhớ và quan trọng hơn, tăng khả năng tương thích với các môi trường bất đồng bộ, nơi các nút gặp độ trễ biến đổi. Tối ưu sở thích trực tiếp còn đơn giản hóa quy trình: bằng cách loại bỏ việc huấn luyện mô hình thưởng riêng biệt, DPO cho phép các nút làm việc trực tiếp từ dữ liệu sở thích, giảm sự phụ thuộc kiến trúc vốn yêu cầu đồng bộ tính toán.
Sự phù hợp tự nhiên: Tại sao RL và kiến trúc Web3 phù hợp về cấu trúc
Sự tương thích giữa RL và Web3 vượt ra ngoài sự giống nhau bề ngoài. Cả hai hệ thống đều dựa trên các động lực cơ bản, trong đó sự phối hợp không xuất phát từ kế hoạch trung tâm mà từ các cấu trúc thưởng phù hợp. Mối liên hệ cấu trúc này không chỉ mang ý nghĩa kỹ thuật mà còn chỉ ra khả năng kinh tế và tính hợp pháp quản trị.
Phân phối quỹ đạo và tính đa dạng phần cứng: Giai đoạn sinh quỹ đạo của RL có thể hoạt động trên GPU tiêu chuẩn người tiêu dùng, thiết bị biên, và phần cứng đa dạng toàn cầu. Các mạng Web3 xuất sắc trong việc phối hợp các thành phần phân tán như vậy. Thay vì hạ tầng đám mây tập trung, mạng RL Web3 huy động khả năng tính toán còn bỏ phí—biến phần cứng không sử dụng thành hạ tầng đào tạo hiệu quả. Với một hệ thống yêu cầu lấy mẫu quỹ đạo không giới hạn, lợi thế chi phí so với đám mây tập trung trở thành yếu tố quyết định về mặt kinh tế.
Tính toán xác thực và bằng chứng mật mã: Các mạng mở đối mặt với vấn đề niềm tin cố hữu: làm thế nào để xác minh rằng một đóng góp đã thực sự xảy ra? Các hệ thống tập trung giải quyết qua quyền hành hành chính. Các hệ thống phân quyền cần độ chắc chắn mật mã. Ở đây, các nhiệm vụ xác định của RL—như mã hóa, chứng minh toán học, các vị trí cờ—tạo ra các cơ hội xác minh tự nhiên. Các công nghệ như Zero-Knowledge proofs và Proof-of-Learning có thể xác nhận mật mã rằng công việc lý luận đã được thực hiện đúng, tạo ra niềm tin có thể kiểm toán trong đào tạo phân tán mà không cần trọng tài trung tâm.
Dưới dạng đẩy mạnh DPO như chất xúc tác phân quyền: Sự phát triển của tối ưu sở thích trực tiếp minh họa cách đổi mới thuật toán cho phép kiến trúc phân quyền. RLHF truyền thống yêu cầu một mô hình thưởng trung tâm, được huấn luyện và triển khai bởi một quyền duy nhất. DPO đảo ngược quá trình này: dữ liệu sở thích có thể đến từ nhiều nguồn—các trọng tài AI, bỏ phiếu cộng đồng, thực thi mã có thể xác minh—và trực tiếp đưa vào tối ưu chính sách mà không qua cổng trung tâm. Trong bối cảnh Web3, DPO cho phép dữ liệu sở thích trở thành tài sản trên chuỗi, có thể quản lý, token hóa và trao đổi. Các cộng đồng có thể bỏ phiếu bằng token về hành vi mô hình ưa thích. Các smart contract chứa đựng các tín hiệu sở thích có thể xác minh, tạo ra cầu nối giữa quản trị cộng đồng và hành vi mô hình.
Cơ chế khuyến khích token hóa: Token blockchain tạo ra các cấu trúc thưởng minh bạch, có thể thiết lập, không cần phép. Các nhà đóng góp vào quá trình sinh quỹ đạo nhận token tỷ lệ với giá trị tạo ra. Các trọng tài AI cung cấp phản hồi sở thích nhận phần thưởng. Các người xác minh xác nhận tính xác thực của công việc đặt cược token và có thể bị phạt nếu gian lận. Điều này tạo ra một “thị trường phù hợp” nơi dữ liệu sở thích trở thành tài sản kinh tế có lợi ích cho các thành phần phân tán—có thể hiệu quả hơn nhiều so với các thị trường lao động ẩn danh truyền thống.
Học tăng cường đa tác nhân trong chuỗi công khai: Blockchain vốn là môi trường đa tác nhân, nơi các tài khoản, hợp đồng, và các tác nhân tự trị liên tục điều chỉnh chiến lược dưới áp lực động lực. Điều này tạo ra các thử nghiệm tự nhiên cho các thuật toán MARL. Không giống như các môi trường mô phỏng cô lập, các môi trường blockchain cung cấp các phần thưởng kinh tế thực, các trạng thái xác minh được, và các cấu trúc khuyến khích có thể lập trình—đúng là các điều kiện để các thuật toán MARL phát triển tính bền vững.
Các nghiên cứu điển hình: Từ lý thuyết đến hệ thống đã triển khai
Sự hội tụ lý thuyết giữa RL và Web3 đã sinh ra nhiều phương pháp thực thi đa dạng. Mỗi dự án đại diện cho các “điểm đột phá” khác nhau trong mô hình kiến trúc chung của phân tách, xác minh và phù hợp động lực.
Prime Intellect: Quá trình sinh bất đồng bộ quy mô toàn cầu
Prime Intellect nhắm vào giới hạn cơ bản của đào tạo phân tán: chi phí đồng bộ quá lớn. Đổi mới cốt lõi—khung prime-rl—bỏ qua hoàn toàn mô hình đồng bộ của PPO. Thay vì chờ tất cả worker hoàn thành mỗi batch, prime-rl cho phép hoạt động liên tục bất đồng bộ. Các worker sinh quỹ đạo lấy phiên bản chính sách mới nhất, tạo ra dữ liệu độc lập, rồi tải lên bộ đệm chung. Các người học liên tục tiêu thụ dữ liệu này mà không cần đồng bộ theo batch.
Dòng mô hình INTELLECT thể hiện khả năng của phương pháp này. INTELLECT-1 (tháng 10/2024) huấn luyện hiệu quả qua ba châu lục với tỷ lệ liên lạc dưới 2%. INTELLECT-2 (tháng 4/2025) giới thiệu RL không cần phép, cho phép các nút tùy ý tham gia mà không cần phê duyệt trước. INTELLECT-3 (tháng 11/2025), dùng GPU H200×512 với kích hoạt thưa, đạt AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%—mức hiệu suất gần hoặc vượt các mô hình tập trung lớn hơn nhiều.
Hệ thống hạ tầng Prime Intellect giải quyết các thách thức cốt lõi của phân quyền: OpenDiLoCo giảm liên lạc liên vùng hàng trăm lần. TopLoc cộng với các bộ xác minh tạo ra lớp thực thi đáng tin cậy phân quyền. Công cụ dữ liệu tổng hợp (synthetic data engine) tạo chuỗi lý luận chất lượng cao quy mô lớn. Các hệ thống này phối hợp để giải quyết các nút thắt về tạo dữ liệu, xác minh, và thông lượng suy luận—những điểm nghẽn thực tế của đào tạo phân tán.
Gensyn: Học tập hợp tác qua động lực bầy đàn
Gensyn định hình lại RL như một vấn đề tiến hóa tập thể thay vì tối ưu tập trung. Kiến trúc RL Swarm của nó phân phối toàn bộ vòng lặp học: Solver tạo quỹ đạo, Proposer tạo nhiệm vụ đa dạng, Evaluator chấm điểm giải pháp bằng các mô hình trọng tài cố định hoặc quy tắc xác minh. Cấu trúc P2P này loại bỏ lịch trình trung tâm, thay thế bằng hợp tác tự tổ chức.
SAPO (Swarm Sampling Policy Optimization) hiện thực hóa tầm nhìn này. Thay vì chia sẻ gradient đòi hỏi đồng bộ nặng nề, SAPO chia sẻ quỹ đạo—xem các quỹ đạo nhận được như dữ liệu cục bộ tạo ra. Điều này giảm đáng kể băng thông trong khi vẫn đảm bảo hội tụ ngay cả trên các nút đa dạng với độ trễ lớn. So với critic của PPO hay thậm chí GRPO, SAPO cho phép phần cứng tiêu chuẩn người dùng tham gia hiệu quả vào RL quy mô lớn.
Cách tiếp cận của Gensyn nhấn mạnh rằng RL phân quyền không chỉ là huấn luyện tập trung chuyển sang phần cứng phân tán. Thay vào đó, nó là một mô hình vận hành hoàn toàn khác, trong đó hợp tác xuất phát từ các động lực phù hợp chứ không phải từ lịch trình phối hợp.
Nous Research: Phù hợp xác minh qua môi trường xác định
Nous Research xem hệ thống RL như một nền tảng trí tuệ vòng kín, trong đó huấn luyện, suy luận và môi trường tạo ra phản hồi liên tục. Thành phần Atropos—môi trường RL có thể xác minh—trở thành trụ cột niềm tin. Atropos đóng gói các gợi ý, lời gọi công cụ, thực thi mã, và các dấu vết lý luận trong các môi trường chuẩn, xác minh trực tiếp tính chính xác của đầu ra và tạo ra phần thưởng xác định.
Thiết kế này mang lại nhiều lợi ích: Thứ nhất, loại bỏ chú thích của con người tốn kém. Nhiệm vụ mã hóa trả về tín hiệu pass/fail. Các bài toán toán học cho ra lời giải có thể xác minh. Thứ hai, nó trở thành nền tảng cho RL phân quyền. Trên mạng lưới Psyche của Nous, Atropos đóng vai trò trọng tài xác minh rằng các nút thực sự cải thiện chính sách của họ, cho phép chứng minh có thể kiểm toán của việc học.
Các thành phần của Nous—Hermes (mô hình lý luận), Atropos (xác minh), DisTrO (hiệu quả truyền thông), Psyche (mạng phân quyền), WorldSim (môi trường phức tạp)—cho thấy cách các đổi mới thuật toán và hệ thống kết hợp để thúc đẩy phân quyền. Việc áp dụng DeepHermes với GRPO thay vì PPO đặc biệt nhắm đến khả năng chạy RL suy luận trên mạng phân tán.
Gradient Network: Phản hồi và tính đa dạng phần cứng
Gradient’s Echo tách biệt suy luận và huấn luyện thành các nhóm riêng, mỗi nhóm mở rộng độc lập. Inference Swarm gồm GPU tiêu chuẩn người dùng, sử dụng pipeline để tối đa hóa thông lượng. Training Swarm xử lý cập nhật gradient. Các giao thức đồng bộ nhẹ duy trì tính nhất quán: Chế độ tuần tự ưu tiên độ mới của chính sách cho các tác vụ nhạy độ trễ; chế độ bất đồng bộ tối đa hóa sử dụng.
Thiết kế của Echo nhận thức rõ thực tế: đồng bộ hoàn hảo là không thể trên mạng toàn cầu. Thay vào đó, nó quản lý tính nhất quán phiên bản và xử lý mượt mà các độ trễ của chính sách qua các lựa chọn giao thức. Phương pháp thực dụng này khác biệt với các hệ thống lý tưởng giả định đồng bộ hoàn toàn—Echo làm việc phù hợp với thực tế mạng hơn là chống lại nó.
Bittensor/Grail: Xác minh mật mã của sự phù hợp
Trong hệ sinh thái Bittensor, subnet Covenant AI của Grail giải quyết RLHF/RLAIF phân quyền qua xác minh mật mã. Grail thiết lập chuỗi niềm tin: sinh thử thách xác định ngăn chặn gian lận trước tính toán. Các validator lấy mẫu logprob token và chuỗi suy luận với chi phí tối thiểu, xác nhận quỹ đạo đến từ mô hình đã tuyên bố. Việc liên kết danh tính mô hình đảm bảo rằng việc thay thế mô hình hoặc phát lại kết quả sẽ bị phát hiện ngay lập tức.
Cơ chế ba lớp này tạo ra khả năng kiểm toán mà không cần quyền trung tâm. Quá trình xác minh theo kiểu GRPO tạo ra nhiều đường dẫn suy luận cho mỗi bài toán, chấm điểm dựa trên độ chính xác và chất lượng lý luận, rồi ghi kết quả trên chuỗi như các đóng góp có trọng số đồng thuận.
Fraction AI: Học tập cạnh tranh dựa trên cuộc thi
Phương pháp của Fraction AI đảo ngược cách tiếp cận truyền thống về phù hợp: thay vì phần thưởng cố định từ các mô hình, các tác nhân cạnh tranh trong các môi trường động, nơi chiến lược đối thủ và các trọng tài liên tục tiến hóa. Phần thưởng xuất phát từ hiệu suất tương đối và điểm số của trọng tài AI. Cấu trúc này ngăn chặn việc gian lận mô hình thưởng—mối đe dọa cốt lõi của RLHF truyền thống.
Môi trường chơi game này biến phù hợp thành “dự đoán cạnh tranh”—các tác nhân liên tục tham gia, cạnh tranh, và nhận phần thưởng dựa trên xếp hạng theo thời gian thực. Cấu trúc đa tác nhân này, kết hợp với tối ưu sở thích trực tiếp giữa các tác nhân cạnh tranh, tạo ra sự đa dạng nổi bật và ngăn chặn hội tụ vào cực tiểu cục bộ. Chứng minh có thể kiểm toán (Proof-of-Learning) liên kết cập nhật chính sách với kết quả cạnh tranh cụ thể, đảm bảo tiến trình huấn luyện có thể xác minh.
Tối ưu sở thích trực tiếp: Từ phương pháp phù hợp đến tài sản kinh tế
Tối ưu sở thích trực tiếp (DPO) đặc biệt đáng chú ý vì sự phát triển của nó phản ánh các xu hướng rộng hơn trong phân quyền đào tạo AI.
RLHF truyền thống tạo ra quy trình hai bước: đầu tiên, thu thập cặp sở thích và huấn luyện mô hình thưởng trung tâm; thứ hai, dùng mô hình đó làm mục tiêu tối ưu. Kiến trúc này tích hợp sự tập trung: dữ liệu sở thích chảy qua một điểm trung tâm, tạo ra nút thắt và một nguồn chân lý duy nhất về chất lượng mô hình.
DPO đảo ngược quá trình này. Nó tối ưu trực tiếp các tham số mô hình từ các cặp sở thích mà không cần mô hình thưởng trung gian. Việc đơn giản hóa này mang ý nghĩa sâu sắc. Về mặt vận hành, nó giảm yêu cầu tính toán—không cần huấn luyện mô hình thưởng riêng biệt tiêu tốn tài nguyên. Về mặt tổ chức, nó phân phối quyền lực: dữ liệu sở thích đến từ nhiều nguồn khác nhau mà không cần tập trung bắt buộc. Về mặt kinh tế, nó biến sở thích thành tài sản có thể trao đổi: nếu tín hiệu sở thích thúc đẩy tối ưu chính sách, chúng trở thành các tài sản có giá trị có thể giao dịch.
Trong bối cảnh Web3, điều này còn mạnh mẽ hơn nữa. Các sở thích và mô hình thưởng có thể trở thành tài sản trên chuỗi, có thể quản lý, token hóa và trao đổi. Các cộng đồng bỏ phiếu bằng token về hành vi mong muốn của mô hình. Các smart contract chứa đựng tín hiệu sở thích có thể xác minh cung cấp cầu nối giữa quản trị cộng đồng và hành vi mô hình.
Quy trình RL truyền thống của RLHF → RLAIF → DPO, hay các biến thể của tối ưu sở thích trực tiếp, không phải là một tiến trình tuyến tính mà là một bộ công cụ. RLHF phù hợp cho phù hợp hướng tới con người. RLAIF mở rộng qua đánh giá AI. DPO giảm phụ thuộc hạ tầng. Các phương pháp khác nhau phù hợp với các kịch bản khác nhau. Điểm mấu chốt: hậu đào tạo có nhiều kiến trúc khả thi. Sự đa dạng này tạo ra không gian cho đổi mới phân quyền mà các hệ thống tập trung, tối ưu cho một giải pháp duy nhất, có thể bỏ lỡ.
Mô hình hội tụ: Phân tách, xác minh, động lực
Dù có các điểm xuất phát khác nhau—dù là thuật toán (disTrO của Nous), kỹ thuật hệ thống (prime-rl của Prime Intellect), hay thiết kế thị trường (động lực cạnh tranh của Fraction AI)—các dự án Web3+RL thành công đều hội tụ theo một mẫu kiến trúc nhất quán:
Phân tách các giai đoạn tính toán: Quỹ đạo phân tán tới các tác nhân. Cập nhật chính sách tới các người học tập trung. Xác minh tới các nút chuyên biệt. Cấu trúc này phù hợp cả với yêu cầu vốn có của RL lẫn topology phân tán của Web3.
Niềm tin dựa trên xác minh: Thay vì dựa vào quyền hành hành chính, các bằng chứng mật mã và xác minh xác định thiết lập độ chính xác. Zero-Knowledge proofs xác minh lý luận. Proof-of-Learning xác nhận công việc đã thực sự diễn ra. Điều này tạo ra độ chắc chắn có thể kiểm toán, thay thế niềm tin con người.
Vòng khuyến khích token hóa: Cung cấp tính toán, tạo dữ liệu, xác minh, và phân phối phần thưởng khép kín qua các cơ chế token. Người tham gia đặt cược token, đối mặt với các hình phạt nếu gian lận, và nhận phần thưởng cho đóng góp. Điều này tạo ra các động lực phù hợp mà không cần điều phối trung tâm.
Trong kiến trúc hội tụ này, các dự án khác nhau theo đuổi các “mảng công nghệ” riêng biệt. Nous Research hướng tới “bức tường băng thông”—cắt giảm đáng kể truyền thông gradient để thậm chí mạng băng thông gia đình cũng có thể huấn luyện các mô hình lớn. Prime Intellect và Gensyn theo đuổi kỹ thuật hệ thống xuất sắc, tối đa hóa sử dụng phần cứng đa dạng qua các khung tối ưu. Bittensor và Fraction AI nhấn mạnh thiết kế hàm thưởng, tạo ra các cơ chế chấm điểm phức tạp hướng dẫn hành vi nổi bật.
Tuy nhiên, tất cả đều chia sẻ niềm tin nền tảng: học tăng cường phân quyền không chỉ là huấn luyện tập trung mở rộng ra nhiều máy móc. Đó là một kiến trúc hoàn toàn khác, phù hợp hơn với thực tế kinh tế và kỹ thuật của phù hợp hậu đào tạo.
Thách thức: Thực tế của học tập phân quyền
Sự phù hợp lý thuyết với thực tế đòi hỏi phải giải quyết các giới hạn cấu trúc chưa được giải quyết trong toàn bộ hệ sinh thái.
Giới hạn băng thông: Huấn luyện mô hình siêu lớn (70B+ tham số) vẫn đối mặt với giới hạn độ trễ vật lý. Dù các đổi mới như DisTrO giảm truyền thông hàng nghìn lần, các hệ thống phân quyền hiện tại chủ yếu xuất sắc trong tinh chỉnh và suy luận hơn là huấn luyện các mô hình nền tảng khổng lồ từ đầu. Đây không phải là giới hạn vĩnh viễn mà là biên giới hiện tại. Khi các giao thức truyền thông cải thiện và kiến trúc mô hình (đặc biệt là mô hình thưa) giảm sự phụ thuộc tham số, giới hạn này có thể được nới lỏng.
Luật Goodhart: Trong các mạng có động lực cao, các thành viên dễ bị cám dỗ tối ưu hóa tín hiệu thưởng thay vì trí tuệ thực sự. Các thợ mỏ “đánh farm điểm” bằng cách khai thác các trường hợp đặc biệt của hàm thưởng. Các tác nhân gian lận phản hồi sở thích. Đây không phải là vấn đề mới—các hệ thống tập trung cũng đối mặt với các thách thức gian lận thưởng. Nhưng trong phân quyền, vấn đề này còn phức tạp hơn: kẻ tấn công chỉ cần lừa một thuật toán, không cần phải điều hành tổ chức. Việc thiết kế các hàm thưởng và cơ chế xác minh vững chắc vẫn là cuộc cạnh tranh chống lại các tối ưu hóa xảo quyệt của các tác nhân tự lợi.
Malware Byzantine: Các cuộc tấn công hoạt động của các nút bị xâm phạm có thể làm nhiễu tín hiệu huấn luyện, gây rối quá trình hội tụ. Trong khi xác minh mật mã ngăn chặn một số cuộc tấn công (ví dụ, tuyên bố công việc sai), nó không thể ngăn chặn tất cả các hành vi độc hại (chạy mã đúng nhưng có ý đồ đối nghịch). Độ bền chống lại các tác nhân độc hại trong RL phân quyền vẫn là một lĩnh vực nghiên cứu mở.
Cơ hội thực sự: Viết lại các quan hệ sản xuất trí tuệ
Những thách thức này là có thật nhưng không phải là rào cản không vượt qua được. Cơ hội rộng lớn hơn này xứng đáng với các khoản đầu tư và nghiên cứu liên tục.
Điểm sáng cơ bản là RL kết hợp Web3 không chỉ viết lại công nghệ đào tạo mà còn viết lại các cấu trúc kinh tế và quản trị xung quanh sự phát triển AI. Ba con đường tiến hóa bổ sung nổi bật:
Thứ nhất, mạng đào tạo phân quyền: Công suất tính toán vốn là mỏ trong các hệ thống truyền thống nay biến thành các mạng chính sách. Quá trình sinh quỹ đạo có thể xác minh và song song hóa được outsource ra các GPU dài hạn toàn cầu. Trong ngắn hạn, các thị trường suy luận có thể xác minh sẽ phát triển thành các mạng con RL xử lý nhóm nhiệm vụ và điều phối đa tác nhân. Điều này loại bỏ tính tập trung của hạ tầng tính toán như một rào cản dẫn đến phát triển AI.
Thứ hai, tài sản hóa sở thích và mô hình thưởng: Dữ liệu sở thích chuyển từ “lao động gắn nhãn” trong các mô hình crowdsourcing thành “tài sản vốn”—các tài sản có thể quản lý, trao đổi, ghép nối. Phản hồi chất lượng cao và các mô hình thưởng được chọn lọc kỹ càng trở thành các tài sản số có giá trị kinh tế thực. Các cộng đồng người dùng, thay vì các công ty tập trung, quyết định hành vi AI tốt. Điều này dân chủ hóa sự phù hợp—trước đây tập trung trong các phòng nghiên cứu của doanh nghiệp—và phân phối quyền quản trị rộng rãi hơn.
Thứ ba, các tác nhân chuyên biệt theo ngành: Các tác nhân RL chuyên biệt cho các lĩnh vực hẹp (thực thi chiến lược DeFi, sinh mã, lý luận toán học) có thể vượt trội hơn các mô hình chung trong lĩnh vực của chúng, đặc biệt khi kết quả có thể xác minh và lợi ích có thể định lượng. Các tác nhân này liên kết trực tiếp việc cải thiện chiến lược với giá trị thu được, tạo ra vòng khép kín phù hợp động lực giữa hiệu suất mô hình và lợi nhuận kinh tế. Các tác nhân này có thể được huấn luyện liên tục trên các mạng phân quyền, cập nhật nhanh chóng khi môi trường thay đổi.
Cơ hội tổng thể này khác biệt rõ rệt so với “OpenAI phân quyền”—một khung khái niệm thường gây hiểu lầm. Thay vào đó, nó là việc viết lại các quan hệ sản xuất xung quanh hệ thống trí tuệ. Việc huấn luyện trở thành một thị trường mở về năng lực tính toán. Phần thưởng và sở thích trở thành các tài sản quản lý trên chuỗi. Giá trị—trước đây tập trung trong các nền tảng—được phân phối lại giữa các nhà huấn luyện, những người phù hợp, và người dùng.
Đây không phải là cải tiến từng phần của các hệ thống hiện có. Đó là một cuộc tái cấu trúc cách thức sản xuất, phù hợp, và phân phối giá trị của trí tuệ. Với một công nghệ có ảnh hưởng lớn như trí tuệ chung, ai kiểm soát các cơ chế này mới là điều quan trọng sâu sắc.
Kết luận: Từ quan tâm học thuật đến thực tế kinh tế
Sự hội tụ của RL và kiến trúc Web3 không chỉ là khả năng kỹ thuật—nó phản ánh sự phù hợp sâu sắc giữa cách các hệ thống RL hoạt động và cách các mạng phân quyền phối hợp. Các dự án cụ thể từ Prime Intellect đến Fraction AI chứng minh rằng điều này không còn là lý thuyết. Kiến trúc hoạt động. Mô hình đào tạo. Phần thưởng phân phối. Giá trị chảy về các đóng góp viên.
Các thách thức là có thật: giới hạn băng thông, gian lận thưởng, tấn công Byzantine. Nhưng không có thách thức nào lớn hơn so với các vấn đề mà hệ thống tập trung phải đối mặt. Và hệ thống phân quyền còn mang lại điều mà các phương pháp tập trung không thể: tính hợp pháp quản trị vượt ra ngoài quyền lực của doanh nghiệp, các động lực kinh tế phù hợp với lợi ích thực của các thành phần tham gia, và khả năng đổi mới vượt ra ngoài lộ trình của một công ty duy nhất.
Trong những năm tới, hãy chú ý đến hai chỉ số. Thứ nhất, liệu các mạng phân quyền hậu đào tạo có thể huấn luyện các mô hình đạt trình độ đỉnh cao hay không. Các kết quả gần đây cho thấy khả năng này. Thứ hai, liệu các kiến trúc trí tuệ mới xuất hiện mà trước đây không thể dưới các chế độ đào tạo tập trung. Động lực cạnh tranh của RL—nơi các tác nhân đa dạng khám phá không gian giải pháp—có thể tạo ra các khả năng mà các tác nhân tập trung đơn lẻ không thể đạt được.
Thay đổi thực sự sẽ không rõ ràng ngay lập tức. Nó sẽ không xuất hiện trong các điểm số benchmark hay kích thước mô hình. Thay vào đó, nó sẽ thể hiện qua sự phân phối lại tinh tế: nhiều nhà phát triển AI hơn không làm việc cho các tập đoàn lớn. Các cộng đồng quyết định giá trị mô hình thay vì các hội đồng cố vấn của doanh nghiệp. Giá trị kinh tế chảy về hàng nghìn người đóng góp tạo ra hệ thống trí tuệ, chứ không tập trung trong tay cổ đông.
Đây chính là lời hứa của RL kết hợp Web3—không chỉ là công nghệ, mà là các quan hệ sản xuất mới cho kỷ nguyên trí tuệ.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Từ Phù hợp Mẫu đến Sản xuất Thông minh: Tối ưu hóa Ưu tiên Trực tiếp và Học tăng cường Phi tập trung trong Web3
Sự tiến hóa của trí tuệ nhân tạo phản ánh một chuyển đổi cơ bản: từ các hệ thống thống kê chỉ phù hợp với mẫu đến các khung lý luận có cấu trúc rõ ràng. Tại trung tâm của sự biến đổi này là học tăng cường—a phương pháp đã chuyển từ sự quan tâm học thuật sang nhu cầu thực tiễn. Tuy nhiên, phát triển hấp dẫn nhất ngày nay vượt ra ngoài các lựa chọn thuật toán cá nhân. Nó bao gồm cách chúng ta đào tạo hệ thống AI, ai quản lý các giá trị của chúng, và cách các động lực kinh tế thúc đẩy sự phù hợp được cấu trúc như thế nào. Tối ưu hóa sở thích trực tiếp (DPO) và các mạng Web3 phi tập trung đại diện cho hai công nghệ hội tụ hướng tới một sự định hình lại cách quản trị và sản xuất AI, thách thức độc quyền hiện tại của các ông lớn công nghệ tập trung về hệ thống thông minh.
Kiến trúc đào tạo AI hiện đại: Ba giai đoạn và giới hạn kinh tế của chúng
Các mô hình ngôn ngữ lớn hiện nay theo một quy trình đào tạo đã được thiết lập rõ ràng, mỗi giai đoạn phục vụ các chức năng riêng biệt với các đặc tính kinh tế và kỹ thuật hoàn toàn khác nhau. Hiểu rõ kiến trúc này giúp làm rõ tại sao một số giai đoạn vẫn mang tính tập trung vốn có trong khi các giai đoạn khác phù hợp tự nhiên với phân quyền.
Tiền đào tạo (Pre-training) tạo nền tảng, yêu cầu học tự giám sát quy mô lớn trên hàng nghìn tỷ token. Giai đoạn này đòi hỏi các cụm máy chủ toàn cầu đồng bộ gồm hàng nghìn GPU cao cấp và chiếm 80–95% tổng chi phí đào tạo. Yêu cầu băng thông, phức tạp trong phối hợp dữ liệu, và vốn đầu tư lớn khiến giai đoạn này bị khóa trong các môi trường tập trung do các tổ chức có vốn lớn vận hành.
Tinh chỉnh có giám sát (Supervised fine-tuning - SFT) bổ sung khả năng thực hiện nhiệm vụ và theo dõi hướng dẫn bằng các bộ dữ liệu nhỏ hơn. Dù chỉ tiêu thụ 5–15% chi phí, nó vẫn yêu cầu đồng bộ gradient giữa các nút, hạn chế khả năng phân quyền. Các kỹ thuật như LoRA và Q-LoRA cung cấp một số lối thoát nhưng chưa loại bỏ hoàn toàn nút thắt đồng bộ cơ bản.
Sau đào tạo (Post-training), giai đoạn cuối cùng, đại diện cho một điểm ngoặt. Giai đoạn này bao gồm học sở thích, mô hình thưởng, tối ưu hóa chính sách—tất cả các cơ chế để định hình khả năng lý luận và sự phù hợp. Chi phí của giai đoạn này chỉ 5–10% tổng thể nhưng lại mang lại tác động lớn đến hành vi của mô hình. Quan trọng hơn, kiến trúc của nó khác biệt căn bản so với tiền đào tạo: công việc tự nhiên phân thành các thành phần song song, không cần toàn bộ trọng số mô hình tại mỗi nút. Tính chất cấu trúc này trở nên đặc biệt quan trọng khi xem xét các phương án phân quyền.
Trong giai đoạn hậu đào tạo tồn tại nhiều phương pháp, mỗi phương pháp có các tác động khác nhau về tập trung, khả năng mở rộng và quản trị. Học tăng cường từ phản hồi của con người (RLHF) đã chiếm ưu thế lâu dài, sử dụng chú thích của con người để huấn luyện các mô hình thưởng, sau đó hướng dẫn chính sách qua Proximal Policy Optimization (PPO). Nhưng các phương pháp mới đã xuất hiện. Tối ưu hóa sở thích trực tiếp (DPO) bỏ qua hoàn toàn việc huấn luyện mô hình thưởng, tối ưu hóa hành vi mô hình trực tiếp từ các cặp sở thích. Học tăng cường từ phản hồi AI (RLAIF) tự động hóa đánh giá của con người qua các trọng tài AI. Các phương pháp đa dạng này cho thấy không có một con đường tối ưu duy nhất mà là nhiều kiến trúc khả thi—mỗi kiến trúc có các tác động khác nhau về chi phí, khả năng mở rộng và quản trị.
Điểm mấu chốt: khả năng song song tự nhiên và chi phí dữ liệu thấp của hậu đào tạo khiến nó phù hợp đặc biệt cho các mạng mở, phân quyền. Tối ưu sở thích trực tiếp thể hiện tiềm năng này: bằng cách loại bỏ bước mô hình thưởng riêng biệt vốn yêu cầu hạ tầng đào tạo tập trung, DPO giảm sự phụ thuộc tính toán giữa các nút, cho phép các nhà vận hành nhỏ hơn tham gia một cách ý nghĩa.
Hệ thống học tăng cường: Phân tích kiến trúc và động lực
Học tăng cường hoạt động qua một vòng lặp đơn giản về mặt khái niệm nhưng mang tính cơ học phong phú: tương tác với môi trường tạo ra các quỹ đạo (rollouts), tín hiệu thưởng đánh giá chất lượng, và cập nhật chính sách để hướng hành vi mô hình tới các hành động có giá trị cao hơn. Cách thức này che giấu các chi tiết cấu trúc quan trọng trở nên đặc biệt quan trọng trong các bối cảnh phân tán.
Một hệ thống RL hoàn chỉnh gồm ba mô-đun riêng biệt:
Mạng chính sách (Policy Network): mô hình tạo ra hành động dựa trên trạng thái. Trong quá trình huấn luyện, chính sách tương đối ổn định trong các chu kỳ cập nhật, tập trung vào tính đồng bộ của gradient trên trung tâm tính toán. Trong suy luận, nó có thể song song cao trên phần cứng đa dạng.
Quỹ đạo (Rollout - Sinh dữ liệu): giai đoạn các chính sách đã triển khai tương tác với môi trường hoặc nhiệm vụ, tạo ra các quỹ đạo. Giai đoạn này yêu cầu ít liên lạc, hoạt động bất đồng bộ trên các nút, không cần đồng bộ giữa các worker. Đây có thể coi là thành phần tự nhiên nhất của các hệ thống ML hiện đại về khả năng phân quyền.
Người học (Learner - Cập nhật chính sách): tổng hợp các quỹ đạo và tính toán các cập nhật dựa trên gradient. Thành phần này đòi hỏi cường độ tính toán cao, đồng bộ chặt chẽ và kiểm soát tập trung để đảm bảo hội tụ. Nó là nơi lý tưởng để tập trung các nguồn lực tính toán.
Phân tích kiến trúc này cho thấy lý do tại sao RL tự nhiên phù hợp với tính phân quyền: thành phần sinh quỹ đạo—thành phần dễ phân tán nhất—có thể giao cho các nút toàn cầu, trong khi cập nhật chính sách vẫn cần trung tâm.
Các đổi mới thuật toán gần đây đã củng cố tiềm năng này. Group Relative Policy Optimization (GRPO), do DeepSeek-R1 tiên phong, thay thế critic của PPO bằng ước lượng lợi thế trong nhóm. Thay đổi này giảm tải bộ nhớ và quan trọng hơn, tăng khả năng tương thích với các môi trường bất đồng bộ, nơi các nút gặp độ trễ biến đổi. Tối ưu sở thích trực tiếp còn đơn giản hóa quy trình: bằng cách loại bỏ việc huấn luyện mô hình thưởng riêng biệt, DPO cho phép các nút làm việc trực tiếp từ dữ liệu sở thích, giảm sự phụ thuộc kiến trúc vốn yêu cầu đồng bộ tính toán.
Sự phù hợp tự nhiên: Tại sao RL và kiến trúc Web3 phù hợp về cấu trúc
Sự tương thích giữa RL và Web3 vượt ra ngoài sự giống nhau bề ngoài. Cả hai hệ thống đều dựa trên các động lực cơ bản, trong đó sự phối hợp không xuất phát từ kế hoạch trung tâm mà từ các cấu trúc thưởng phù hợp. Mối liên hệ cấu trúc này không chỉ mang ý nghĩa kỹ thuật mà còn chỉ ra khả năng kinh tế và tính hợp pháp quản trị.
Phân phối quỹ đạo và tính đa dạng phần cứng: Giai đoạn sinh quỹ đạo của RL có thể hoạt động trên GPU tiêu chuẩn người tiêu dùng, thiết bị biên, và phần cứng đa dạng toàn cầu. Các mạng Web3 xuất sắc trong việc phối hợp các thành phần phân tán như vậy. Thay vì hạ tầng đám mây tập trung, mạng RL Web3 huy động khả năng tính toán còn bỏ phí—biến phần cứng không sử dụng thành hạ tầng đào tạo hiệu quả. Với một hệ thống yêu cầu lấy mẫu quỹ đạo không giới hạn, lợi thế chi phí so với đám mây tập trung trở thành yếu tố quyết định về mặt kinh tế.
Tính toán xác thực và bằng chứng mật mã: Các mạng mở đối mặt với vấn đề niềm tin cố hữu: làm thế nào để xác minh rằng một đóng góp đã thực sự xảy ra? Các hệ thống tập trung giải quyết qua quyền hành hành chính. Các hệ thống phân quyền cần độ chắc chắn mật mã. Ở đây, các nhiệm vụ xác định của RL—như mã hóa, chứng minh toán học, các vị trí cờ—tạo ra các cơ hội xác minh tự nhiên. Các công nghệ như Zero-Knowledge proofs và Proof-of-Learning có thể xác nhận mật mã rằng công việc lý luận đã được thực hiện đúng, tạo ra niềm tin có thể kiểm toán trong đào tạo phân tán mà không cần trọng tài trung tâm.
Dưới dạng đẩy mạnh DPO như chất xúc tác phân quyền: Sự phát triển của tối ưu sở thích trực tiếp minh họa cách đổi mới thuật toán cho phép kiến trúc phân quyền. RLHF truyền thống yêu cầu một mô hình thưởng trung tâm, được huấn luyện và triển khai bởi một quyền duy nhất. DPO đảo ngược quá trình này: dữ liệu sở thích có thể đến từ nhiều nguồn—các trọng tài AI, bỏ phiếu cộng đồng, thực thi mã có thể xác minh—và trực tiếp đưa vào tối ưu chính sách mà không qua cổng trung tâm. Trong bối cảnh Web3, DPO cho phép dữ liệu sở thích trở thành tài sản trên chuỗi, có thể quản lý, token hóa và trao đổi. Các cộng đồng có thể bỏ phiếu bằng token về hành vi mô hình ưa thích. Các smart contract chứa đựng các tín hiệu sở thích có thể xác minh, tạo ra cầu nối giữa quản trị cộng đồng và hành vi mô hình.
Cơ chế khuyến khích token hóa: Token blockchain tạo ra các cấu trúc thưởng minh bạch, có thể thiết lập, không cần phép. Các nhà đóng góp vào quá trình sinh quỹ đạo nhận token tỷ lệ với giá trị tạo ra. Các trọng tài AI cung cấp phản hồi sở thích nhận phần thưởng. Các người xác minh xác nhận tính xác thực của công việc đặt cược token và có thể bị phạt nếu gian lận. Điều này tạo ra một “thị trường phù hợp” nơi dữ liệu sở thích trở thành tài sản kinh tế có lợi ích cho các thành phần phân tán—có thể hiệu quả hơn nhiều so với các thị trường lao động ẩn danh truyền thống.
Học tăng cường đa tác nhân trong chuỗi công khai: Blockchain vốn là môi trường đa tác nhân, nơi các tài khoản, hợp đồng, và các tác nhân tự trị liên tục điều chỉnh chiến lược dưới áp lực động lực. Điều này tạo ra các thử nghiệm tự nhiên cho các thuật toán MARL. Không giống như các môi trường mô phỏng cô lập, các môi trường blockchain cung cấp các phần thưởng kinh tế thực, các trạng thái xác minh được, và các cấu trúc khuyến khích có thể lập trình—đúng là các điều kiện để các thuật toán MARL phát triển tính bền vững.
Các nghiên cứu điển hình: Từ lý thuyết đến hệ thống đã triển khai
Sự hội tụ lý thuyết giữa RL và Web3 đã sinh ra nhiều phương pháp thực thi đa dạng. Mỗi dự án đại diện cho các “điểm đột phá” khác nhau trong mô hình kiến trúc chung của phân tách, xác minh và phù hợp động lực.
Prime Intellect: Quá trình sinh bất đồng bộ quy mô toàn cầu
Prime Intellect nhắm vào giới hạn cơ bản của đào tạo phân tán: chi phí đồng bộ quá lớn. Đổi mới cốt lõi—khung prime-rl—bỏ qua hoàn toàn mô hình đồng bộ của PPO. Thay vì chờ tất cả worker hoàn thành mỗi batch, prime-rl cho phép hoạt động liên tục bất đồng bộ. Các worker sinh quỹ đạo lấy phiên bản chính sách mới nhất, tạo ra dữ liệu độc lập, rồi tải lên bộ đệm chung. Các người học liên tục tiêu thụ dữ liệu này mà không cần đồng bộ theo batch.
Dòng mô hình INTELLECT thể hiện khả năng của phương pháp này. INTELLECT-1 (tháng 10/2024) huấn luyện hiệu quả qua ba châu lục với tỷ lệ liên lạc dưới 2%. INTELLECT-2 (tháng 4/2025) giới thiệu RL không cần phép, cho phép các nút tùy ý tham gia mà không cần phê duyệt trước. INTELLECT-3 (tháng 11/2025), dùng GPU H200×512 với kích hoạt thưa, đạt AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%—mức hiệu suất gần hoặc vượt các mô hình tập trung lớn hơn nhiều.
Hệ thống hạ tầng Prime Intellect giải quyết các thách thức cốt lõi của phân quyền: OpenDiLoCo giảm liên lạc liên vùng hàng trăm lần. TopLoc cộng với các bộ xác minh tạo ra lớp thực thi đáng tin cậy phân quyền. Công cụ dữ liệu tổng hợp (synthetic data engine) tạo chuỗi lý luận chất lượng cao quy mô lớn. Các hệ thống này phối hợp để giải quyết các nút thắt về tạo dữ liệu, xác minh, và thông lượng suy luận—những điểm nghẽn thực tế của đào tạo phân tán.
Gensyn: Học tập hợp tác qua động lực bầy đàn
Gensyn định hình lại RL như một vấn đề tiến hóa tập thể thay vì tối ưu tập trung. Kiến trúc RL Swarm của nó phân phối toàn bộ vòng lặp học: Solver tạo quỹ đạo, Proposer tạo nhiệm vụ đa dạng, Evaluator chấm điểm giải pháp bằng các mô hình trọng tài cố định hoặc quy tắc xác minh. Cấu trúc P2P này loại bỏ lịch trình trung tâm, thay thế bằng hợp tác tự tổ chức.
SAPO (Swarm Sampling Policy Optimization) hiện thực hóa tầm nhìn này. Thay vì chia sẻ gradient đòi hỏi đồng bộ nặng nề, SAPO chia sẻ quỹ đạo—xem các quỹ đạo nhận được như dữ liệu cục bộ tạo ra. Điều này giảm đáng kể băng thông trong khi vẫn đảm bảo hội tụ ngay cả trên các nút đa dạng với độ trễ lớn. So với critic của PPO hay thậm chí GRPO, SAPO cho phép phần cứng tiêu chuẩn người dùng tham gia hiệu quả vào RL quy mô lớn.
Cách tiếp cận của Gensyn nhấn mạnh rằng RL phân quyền không chỉ là huấn luyện tập trung chuyển sang phần cứng phân tán. Thay vào đó, nó là một mô hình vận hành hoàn toàn khác, trong đó hợp tác xuất phát từ các động lực phù hợp chứ không phải từ lịch trình phối hợp.
Nous Research: Phù hợp xác minh qua môi trường xác định
Nous Research xem hệ thống RL như một nền tảng trí tuệ vòng kín, trong đó huấn luyện, suy luận và môi trường tạo ra phản hồi liên tục. Thành phần Atropos—môi trường RL có thể xác minh—trở thành trụ cột niềm tin. Atropos đóng gói các gợi ý, lời gọi công cụ, thực thi mã, và các dấu vết lý luận trong các môi trường chuẩn, xác minh trực tiếp tính chính xác của đầu ra và tạo ra phần thưởng xác định.
Thiết kế này mang lại nhiều lợi ích: Thứ nhất, loại bỏ chú thích của con người tốn kém. Nhiệm vụ mã hóa trả về tín hiệu pass/fail. Các bài toán toán học cho ra lời giải có thể xác minh. Thứ hai, nó trở thành nền tảng cho RL phân quyền. Trên mạng lưới Psyche của Nous, Atropos đóng vai trò trọng tài xác minh rằng các nút thực sự cải thiện chính sách của họ, cho phép chứng minh có thể kiểm toán của việc học.
Các thành phần của Nous—Hermes (mô hình lý luận), Atropos (xác minh), DisTrO (hiệu quả truyền thông), Psyche (mạng phân quyền), WorldSim (môi trường phức tạp)—cho thấy cách các đổi mới thuật toán và hệ thống kết hợp để thúc đẩy phân quyền. Việc áp dụng DeepHermes với GRPO thay vì PPO đặc biệt nhắm đến khả năng chạy RL suy luận trên mạng phân tán.
Gradient Network: Phản hồi và tính đa dạng phần cứng
Gradient’s Echo tách biệt suy luận và huấn luyện thành các nhóm riêng, mỗi nhóm mở rộng độc lập. Inference Swarm gồm GPU tiêu chuẩn người dùng, sử dụng pipeline để tối đa hóa thông lượng. Training Swarm xử lý cập nhật gradient. Các giao thức đồng bộ nhẹ duy trì tính nhất quán: Chế độ tuần tự ưu tiên độ mới của chính sách cho các tác vụ nhạy độ trễ; chế độ bất đồng bộ tối đa hóa sử dụng.
Thiết kế của Echo nhận thức rõ thực tế: đồng bộ hoàn hảo là không thể trên mạng toàn cầu. Thay vào đó, nó quản lý tính nhất quán phiên bản và xử lý mượt mà các độ trễ của chính sách qua các lựa chọn giao thức. Phương pháp thực dụng này khác biệt với các hệ thống lý tưởng giả định đồng bộ hoàn toàn—Echo làm việc phù hợp với thực tế mạng hơn là chống lại nó.
Bittensor/Grail: Xác minh mật mã của sự phù hợp
Trong hệ sinh thái Bittensor, subnet Covenant AI của Grail giải quyết RLHF/RLAIF phân quyền qua xác minh mật mã. Grail thiết lập chuỗi niềm tin: sinh thử thách xác định ngăn chặn gian lận trước tính toán. Các validator lấy mẫu logprob token và chuỗi suy luận với chi phí tối thiểu, xác nhận quỹ đạo đến từ mô hình đã tuyên bố. Việc liên kết danh tính mô hình đảm bảo rằng việc thay thế mô hình hoặc phát lại kết quả sẽ bị phát hiện ngay lập tức.
Cơ chế ba lớp này tạo ra khả năng kiểm toán mà không cần quyền trung tâm. Quá trình xác minh theo kiểu GRPO tạo ra nhiều đường dẫn suy luận cho mỗi bài toán, chấm điểm dựa trên độ chính xác và chất lượng lý luận, rồi ghi kết quả trên chuỗi như các đóng góp có trọng số đồng thuận.
Fraction AI: Học tập cạnh tranh dựa trên cuộc thi
Phương pháp của Fraction AI đảo ngược cách tiếp cận truyền thống về phù hợp: thay vì phần thưởng cố định từ các mô hình, các tác nhân cạnh tranh trong các môi trường động, nơi chiến lược đối thủ và các trọng tài liên tục tiến hóa. Phần thưởng xuất phát từ hiệu suất tương đối và điểm số của trọng tài AI. Cấu trúc này ngăn chặn việc gian lận mô hình thưởng—mối đe dọa cốt lõi của RLHF truyền thống.
Môi trường chơi game này biến phù hợp thành “dự đoán cạnh tranh”—các tác nhân liên tục tham gia, cạnh tranh, và nhận phần thưởng dựa trên xếp hạng theo thời gian thực. Cấu trúc đa tác nhân này, kết hợp với tối ưu sở thích trực tiếp giữa các tác nhân cạnh tranh, tạo ra sự đa dạng nổi bật và ngăn chặn hội tụ vào cực tiểu cục bộ. Chứng minh có thể kiểm toán (Proof-of-Learning) liên kết cập nhật chính sách với kết quả cạnh tranh cụ thể, đảm bảo tiến trình huấn luyện có thể xác minh.
Tối ưu sở thích trực tiếp: Từ phương pháp phù hợp đến tài sản kinh tế
Tối ưu sở thích trực tiếp (DPO) đặc biệt đáng chú ý vì sự phát triển của nó phản ánh các xu hướng rộng hơn trong phân quyền đào tạo AI.
RLHF truyền thống tạo ra quy trình hai bước: đầu tiên, thu thập cặp sở thích và huấn luyện mô hình thưởng trung tâm; thứ hai, dùng mô hình đó làm mục tiêu tối ưu. Kiến trúc này tích hợp sự tập trung: dữ liệu sở thích chảy qua một điểm trung tâm, tạo ra nút thắt và một nguồn chân lý duy nhất về chất lượng mô hình.
DPO đảo ngược quá trình này. Nó tối ưu trực tiếp các tham số mô hình từ các cặp sở thích mà không cần mô hình thưởng trung gian. Việc đơn giản hóa này mang ý nghĩa sâu sắc. Về mặt vận hành, nó giảm yêu cầu tính toán—không cần huấn luyện mô hình thưởng riêng biệt tiêu tốn tài nguyên. Về mặt tổ chức, nó phân phối quyền lực: dữ liệu sở thích đến từ nhiều nguồn khác nhau mà không cần tập trung bắt buộc. Về mặt kinh tế, nó biến sở thích thành tài sản có thể trao đổi: nếu tín hiệu sở thích thúc đẩy tối ưu chính sách, chúng trở thành các tài sản có giá trị có thể giao dịch.
Trong bối cảnh Web3, điều này còn mạnh mẽ hơn nữa. Các sở thích và mô hình thưởng có thể trở thành tài sản trên chuỗi, có thể quản lý, token hóa và trao đổi. Các cộng đồng bỏ phiếu bằng token về hành vi mong muốn của mô hình. Các smart contract chứa đựng tín hiệu sở thích có thể xác minh cung cấp cầu nối giữa quản trị cộng đồng và hành vi mô hình.
Quy trình RL truyền thống của RLHF → RLAIF → DPO, hay các biến thể của tối ưu sở thích trực tiếp, không phải là một tiến trình tuyến tính mà là một bộ công cụ. RLHF phù hợp cho phù hợp hướng tới con người. RLAIF mở rộng qua đánh giá AI. DPO giảm phụ thuộc hạ tầng. Các phương pháp khác nhau phù hợp với các kịch bản khác nhau. Điểm mấu chốt: hậu đào tạo có nhiều kiến trúc khả thi. Sự đa dạng này tạo ra không gian cho đổi mới phân quyền mà các hệ thống tập trung, tối ưu cho một giải pháp duy nhất, có thể bỏ lỡ.
Mô hình hội tụ: Phân tách, xác minh, động lực
Dù có các điểm xuất phát khác nhau—dù là thuật toán (disTrO của Nous), kỹ thuật hệ thống (prime-rl của Prime Intellect), hay thiết kế thị trường (động lực cạnh tranh của Fraction AI)—các dự án Web3+RL thành công đều hội tụ theo một mẫu kiến trúc nhất quán:
Phân tách các giai đoạn tính toán: Quỹ đạo phân tán tới các tác nhân. Cập nhật chính sách tới các người học tập trung. Xác minh tới các nút chuyên biệt. Cấu trúc này phù hợp cả với yêu cầu vốn có của RL lẫn topology phân tán của Web3.
Niềm tin dựa trên xác minh: Thay vì dựa vào quyền hành hành chính, các bằng chứng mật mã và xác minh xác định thiết lập độ chính xác. Zero-Knowledge proofs xác minh lý luận. Proof-of-Learning xác nhận công việc đã thực sự diễn ra. Điều này tạo ra độ chắc chắn có thể kiểm toán, thay thế niềm tin con người.
Vòng khuyến khích token hóa: Cung cấp tính toán, tạo dữ liệu, xác minh, và phân phối phần thưởng khép kín qua các cơ chế token. Người tham gia đặt cược token, đối mặt với các hình phạt nếu gian lận, và nhận phần thưởng cho đóng góp. Điều này tạo ra các động lực phù hợp mà không cần điều phối trung tâm.
Trong kiến trúc hội tụ này, các dự án khác nhau theo đuổi các “mảng công nghệ” riêng biệt. Nous Research hướng tới “bức tường băng thông”—cắt giảm đáng kể truyền thông gradient để thậm chí mạng băng thông gia đình cũng có thể huấn luyện các mô hình lớn. Prime Intellect và Gensyn theo đuổi kỹ thuật hệ thống xuất sắc, tối đa hóa sử dụng phần cứng đa dạng qua các khung tối ưu. Bittensor và Fraction AI nhấn mạnh thiết kế hàm thưởng, tạo ra các cơ chế chấm điểm phức tạp hướng dẫn hành vi nổi bật.
Tuy nhiên, tất cả đều chia sẻ niềm tin nền tảng: học tăng cường phân quyền không chỉ là huấn luyện tập trung mở rộng ra nhiều máy móc. Đó là một kiến trúc hoàn toàn khác, phù hợp hơn với thực tế kinh tế và kỹ thuật của phù hợp hậu đào tạo.
Thách thức: Thực tế của học tập phân quyền
Sự phù hợp lý thuyết với thực tế đòi hỏi phải giải quyết các giới hạn cấu trúc chưa được giải quyết trong toàn bộ hệ sinh thái.
Giới hạn băng thông: Huấn luyện mô hình siêu lớn (70B+ tham số) vẫn đối mặt với giới hạn độ trễ vật lý. Dù các đổi mới như DisTrO giảm truyền thông hàng nghìn lần, các hệ thống phân quyền hiện tại chủ yếu xuất sắc trong tinh chỉnh và suy luận hơn là huấn luyện các mô hình nền tảng khổng lồ từ đầu. Đây không phải là giới hạn vĩnh viễn mà là biên giới hiện tại. Khi các giao thức truyền thông cải thiện và kiến trúc mô hình (đặc biệt là mô hình thưa) giảm sự phụ thuộc tham số, giới hạn này có thể được nới lỏng.
Luật Goodhart: Trong các mạng có động lực cao, các thành viên dễ bị cám dỗ tối ưu hóa tín hiệu thưởng thay vì trí tuệ thực sự. Các thợ mỏ “đánh farm điểm” bằng cách khai thác các trường hợp đặc biệt của hàm thưởng. Các tác nhân gian lận phản hồi sở thích. Đây không phải là vấn đề mới—các hệ thống tập trung cũng đối mặt với các thách thức gian lận thưởng. Nhưng trong phân quyền, vấn đề này còn phức tạp hơn: kẻ tấn công chỉ cần lừa một thuật toán, không cần phải điều hành tổ chức. Việc thiết kế các hàm thưởng và cơ chế xác minh vững chắc vẫn là cuộc cạnh tranh chống lại các tối ưu hóa xảo quyệt của các tác nhân tự lợi.
Malware Byzantine: Các cuộc tấn công hoạt động của các nút bị xâm phạm có thể làm nhiễu tín hiệu huấn luyện, gây rối quá trình hội tụ. Trong khi xác minh mật mã ngăn chặn một số cuộc tấn công (ví dụ, tuyên bố công việc sai), nó không thể ngăn chặn tất cả các hành vi độc hại (chạy mã đúng nhưng có ý đồ đối nghịch). Độ bền chống lại các tác nhân độc hại trong RL phân quyền vẫn là một lĩnh vực nghiên cứu mở.
Cơ hội thực sự: Viết lại các quan hệ sản xuất trí tuệ
Những thách thức này là có thật nhưng không phải là rào cản không vượt qua được. Cơ hội rộng lớn hơn này xứng đáng với các khoản đầu tư và nghiên cứu liên tục.
Điểm sáng cơ bản là RL kết hợp Web3 không chỉ viết lại công nghệ đào tạo mà còn viết lại các cấu trúc kinh tế và quản trị xung quanh sự phát triển AI. Ba con đường tiến hóa bổ sung nổi bật:
Thứ nhất, mạng đào tạo phân quyền: Công suất tính toán vốn là mỏ trong các hệ thống truyền thống nay biến thành các mạng chính sách. Quá trình sinh quỹ đạo có thể xác minh và song song hóa được outsource ra các GPU dài hạn toàn cầu. Trong ngắn hạn, các thị trường suy luận có thể xác minh sẽ phát triển thành các mạng con RL xử lý nhóm nhiệm vụ và điều phối đa tác nhân. Điều này loại bỏ tính tập trung của hạ tầng tính toán như một rào cản dẫn đến phát triển AI.
Thứ hai, tài sản hóa sở thích và mô hình thưởng: Dữ liệu sở thích chuyển từ “lao động gắn nhãn” trong các mô hình crowdsourcing thành “tài sản vốn”—các tài sản có thể quản lý, trao đổi, ghép nối. Phản hồi chất lượng cao và các mô hình thưởng được chọn lọc kỹ càng trở thành các tài sản số có giá trị kinh tế thực. Các cộng đồng người dùng, thay vì các công ty tập trung, quyết định hành vi AI tốt. Điều này dân chủ hóa sự phù hợp—trước đây tập trung trong các phòng nghiên cứu của doanh nghiệp—và phân phối quyền quản trị rộng rãi hơn.
Thứ ba, các tác nhân chuyên biệt theo ngành: Các tác nhân RL chuyên biệt cho các lĩnh vực hẹp (thực thi chiến lược DeFi, sinh mã, lý luận toán học) có thể vượt trội hơn các mô hình chung trong lĩnh vực của chúng, đặc biệt khi kết quả có thể xác minh và lợi ích có thể định lượng. Các tác nhân này liên kết trực tiếp việc cải thiện chiến lược với giá trị thu được, tạo ra vòng khép kín phù hợp động lực giữa hiệu suất mô hình và lợi nhuận kinh tế. Các tác nhân này có thể được huấn luyện liên tục trên các mạng phân quyền, cập nhật nhanh chóng khi môi trường thay đổi.
Cơ hội tổng thể này khác biệt rõ rệt so với “OpenAI phân quyền”—một khung khái niệm thường gây hiểu lầm. Thay vào đó, nó là việc viết lại các quan hệ sản xuất xung quanh hệ thống trí tuệ. Việc huấn luyện trở thành một thị trường mở về năng lực tính toán. Phần thưởng và sở thích trở thành các tài sản quản lý trên chuỗi. Giá trị—trước đây tập trung trong các nền tảng—được phân phối lại giữa các nhà huấn luyện, những người phù hợp, và người dùng.
Đây không phải là cải tiến từng phần của các hệ thống hiện có. Đó là một cuộc tái cấu trúc cách thức sản xuất, phù hợp, và phân phối giá trị của trí tuệ. Với một công nghệ có ảnh hưởng lớn như trí tuệ chung, ai kiểm soát các cơ chế này mới là điều quan trọng sâu sắc.
Kết luận: Từ quan tâm học thuật đến thực tế kinh tế
Sự hội tụ của RL và kiến trúc Web3 không chỉ là khả năng kỹ thuật—nó phản ánh sự phù hợp sâu sắc giữa cách các hệ thống RL hoạt động và cách các mạng phân quyền phối hợp. Các dự án cụ thể từ Prime Intellect đến Fraction AI chứng minh rằng điều này không còn là lý thuyết. Kiến trúc hoạt động. Mô hình đào tạo. Phần thưởng phân phối. Giá trị chảy về các đóng góp viên.
Các thách thức là có thật: giới hạn băng thông, gian lận thưởng, tấn công Byzantine. Nhưng không có thách thức nào lớn hơn so với các vấn đề mà hệ thống tập trung phải đối mặt. Và hệ thống phân quyền còn mang lại điều mà các phương pháp tập trung không thể: tính hợp pháp quản trị vượt ra ngoài quyền lực của doanh nghiệp, các động lực kinh tế phù hợp với lợi ích thực của các thành phần tham gia, và khả năng đổi mới vượt ra ngoài lộ trình của một công ty duy nhất.
Trong những năm tới, hãy chú ý đến hai chỉ số. Thứ nhất, liệu các mạng phân quyền hậu đào tạo có thể huấn luyện các mô hình đạt trình độ đỉnh cao hay không. Các kết quả gần đây cho thấy khả năng này. Thứ hai, liệu các kiến trúc trí tuệ mới xuất hiện mà trước đây không thể dưới các chế độ đào tạo tập trung. Động lực cạnh tranh của RL—nơi các tác nhân đa dạng khám phá không gian giải pháp—có thể tạo ra các khả năng mà các tác nhân tập trung đơn lẻ không thể đạt được.
Thay đổi thực sự sẽ không rõ ràng ngay lập tức. Nó sẽ không xuất hiện trong các điểm số benchmark hay kích thước mô hình. Thay vào đó, nó sẽ thể hiện qua sự phân phối lại tinh tế: nhiều nhà phát triển AI hơn không làm việc cho các tập đoàn lớn. Các cộng đồng quyết định giá trị mô hình thay vì các hội đồng cố vấn của doanh nghiệp. Giá trị kinh tế chảy về hàng nghìn người đóng góp tạo ra hệ thống trí tuệ, chứ không tập trung trong tay cổ đông.
Đây chính là lời hứa của RL kết hợp Web3—không chỉ là công nghệ, mà là các quan hệ sản xuất mới cho kỷ nguyên trí tuệ.