Học tăng cường: Sự chuyển mình của mạng AI phi tập trung

Tác giả: 0xjacobzhao | https://linktr.ee/0xjacobzhao

Báo cáo nghiên cứu độc lập này được hỗ trợ bởi IOSG Ventures, quá trình nghiên cứu và viết bài chịu ảnh hưởng từ báo cáo nghiên cứu học tăng cường của Sam Lehman (Pantera Capital), cảm ơn Ben Fielding (Gensyn.ai), Gao Yuan (Gradient), Samuel Dare & Erfan Miahi (Covenant AI), Shashank Yadav (Fraction AI), Chao Wang vì những gợi ý quý báu đã đưa ra cho bài viết này. Bài viết mong muốn nội dung khách quan và chính xác, một số quan điểm liên quan đến phán đoán chủ quan, khó tránh khỏi có sai lệch, xin độc giả thông cảm.
Trí tuệ nhân tạo đang chuyển từ việc học thống kê chủ yếu dựa vào "khớp mô hình" sang một hệ thống năng lực lấy "suy diễn có cấu trúc" làm cốt lõi, và tầm quan trọng của đào tạo sau (Post-training) đang nhanh chóng gia tăng. Sự xuất hiện của DeepSeek-R1 đánh dấu sự lật ngược mô hình của học tăng cường trong kỷ nguyên mô hình lớn, hình thành sự đồng thuận trong ngành: việc xây dựng mô hình qua đào tạo trước tạo ra nền tảng năng lực chung, học tăng cường không còn chỉ là công cụ căn chỉnh giá trị, mà đã được chứng minh có thể hệ thống nâng cao chất lượng chuỗi suy diễn và khả năng quyết định phức tạp, đang dần tiến hóa thành con đường công nghệ nâng cao trình độ thông minh một cách liên tục.
Trong khi đó, Web3 đang tái cấu trúc mối quan hệ sản xuất của AI thông qua mạng tính toán phi tập trung và hệ thống khuyến khích mã hóa, trong khi yêu cầu cấu trúc của học tăng cường về việc lấy mẫu rollout, tín hiệu phần thưởng và đào tạo có thể xác minh, hoàn toàn phù hợp với sự hợp tác tính toán của blockchain, phân phối khuyến khích và thực thi có thể xác minh. Báo cáo này sẽ phân tích hệ thống mô hình đào tạo AI và nguyên lý công nghệ học tăng cường, chứng minh lợi thế cấu trúc của RL × Web3, và phân tích các dự án như Prime Intellect, Gensyn, Nous Research, Gradient, Grail và Fraction AI.
I. Ba giai đoạn đào tạo AI: Đào tạo trước, tinh chỉnh hướng dẫn và căn chỉnh đào tạo sau
Chu kỳ toàn bộ của việc đào tạo mô hình ngôn ngữ lớn hiện đại (LLM) thường được chia thành ba giai đoạn cốt lõi: đào tạo trước (Pre-training), tinh chỉnh giám sát (SFT) và đào tạo sau (Post-training/RL). Cả ba đều đảm nhận các chức năng ‘xây dựng mô hình thế giới - tiêm khả năng nhiệm vụ - định hình suy diễn và giá trị’, cấu trúc tính toán, yêu cầu dữ liệu và độ khó xác minh của chúng quyết định mức độ phù hợp với phi tập trung.
Đào tạo trước (Pre-training) thông qua việc học tự giám sát quy mô lớn (Self-supervised Learning) xây dựng cấu trúc thống kê ngôn ngữ của mô hình và mô hình thế giới đa phương thức, là nền tảng cho khả năng của LLM. Giai đoạn này cần được đào tạo theo cách đồng bộ toàn cầu trên tập dữ liệu hàng nghìn tỷ, dựa vào hàng nghìn đến hàng vạn cụm H100 đồng nhất, chi phí chiếm tới 80-95%, cực kỳ nhạy cảm với băng thông và quyền sở hữu dữ liệu, do đó phải hoàn thành trong môi trường tập trung cao độ.
Tinh chỉnh (Supervised Fine-tuning) được sử dụng để tiêm khả năng nhiệm vụ và định dạng hướng dẫn, khối lượng dữ liệu nhỏ, chi phí chiếm khoảng 5-15%, tinh chỉnh có thể thực hiện đào tạo toàn tham số hoặc sử dụng các phương pháp tinh chỉnh hiệu quả tham số (PEFT), trong đó LoRA, Q-LoRA và Adapter là các phương pháp chính trong ngành. Tuy nhiên, vẫn cần đồng bộ gradient, khiến tiềm năng phi tập trung của nó bị hạn chế.
Đào tạo sau (Post-training) bao gồm nhiều giai đoạn lặp, quyết định khả năng suy diễn, giá trị và ranh giới an toàn của mô hình, phương pháp của nó bao gồm cả hệ thống học tăng cường (RLHF, RLAIF, GRPO) và các phương pháp tối ưu hóa theo sở thích không có RL (DPO), cũng như mô hình phần thưởng quá trình (PRM), v.v. Giai đoạn này có khối lượng dữ liệu và chi phí thấp hơn (5-10%), chủ yếu tập trung vào Rollout và cập nhật chính sách; nó tự nhiên hỗ trợ thực thi bất đồng bộ và phân tán, các nút không cần phải sở hữu trọng số đầy đủ, kết hợp với tính toán có thể xác minh và khuyến khích trên chuỗi có thể hình thành một mạng lưới đào tạo phi tập trung mở, là giai đoạn đào tạo thích ứng nhất với Web3.
II. Toàn cảnh công nghệ học tăng cường: kiến trúc, khung và ứng dụng
2.1 Kiến trúc hệ thống của học tăng cường và các khâu cốt lõiHọc tăng cường (Reinforcement Learning, RL) thông qua ‘tương tác môi trường - phản hồi phần thưởng - cập nhật chính sách’ thúc đẩy mô hình tự cải tiến khả năng quyết định, cấu trúc cốt lõi của nó có thể được nhìn nhận là một vòng phản hồi bao gồm trạng thái, hành động, phần thưởng và chính sách. Một hệ thống RL hoàn chỉnh thường bao gồm ba loại thành phần: Chính sách (Policy), Lấy mẫu (Rollout) và Người học (Learner). Chính sách tương tác với môi trường để tạo ra các quỹ đạo, Người học dựa trên tín hiệu phần thưởng để cập nhật chính sách, từ đó tạo thành quá trình học tập liên tục và tối ưu hóa.
Mạng chính sách (Policy): Tạo ra hành động từ trạng thái môi trường, là cốt lõi của quyết định hệ thống. Trong quá trình đào tạo cần duy trì sự nhất quán bằng cách lan truyền ngược tập trung; trong quá trình suy diễn có thể phân phối đến các nút khác nhau để chạy song song.
Lấy mẫu kinh nghiệm (Rollout): Các nút thực hiện tương tác môi trường dựa trên chính sách, tạo ra các quỹ đạo trạng thái - hành động - phần thưởng, quy trình này có tính chất song song cao, giao tiếp rất thấp, không nhạy cảm với sự khác biệt phần cứng, là giai đoạn phù hợp nhất để mở rộng trong môi trường phi tập trung.
Người học (Learner): Tổng hợp tất cả quỹ đạo Rollout và thực hiện cập nhật gradient của chính sách, là mô-đun có yêu cầu cao nhất về sức mạnh tính toán và băng thông, do đó thường duy trì triển khai tập trung hoặc nhẹ để đảm bảo tính ổn định hội tụ.
2.2 Khung giai đoạn học tăng cường (RLHF → RLAIF → PRM → GRPO)Học tăng cường thường có thể được chia thành năm giai đoạn, quy trình tổng thể như sau:
Giai đoạn tạo dữ liệu (Policy Exploration): Dưới điều kiện đầu vào đã cho, mô hình chính sách πθ tạo ra nhiều chuỗi suy diễn ứng cử hoặc quỹ đạo hoàn chỉnh, cung cấp cơ sở mẫu cho đánh giá sở thích và mô hình hóa phần thưởng, quyết định độ rộng của khám phá chính sách.
Giai đoạn phản hồi sở thích (RLHF / RLAIF):
RLHF (Reinforcement Learning from Human Feedback) thông qua nhiều câu trả lời ứng cử, ghi chú sở thích nhân tạo, đào tạo mô hình phần thưởng (RM) và tối ưu hóa chính sách bằng PPO, giúp mô hình đầu ra phù hợp hơn với các giá trị của con người, là một phần quan trọng trong sự chuyển đổi từ GPT-3.5 sang GPT-4.
RLAIF (Reinforcement Learning from AI Feedback) thay thế việc ghi chú nhân tạo bằng AI Judge hoặc các quy tắc kiểu hiến pháp, tự động hóa việc thu thập sở thích, giảm đáng kể chi phí và có khả năng quy mô, đã trở thành khuôn mẫu căn chỉnh chính trong Anthropic, OpenAI, DeepSeek, v.v.
Giai đoạn mô hình hóa phần thưởng (Reward Modeling): Sở thích đối với mô hình phần thưởng đầu vào, học cách ánh xạ đầu ra thành phần thưởng. RM dạy mô hình ‘cái gì là câu trả lời đúng’, PRM dạy mô hình ‘cách suy diễn đúng’.
RM (Reward Model) dùng để đánh giá chất lượng của đáp án cuối cùng, chỉ chấm điểm cho đầu ra:
Mô hình phần thưởng quá trình PRM (Process Reward Model) không chỉ đánh giá đáp án cuối cùng mà còn chấm điểm cho từng bước suy diễn, từng token, từng đoạn logic, cũng là công nghệ cốt lõi của OpenAI o1 và DeepSeek-R1, về bản chất là ‘dạy mô hình cách suy nghĩ’.
Giai đoạn xác minh phần thưởng (RLVR / Reward Verifiability): Trong quá trình tạo và sử dụng tín hiệu phần thưởng, giới thiệu ‘các ràng buộc có thể xác minh’, khiến phần thưởng càng có thể đến từ các quy tắc, sự thật hoặc đồng thuận có thể tái hiện, từ đó giảm thiểu rủi ro hack phần thưởng và thiên lệch, đồng thời nâng cao khả năng kiểm toán và khả năng mở rộng trong môi trường mở.
Giai đoạn tối ưu hóa chính sách (Policy Optimization): Dưới sự hướng dẫn của tín hiệu từ mô hình phần thưởng, cập nhật tham số chính sách θ, nhằm có được khả năng suy diễn mạnh mẽ hơn, an toàn hơn và mô hình hành vi ổn định hơn, các phương pháp tối ưu hóa chính bao gồm:
PPO (Proximal Policy Optimization): Bộ tối ưu hóa truyền thống của RLHF, nổi bật về tính ổn định, nhưng thường gặp khó khăn trong việc hội tụ chậm, tính ổn định không đủ trong các nhiệm vụ suy diễn phức tạp.
GRPO (Group Relative Policy Optimization): Là đổi mới cốt lõi của DeepSeek-R1, thông qua việc mô hình hóa phân phối lợi thế trong nhóm các câu trả lời ứng cử để ước tính giá trị kỳ vọng, chứ không chỉ đơn giản là xếp hạng. Phương pháp này giữ lại thông tin về độ lớn phần thưởng, thích hợp hơn cho việc tối ưu hóa chuỗi suy diễn, quá trình đào tạo ổn định hơn, được coi là khung tối ưu hóa học tăng cường quan trọng cho các cảnh quan suy diễn sâu, sau PPO.
DPO (Direct Preference Optimization): Phương pháp đào tạo sau không phải học tăng cường: không tạo ra quỹ đạo, không xây dựng mô hình phần thưởng, mà trực tiếp tối ưu trên sở thích, chi phí thấp, hiệu quả ổn định, do đó được sử dụng rộng rãi cho việc căn chỉnh các mô hình mã nguồn mở như Llama, Gemma, nhưng không nâng cao khả năng suy diễn.
Giai đoạn triển khai chính sách mới (New Policy Deployment): Sau khi tối ưu hóa, mô hình thể hiện dưới dạng: khả năng tạo ra chuỗi suy diễn mạnh mẽ hơn (System-2 Reasoning), hành vi phù hợp hơn với sở thích của con người hoặc AI, tỷ lệ ảo giác thấp hơn, an toàn hơn. Mô hình liên tục học hỏi sở thích, tối ưu hóa quá trình, nâng cao chất lượng quyết định, hình thành vòng khép kín.
2.3 Năm loại ứng dụng công nghiệp của học tăng cườngHọc tăng cường (Reinforcement Learning) đã phát triển từ trí thông minh trò chơi ban đầu thành khuôn khổ quyết định tự chủ xuyên ngành, các lĩnh vực ứng dụng của nó được phân loại theo mức độ trưởng thành công nghệ và khả năng áp dụng trong ngành, có thể được tóm tắt thành năm loại, và đã thúc đẩy các đột phá quan trọng trong mỗi hướng.
Hệ thống trò chơi và chiến lược (Game & Strategy): Là hướng đầu tiên mà RL đã được xác minh, trong các môi trường ‘thông tin hoàn hảo + phần thưởng rõ ràng’ như AlphaGo, AlphaZero, AlphaStar, OpenAI Five, RL đã thể hiện trí thông minh quyết định có thể sánh ngang hoặc thậm chí vượt qua các chuyên gia con người, đặt nền tảng cho các thuật toán RL hiện đại.
Robot và trí thông minh thể chất (Embodied AI): RL thông qua điều khiển liên tục, mô hình hóa động lực và tương tác môi trường, giúp robot học cách điều khiển, kiểm soát chuyển động và các nhiệm vụ đa phương thức (như RT-2, RT-X), đang nhanh chóng tiến tới công nghiệp hóa, là tuyến đường kỹ thuật chính để robot thực hiện trong thế giới thực.
Lý luận số (Digital Reasoning / LLM System-2): RL + PRM thúc đẩy các mô hình lớn từ ‘bắt chước ngôn ngữ’ tiến tới ‘suy diễn có cấu trúc’, các kết quả tiêu biểu bao gồm DeepSeek-R1, OpenAI o1/o3, Anthropic Claude và AlphaGeometry, bản chất của nó là tối ưu hóa phần thưởng ở cấp độ chuỗi suy diễn, chứ không chỉ đánh giá đáp án cuối cùng.
Khám phá khoa học tự động và tối ưu hóa toán học (Scientific Discovery): RL tìm kiếm cấu trúc hoặc chiến lược tối ưu trong không có nhãn, phần thưởng phức tạp và không gian tìm kiếm khổng lồ, đã đạt được các đột phá cơ bản như AlphaTensor, AlphaDev, Fusion RL, thể hiện khả năng khám phá vượt qua trực giác của con người.
Hệ thống ra quyết định kinh tế và giao dịch (Economic Decision-making & Trading): RL được sử dụng trong tối ưu hóa chiến lược, kiểm soát rủi ro chiều cao và tạo ra hệ thống giao dịch thích ứng, so với các mô hình định lượng truyền thống, có khả năng học liên tục trong môi trường không chắc chắn, là một phần quan trọng của tài chính thông minh.
III. Sự phù hợp tự nhiên giữa học tăng cường và Web3
Sự kết hợp giữa học tăng cường (RL) và Web3, về bản chất là viết lại cơ chế ‘trí thông minh được sản xuất, căn chỉnh và phân phối giá trị như thế nào’. Đường đi tiến hóa của nó có thể được tóm tắt thành ba hướng bổ sung:
Tách rời suy diễn và đào tạo: Quá trình đào tạo của học tăng cường có thể được phân tách rõ ràng thành hai giai đoạn:
Rollout (lấy mẫu khám phá): Mô hình tạo ra một lượng lớn dữ liệu dựa trên chính sách hiện tại, là nhiệm vụ tính toán dày đặc nhưng giao tiếp thưa thớt. Nó không yêu cầu giao tiếp thường xuyên giữa các nút, phù hợp để tạo ra song song trên GPU tiêu dùng phân tán toàn cầu.
Cập nhật (cập nhật tham số): Dựa trên dữ liệu thu thập được để cập nhật trọng số mô hình, yêu cầu nút trung tâm hóa băng thông cao hoàn thành.
‘Tách rời suy diễn - đào tạo’ tự nhiên phù hợp với cấu trúc tính toán dị thể phi tập trung: Rollout có thể được thuê ra cho mạng mở, thanh toán theo đóng góp qua cơ chế token, trong khi việc cập nhật mô hình vẫn duy trì tập trung để đảm bảo tính ổn định.
Khả năng xác minh (Verifiability): ZK và Proof-of-Learning cung cấp các phương tiện để xác minh liệu nút có thực sự thực hiện suy diễn hay không, giải quyết vấn đề trung thực trong mạng mở. Trong các nhiệm vụ xác định như mã, suy diễn toán học, v.v., các xác minh viên chỉ cần kiểm tra câu trả lời để xác nhận khối lượng công việc, làm tăng đáng kể độ tin cậy của hệ thống RL phi tập trung.
Lớp khuyến khích, dựa trên cơ chế sản xuất phản hồi token: Cơ chế token của Web3 có thể trực tiếp thưởng cho những người đóng góp phản hồi sở thích của RLHF/RLAIF, khiến việc tạo dữ liệu sở thích có cấu trúc khuyến khích minh bạch, có thể thanh toán và không cần sự cho phép; staking và slashing further constraints feedback quality, forming a more efficient and aligned feedback market than traditional crowdsourcing.
Tiềm năng học tăng cường đa tác nhân (MARL): Blockchain bản chất là một môi trường đa tác nhân công khai, minh bạch và liên tục tiến hóa, tài khoản, hợp đồng và tác nhân liên tục điều chỉnh chính sách dưới động lực khuyến khích, khiến nó tự nhiên có khả năng xây dựng các thí nghiệm MARL quy mô lớn. Mặc dù vẫn còn trong giai đoạn đầu, nhưng các đặc điểm công khai, khả năng thực thi có thể xác minh và khuyến khích có thể lập trình đã cung cấp lợi thế nguyên tắc cho sự phát triển của MARL trong tương lai.
IV. Phân tích các dự án học tăng cường + Web3 cổ điển
Dựa trên khung lý thuyết nêu trên, chúng tôi sẽ thực hiện phân tích ngắn gọn về các dự án đại diện nhất trong hệ sinh thái hiện tại:
Prime Intellect: Mô hình học tăng cường phi đồng bộ prime-rlPrime Intellect cam kết xây dựng một thị trường tính toán mở toàn cầu, giảm bớt rào cản đào tạo, thúc đẩy đào tạo phân tán hợp tác, và phát triển một ngăn xếp công nghệ siêu thông minh mã nguồn mở hoàn chỉnh. Hệ thống của nó bao gồm: Prime Compute (môi trường tính toán đám mây/phân tán thống nhất), gia đình mô hình INTELLECT (10B–100B+), trung tâm môi trường học tăng cường mở (Environments Hub), và động cơ dữ liệu tổng hợp quy mô lớn (SYNTHETIC-1/2).
Các thành phần cơ sở hạ tầng cốt lõi của Prime Intellect, khung prime-rl được thiết kế đặc biệt cho môi trường phân tán phi đồng bộ và liên quan chặt chẽ đến học tăng cường, những cái còn lại bao gồm giao thức giao tiếp OpenDiLoCo vượt qua giới hạn băng thông, cơ chế xác minh TopLoc đảm bảo tính toàn vẹn của tính toán, v.v.
Tổng quan về các thành phần cơ sở hạ tầng cốt lõi của Prime Intellect
Cơ sở kỹ thuật: khung học tăng cường phi đồng bộ prime-rl
prime-rl là động cơ đào tạo cốt lõi của Prime Intellect, được thiết kế đặc biệt cho môi trường phân tán phi đồng bộ quy mô lớn, thông qua Actor–Learner hoàn toàn tách rời để đạt được suy diễn có thông lượng cao và cập nhật ổn định. Người thực hiện (Rollout Worker) và Người học (Trainer) không còn bị chặn đồng bộ, các nút có thể tham gia hoặc rời khỏi bất cứ lúc nào, chỉ cần liên tục kéo chính sách mới nhất và tải lên dữ liệu đã tạo.
Người thực hiện (Actor) (Rollout Workers): Chịu trách nhiệm suy diễn mô hình và tạo dữ liệu. Prime Intellect sáng tạo tích hợp động cơ suy diễn vLLM tại đầu Actor. Công nghệ Attention theo trang và khả năng xử lý lô liên tục (Continuous Batching) của vLLM cho phép Actor tạo ra các quỹ đạo suy diễn với tốc độ rất cao.
Người học (Learner) (Trainer): Chịu trách nhiệm tối ưu hóa chính sách. Người học kéo dữ liệu từ bộ đệm hồi phục kinh nghiệm (Experience Buffer) chia sẻ một cách bất đồng bộ để thực hiện cập nhật gradient, không cần chờ tất cả các Actor hoàn thành lô hiện tại.
Người điều phối (Orchestrator): Chịu trách nhiệm điều phối trọng số mô hình và dòng dữ liệu.
Điểm đổi mới chính của prime-rl:
Hoàn toàn phi đồng bộ (True Asynchrony): prime-rl từ bỏ mô hình đồng bộ truyền thống của PPO, không chờ đợi các nút chậm, không cần đồng bộ theo lô, cho phép bất kỳ số lượng và hiệu suất GPU nào cũng có thể được tham gia bất cứ lúc nào, đặt nền tảng cho tính khả thi của RL phi tập trung.
Tích hợp sâu FSDP2 và MoE: Thông qua phân đoạn tham số FSDP2 và kích hoạt thưa MoE, prime-rl cho phép các mô hình quy mô hàng tỷ được đào tạo hiệu quả trong môi trường phân tán, chỉ cho phép các chuyên gia hoạt động, giảm đáng kể chi phí bộ nhớ và suy diễn.
GRPO+ (Group Relative Policy Optimization): GRPO miễn trừ mạng Critic, giảm đáng kể chi phí tính toán và bộ nhớ, tự nhiên thích ứng với môi trường phi đồng bộ, GRPO+ của prime-rl còn đảm bảo hội tụ đáng tin cậy dưới điều kiện độ trễ cao thông qua cơ chế ổn định.
Gia đình mô hình INTELLECT: Dấu hiệu trưởng thành của công nghệ RL phi tập trung
INTELLECT-1 (10B, tháng 10 năm 2024) lần đầu tiên chứng minh rằng OpenDiLoCo có thể đào tạo hiệu quả trong mạng lưới dị thể xuyên ba châu (giao tiếp chiếm <2%, tỷ lệ sử dụng tính toán 98%), phá vỡ nhận thức vật lý về đào tạo xuyên vùng miền;
INTELLECT-2 (32B, tháng 4 năm 2025) là mô hình RL đầu tiên không cần cấp phép, xác minh khả năng hội tụ ổn định của prime-rl và GRPO+ trong môi trường độ trễ đa bước và bất đồng bộ, đạt được sự tham gia tính toán mở toàn cầu cho RL phi tập trung;
INTELLECT-3 (106B MoE, tháng 11 năm 2025) sử dụng kiến trúc thưa chỉ kích hoạt 12B tham số, đào tạo trên 512×H200 và đạt được hiệu suất suy diễn hàng đầu (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%, v.v.), hiệu suất tổng thể đã tiếp cận thậm chí vượt qua các mô hình đóng kín trung tâm lớn hơn nhiều lần.
Ngoài ra, Prime Intellect cũng đã xây dựng một số cơ sở hạ tầng hỗ trợ: OpenDiLoCo giảm hàng trăm lần khối lượng giao tiếp của đào tạo xuyên vùng miền thông qua giao tiếp thưa thớt theo thời gian và sự khác biệt trọng số, khiến INTELLECT-1 vẫn giữ được 98% tỷ lệ sử dụng trên mạng ba châu; TopLoc + Verifiers hình thành lớp thực thi đáng tin cậy phi tập trung, nhằm kích hoạt xác thực dấu vân tay và hộp cát đảm bảo độ chính xác của suy diễn và dữ liệu phần thưởng; Động cơ dữ liệu SYNTHETIC sản xuất các chuỗi suy diễn chất lượng cao quy mô lớn và cho phép các mô hình 671B chạy hiệu quả trên cụm GPU tiêu dùng thông qua song song theo dòng. Những thành phần này cung cấp nền tảng kỹ thuật quan trọng cho việc tạo dữ liệu, xác minh và thông lượng suy diễn của RL phi tập trung. Dòng sản phẩm INTELLECT chứng minh rằng công nghệ này có thể tạo ra các mô hình cấp thế giới trưởng thành, đánh dấu sự chuyển đổi từ giai đoạn khái niệm sang giai đoạn thực tiễn trong hệ thống đào tạo phi tập trung.
Gensyn: Học tăng cường cốt lõi RL Swarm và SAPOMục tiêu của Gensyn là tập hợp các tài nguyên tính toán không sử dụng trên toàn cầu thành một cơ sở hạ tầng đào tạo AI mở, không cần tin tưởng và có thể mở rộng vô hạn. Cốt lõi của nó bao gồm lớp thực thi chuẩn hóa qua các thiết bị, mạng phối hợp ngang hàng và hệ thống xác minh nhiệm vụ không cần tin tưởng, và tự động phân phối nhiệm vụ và phần thưởng thông qua hợp đồng thông minh. Xung quanh các đặc điểm của học tăng cường, Gensyn đã đưa vào các cơ chế cốt lõi như RL Swarm, SAPO và SkipPipe, tách rời ba giai đoạn tạo ra, đánh giá và cập nhật, sử dụng “đàn” gồm các GPU dị thể toàn cầu để thực hiện tiến hóa tập thể. Những gì mà nó cuối cùng giao hàng không chỉ là sức mạnh tính toán đơn thuần, mà là trí thông minh có thể xác minh (Verifiable Intelligence).
Ứng dụng học tăng cường của Gensyn
RL Swarm: Động cơ học tăng cường hợp tác phi tập trung
RL Swarm thể hiện một mô hình hợp tác hoàn toàn mới. Nó không còn đơn giản là phân phối nhiệm vụ, mà là một vòng lặp ‘tạo ra - đánh giá - cập nhật’ phân tán mô phỏng việc học của xã hội loài người, tương tự như quá trình học tập hợp tác, lặp đi lặp lại vô hạn:
Các người giải quyết (Solvers): Chịu trách nhiệm thực hiện suy diễn mô hình và tạo Rollout, các nút dị thể không gặp trở ngại. Gensyn tích hợp động cơ suy diễn cao thông lượng (như CodeZero) tại địa phương, cho phép xuất ra các quỹ đạo hoàn chỉnh chứ không chỉ đáp án.
Các người đề xuất (Proposers): Tạo động các nhiệm vụ (câu hỏi toán học, vấn đề mã, v.v.), hỗ trợ đa dạng nhiệm vụ và thích ứng độ khó kiểu Curriculum Learning.
Các người đánh giá (Evaluators): Sử dụng ‘mô hình trọng tài’ hoặc quy tắc đã đóng băng để đánh giá Rollout tại địa phương, tạo ra tín hiệu phần thưởng tại địa phương. Quá trình đánh giá có thể được kiểm toán, giảm thiểu không gian gian lận.
Ba thành phần này tạo thành một cấu trúc tổ chức RL P2P, không cần lập lịch tập trung để hoàn thành việc học tập hợp tác quy mô lớn.
SAPO: Thuật toán tối ưu hóa chính sách tái cấu trúc cho phi tập trung: SAPO (Swarm Sampling Policy Optimization) có trọng tâm là ‘chia sẻ Rollout và lọc các mẫu tín hiệu không có độ dốc, thay vì chia sẻ độ dốc’, thông qua việc lấy mẫu Rollout decentral hóa quy mô lớn, và coi Rollout nhận được như được tạo ra tại địa phương, do đó duy trì sự hội tụ ổn định trong môi trường không có điều phối trung tâm, với sự khác biệt độ trễ giữa các nút rõ rệt. So với PPO, dựa vào mạng Critic và chi phí tính toán cao, hoặc GRPO, dựa trên ước lượng lợi thế trong nhóm, SAPO cho phép GPU tiêu dùng cấp phép cũng có thể tham gia hiệu quả vào tối ưu hóa học tăng cường quy mô lớn với băng thông cực thấp.
Thông qua RL Swarm và SAPO, Gensyn đã chứng minh rằng học tăng cường (đặc biệt là giai đoạn đào tạo sau của RLVR) tự nhiên thích nghi với cấu trúc phi tập trung - vì nó phụ thuộc nhiều hơn vào việc khám phá quy mô lớn và đa dạng (Rollout), hơn là đồng bộ tham số tần suất cao. Kết hợp hệ thống xác minh của PoL và Verde, Gensyn đã cung cấp một con đường thay thế cho việc đào tạo mô hình tham số hàng ngàn tỷ mà không còn phụ thuộc vào một gã khổng lồ công nghệ duy nhất: một mạng siêu thông minh tự tiến hóa được tạo thành từ hàng triệu GPU dị thể trên toàn cầu.
Nous Research: Môi trường học tăng cường có thể xác minh AtroposNous Research đang xây dựng một cơ sở hạ tầng nhận thức phi tập trung, có khả năng tự tiến hóa. Các thành phần cốt lõi - Hermes, Atropos, DisTrO, Psyche và World Sim được tổ chức thành một hệ thống tiến hóa thông minh liên tục. Khác với quy trình tuyến tính “đào tạo trước - đào tạo sau - suy diễn” truyền thống, Nous áp dụng các công nghệ học tăng cường như DPO, GRPO, và lấy mẫu từ chối, thống nhất việc tạo dữ liệu, xác minh, học tập và suy diễn thành một vòng phản hồi liên tục, tạo ra một hệ sinh thái AI có khả năng tự cải tiến liên tục.
Tổng quan về thành phần của Nous Research
Cấp độ mô hình: Sự tiến hóa của Hermes và khả năng suy diễn
Dòng sản phẩm Hermes là giao diện mô hình chính của Nous Research, sự tiến hóa của nó rõ ràng cho thấy ngành công nghiệp đã chuyển từ căn chỉnh SFT/DPO truyền thống sang học tăng cường suy diễn (Reasoning RL):
Hermes 1–3: Căn chỉnh hướng dẫn và khả năng đại lý sớm: Hermes 1–3 dựa vào DPO chi phí thấp để hoàn thiện căn chỉnh hướng dẫn vững chắc, và trong Hermes 3 nhờ vào dữ liệu tổng hợp và cơ chế xác minh Atropos lần đầu tiên được giới thiệu.
Hermes 4 / DeepHermes: Thông qua chuỗi tư duy để ghi lại suy nghĩ chậm kiểu System-2 vào trọng số, nhằm thúc đẩy hiệu suất toán học và mã thông qua Test-Time Scaling, và dựa vào ‘lấy mẫu từ chối + xác minh Atropos’ để xây dựng dữ liệu suy diễn tinh khiết cao.
DeepHermes còn áp dụng GRPO thay thế cho PPO khó triển khai phân tán, cho phép suy diễn RL hoạt động trên mạng GPU phi tập trung Psyche, đặt nền tảng kỹ thuật cho việc mở rộng suy diễn RL mã nguồn mở.
Atropos: Môi trường học tăng cường có thể xác minh dựa trên phần thưởng
Atropos là trung tâm thực sự của hệ thống RL của Nous. Nó đóng gói các nhắc nhở, gọi công cụ, thực thi mã và tương tác nhiều vòng thành môi trường RL chuẩn hóa, có thể xác minh đầu ra có đúng hay không, từ đó cung cấp tín hiệu phần thưởng xác định, thay thế cho việc ghi chú con người tốn kém và không thể mở rộng. Quan trọng hơn, trong mạng đào tạo phi tập trung Psyche, Atropos đóng vai trò là ‘trọng tài’, để xác minh xem các nút có thực sự nâng cao chiến lược hay không, hỗ trợ chứng minh có thể kiểm toán Proof-of-Learning, từ đó giải quyết triệt để vấn đề độ tin cậy của phần thưởng trong RL phân tán.
DisTrO và Psyche: Lớp tối ưu hóa học tăng cường phi tập trung
Việc đào tạo truyền thống RLF (RLHF/RLAIF) phụ thuộc vào các cụm băng thông cao tập trung, đây là rào cản cốt lõi không thể sao chép đối với mã nguồn mở. DisTrO thông qua tách rời động và nén gradient, giảm chi phí giao tiếp của RL xuống vài bậc, cho phép đào tạo hoạt động trên băng thông internet; Psyche triển khai cơ chế đào tạo này trên mạng chuỗi, cho phép các nút hoàn thành suy diễn, xác minh, đánh giá phần thưởng và cập nhật trọng số tại địa phương, tạo ra một vòng khép kín RL hoàn chỉnh.
Trong hệ thống của Nous, Atropos xác minh chuỗi tư duy; DisTrO nén truyền thông đào tạo; Psyche vận hành vòng lặp RL; World Sim cung cấp môi trường phức tạp; Forge thu thập suy diễn thực tế; Hermes ghi lại tất cả việc học vào trọng số. Học tăng cường không chỉ là một giai đoạn đào tạo, mà là giao thức cốt lõi kết nối dữ liệu, môi trường, mô hình và cơ sở hạ tầng trong kiến trúc của Nous, cho phép Hermes trở thành một hệ thống sống có thể tự cải tiến liên tục trên mạng tính toán mã nguồn mở.
Mạng Gradient: Kiến trúc học tăng cường EchoTầm nhìn cốt lõi của Mạng Gradient là xây dựng lại mô hình tính toán của AI thông qua ‘ngăn xếp giao thức thông minh mở’ (Open Intelligence Stack). Ngăn xếp công nghệ của Gradient bao gồm một tập hợp các giao thức cốt lõi có thể tiến hóa độc lập và hợp tác dị thể. Hệ thống của nó từ giao tiếp cơ sở đến hợp tác thông minh cấp cao lần lượt bao gồm: Parallax (suy diễn phân tán), Echo (đào tạo RL phi tập trung), Lattica (mạng P2P), SEDM / Massgen / Symphony / CUAHarm (kí ức, hợp tác, an toàn), VeriLLM (xác minh đáng tin cậy), Mirage (mô phỏng độ chính xác cao), cùng nhau tạo thành cơ sở hạ tầng thông minh phi tập trung liên tục tiến hóa.
Echo - Kiến trúc đào tạo học tăng cường
Echo là khung học tăng cường của Gradient, lý tưởng thiết kế cốt lõi của nó là tách rời các con đường đào tạo, suy diễn và dữ liệu (phần thưởng) trong học tăng cường, khiến việc tạo Rollout, tối ưu hóa chính sách và đánh giá phần thưởng có thể mở rộng và điều phối độc lập trong các môi trường dị thể. Chạy đồng thời trong mạng lưới dị thể bao gồm các nút suy diễn và đào tạo, duy trì tính ổn định của đào tạo trong môi trường rộng lớn và dị thể thông qua cơ chế đồng bộ nhẹ, hiệu quả giảm thiểu sự thất bại của SPMD và nút thắt trong việc sử dụng GPU do việc chạy trộn lẫn suy diễn và đào tạo trong DeepSpeed RLHF / VERL truyền thống.
Echo sử dụng ‘kiến trúc hai nhóm suy diễn - đào tạo’ để tối đa hóa việc sử dụng sức mạnh tính toán, hai nhóm hoạt động độc lập, không chặn nhau:
Tối đa hóa thông lượng lấy mẫu: Tốp suy diễn Inference Swarm được tạo thành từ GPU tiêu dùng và thiết bị biên, thông qua Parallax để xây dựng bộ lấy mẫu cao thông lượng theo pipeline-parallel, tập trung vào việc tạo ra quỹ đạo;
Tối đa hóa sức mạnh tính toán gradient: Tốp đào tạo Training Swarm bao gồm mạng GPU tiêu dùng có thể hoạt động trên cụm trung tâm hóa hoặc nhiều địa điểm toàn cầu, phụ trách cập nhật gradient, đồng bộ tham số và tinh chỉnh LoRA, tập trung vào quá trình học.
Để duy trì sự nhất quán giữa chiến lược và dữ liệu, Echo cung cấp hai loại giao thức đồng bộ nhẹ: tuần tự (Sequential) và bất đồng bộ (Asynchronous), thực hiện quản lý sự nhất quán hai chiều giữa trọng số chiến lược và quỹ đạo:
Chế độ kéo tuần tự (Pull) | Ưu tiên độ chính xác: Bên đào tạo yêu cầu các nút suy diễn làm mới phiên bản mô hình trước khi kéo các quỹ đạo mới, nhằm đảm bảo độ tươi mới của quỹ đạo, phù hợp với những nhiệm vụ nhạy cảm cao với chiến lược cũ;
Chế độ đẩy-kéo (Push–Pull) | Ưu tiên hiệu suất: Bên suy diễn liên tục tạo ra các quỹ đạo có nhãn phiên bản, bên đào tạo tiêu thụ theo nhịp độ của chính mình, bộ điều phối theo dõi độ lệch phiên bản và kích hoạt làm mới trọng số, tối đa hóa khả năng sử dụng thiết bị.
Ở cấp độ cơ sở, Echo được xây dựng trên Parallax (suy diễn dị thể trong môi trường băng thông thấp) và các thành phần đào tạo phân tán nhẹ (như VERL), dựa vào LoRA để giảm chi phí đồng bộ giữa các nút, cho phép học tăng cường hoạt động ổn định trong mạng lưới dị thể toàn cầu.
Grail: Học tăng cường trong hệ sinh thái BittensorBittensor thông qua cơ chế đồng thuận Yuma độc đáo của mình, xây dựng một mạng lưới phần thưởng khổng lồ, thưa thớt và không ổn định.
Covenant AI trong hệ sinh thái Bittensor đã xây dựng từ SN3 Templar, SN39 Basilica và SN81 Grail thành một quy trình tích hợp dọc từ đào tạo trước đến đào tạo sau của RL. Trong đó, SN3 Templar phụ trách đào tạo trước cho mô hình cơ bản, SN39 Basilica cung cấp thị trường tính toán phân tán, còn SN81 Grail là ‘lớp suy diễn có thể xác minh’ hướng tới đào tạo sau của RLHF / RLAIF, hoàn thành việc tối ưu hóa từ mô hình cơ bản đến chiến lược căn chỉnh.
Mục tiêu của GRAIL là chứng minh tính xác thực của mỗi lần rollout học tăng cường bằng cách sử dụng mật mã, đảm bảo rằng RLHF có thể được thực hiện an toàn trong môi trường không cần tin tưởng. Giao thức thiết lập chuỗi tin cậy thông qua ba cơ chế:
Tạo thử thách xác định: Sử dụng đèn hiệu ngẫu nhiên drand và hash khối để tạo ra các nhiệm vụ thử thách không thể dự đoán nhưng có thể tái hiện (như SAT, GSM8K), ngăn chặn gian lận tiền tính toán;
Thông qua lấy mẫu chỉ mục PRF và cam kết sketch, cho phép các xác minh viên kiểm tra với chi phí cực thấp logprob cấp token và chuỗi suy diễn, xác nhận rằng Rollout thực sự được tạo ra bởi mô hình đã tuyên bố.
Ràng buộc danh tính mô hình: Liên kết quy trình suy diễn với dấu vân tay trọng số và phân phối token của mô hình, đảm bảo rằng việc thay thế mô hình hoặc phát lại kết quả sẽ ngay lập tức bị nhận diện. Từ đó, cung cấp nền tảng xác thực cho các quỹ đạo suy diễn (rollout) trong RL.
Dựa trên cơ chế này, mạng con Grail đã thực hiện quy trình đào tạo sau có thể xác minh theo phong cách GRPO: các thợ mỏ tạo ra nhiều đường đi suy diễn cho cùng một câu hỏi, các xác minh viên đánh giá dựa trên độ chính xác, chất lượng chuỗi suy diễn và điểm số độ thỏa mãn SAT, và ghi lại kết quả chuẩn hóa vào chuỗi, như là trọng số TAO. Thí nghiệm công khai cho thấy, khung này đã nâng cao độ chính xác MATH của Qwen2.5-1.5B từ 12.7% lên 47.6%, chứng minh rằng nó không chỉ chống gian lận mà còn tăng cường đáng kể khả năng của mô hình. Trong ngăn xếp đào tạo của Covenant AI, Grail là nền tảng tin cậy và thực thi của RLVR/RLAIF phi tập trung, hiện vẫn chưa chính thức lên mạng chính.
Fraction AI: Học tăng cường dựa trên cạnh tranh RLFCCấu trúc của Fraction AI rõ ràng xoay quanh học tăng cường cạnh tranh (Reinforcement Learning from Competition, RLFC) và nhãn dữ liệu trò chơi, thay thế phần thưởng tĩnh và ghi chú nhân tạo truyền thống của RLHF bằng một môi trường cạnh tranh mở và động. Các tác nhân đối kháng trong các không gian khác nhau, thứ hạng tương đối của chúng và điểm số của thẩm phán AI cùng tạo thành phần thưởng thời gian thực, khiến quá trình căn chỉnh trở thành một hệ thống trò chơi nhiều tác nhân trực tuyến liên tục.
Sự khác biệt cốt lõi giữa RLHF truyền thống và RLFC của Fraction AI:
Giá trị cốt lõi của RLFC là phần thưởng không còn đến từ một mô hình duy nhất, mà từ những đối thủ và người đánh giá liên tục tiến hóa, tránh việc mô hình phần thưởng bị lợi dụng, và thông qua sự đa dạng của chiến lược ngăn chặn hệ sinh thái rơi vào tối ưu địa phương. Cấu trúc của Spaces quyết định tính chất của trò chơi (zero-sum hoặc positive-sum), thúc đẩy sự phát sinh hành vi phức tạp trong sự đối kháng và hợp tác.
Về kiến trúc hệ thống, Fraction AI đã phân tách quy trình đào tạo thành bốn thành phần chính:
Tác nhân (Agents): Các đơn vị chiến lược nhẹ dựa trên LLM mã nguồn mở, mở rộng thông qua trọng số khác biệt bằng QLoRA, cập nhật chi phí thấp;
Không gian (Spaces): Môi trường nhiệm vụ tách biệt, tác nhân phải trả phí để vào và nhận phần thưởng dựa trên thắng thua;
Thẩm phán AI (AI Judges): Lớp phần thưởng tức thì được xây dựng bằng RLAIF, cung cấp đánh giá có thể mở rộng và phi tập trung;
Proof-of-Learning: Ràng buộc việc cập nhật chính sách vào kết quả cạnh tranh cụ thể, đảm bảo quy trình đào tạo có thể xác minh và chống gian lận.
Bản chất của Fraction AI là xây dựng một động cơ tiến hóa hợp tác giữa người và máy”. Người dùng như một “tối ưu hóa meta” (Meta-optimizer) tại cấp chiến lược, hướng dẫn hướng khám phá thông qua kỹ thuật nhắc nhở (Prompt Engineering) và cấu hình siêu tham số; trong khi các tác nhân tự động sinh ra khối lượng lớn dữ liệu sở thích chất lượng cao (Preference Pairs) trong cạnh tranh vi mô. Mô hình này cho phép việc ghi chú dữ liệu đạt được vòng khép kín thương mại thông qua “tinh chỉnh không cần tin cậy” (Trustless Fine-tuning).
So sánh kiến trúc các dự án học tăng cường Web3

V. Tóm tắt và triển vọng: Con đường và cơ hội của học tăng cường × Web3
Dựa trên phân tích giải cấu trúc các dự án tiên tiến trên, chúng tôi nhận thấy: Mặc dù các điểm tiếp cận của các nhóm khác nhau (thuật toán, kỹ thuật hoặc thị trường) là khác nhau, nhưng khi học tăng cường (RL) kết hợp với Web3, logic cấu trúc nền tảng của chúng đều hội tụ thành một mô hình “tách rời - xác minh - khuyến khích” rất đồng nhất. Đây không chỉ là sự trùng hợp về mặt kỹ thuật, mà còn là kết quả tất yếu của việc mạng phi tập trung thích nghi với các thuộc tính độc đáo của học tăng cường.
Đặc điểm kiến trúc chung của học tăng cường: Giải quyết vấn đề giới hạn vật lý cốt lõi và vấn đề tin cậy
Tách biệt vật lý giữa việc thúc đẩy và học tập (Decoupling of Rollouts & Learning) - Định dạng tính toán mặc định
Giao tiếp thưa thớt, có thể song song Rollout được thuê ra cho GPU tiêu dùng toàn cầu, trong khi cập nhật tham số băng thông cao tập trung vào một số nút đào tạo, từ các Actor-Learner phi đồng bộ của Prime Intellect đến cấu trúc đôi của Gradient Echo đều như vậy.
Lớp tin cậy dựa trên xác minh (Verification-Driven Trust) - Cơ sở hạ tầng
Trong một mạng lưới không cần sự cho phép, tính xác thực của tính toán phải được đảm bảo thông qua thiết kế toán học và cơ chế, đại diện cho việc thực hiện bao gồm PoL của Gensyn, TOPLOC của Prime Intellect và xác minh mật mã của Grail.
Vòng khép kín khuyến khích token hóa (Tokenized Incentive Loop) - Thị trường tự điều chỉnh
Cung cấp sức mạnh tính toán, tạo dữ liệu, xếp hạng xác minh và phân phối phần thưởng hình thành vòng khép kín, thông qua phần thưởng thúc đẩy sự tham gia, thông qua Slash ngăn chặn gian lận, khiến mạng lưới vẫn duy trì ổn định và tiếp tục tiến hóa trong môi trường mở.
Con đường công nghệ phân biệt: Các ‘điểm đột phá’ khác nhau dưới cùng một kiến trúc
Mặc dù kiến trúc có xu hướng đồng nhất, nhưng mỗi dự án đã chọn các rào cản công nghệ khác nhau dựa trên gen của nó:
Phái đột phá thuật toán (Nous Research): Cố gắng giải quyết mâu thuẫn cơ bản của đào tạo phân tán từ đáy toán học (giới hạn băng thông). Bộ tối ưu hóa DisTrO của nó nhằm giảm hàng nghìn lần khối lượng giao tiếp gradient, mục tiêu là để băng thông gia đình cũng có thể chạy được đào tạo mô hình lớn, đây là ‘đòn tấn công giảm chiều’ vào các giới hạn vật lý.
Phái kỹ thuật hệ thống (Prime Intellect, Gensyn, Gradient): Tập trung vào việc xây dựng hệ thống ‘thời gian chạy AI’ thế hệ tiếp theo. ShardCast của Prime Intellect và Parallax của Gradient đều nhằm khai thác hiệu suất cao nhất của cụm dị thể trong điều kiện mạng hiện tại thông qua các phương pháp kỹ thuật tinh vi.
Phái chơi thị trường (Bittensor, Fraction AI): Tập trung vào thiết kế hàm phần thưởng (Reward Function). Thông qua việc thiết kế cơ chế đánh giá tinh vi, hướng dẫn các thợ mỏ tự tìm kiếm chiến lược tối ưu, nhằm tăng tốc sự phát sinh trí thông minh.
Lợi thế, thách thức và triển vọng cuối cùng
Dưới mô hình kết hợp giữa học tăng cường và Web3, lợi thế cấp hệ thống đầu tiên được thể hiện trong việc viết lại cấu trúc chi phí và cấu trúc quản lý.
Cấu trúc chi phí: Nhu cầu lấy mẫu (Rollout) trong đào tạo sau (Post-training) là vô hạn, Web3 có thể huy động sức mạnh tính toán dài hạn toàn cầu với chi phí cực thấp, đây là lợi thế chi phí mà các nhà cung cấp đám mây tập trung khó có thể so sánh.
Căn chỉnh chủ quyền (Sovereign Alignment): Phá vỡ độc quyền về giá trị AI (Alignment) của các tập đoàn lớn, cộng đồng có thể quyết định ‘cái gì là câu trả lời tốt’ cho mô hình thông qua bỏ phiếu Token, thực hiện dân chủ hóa quản lý AI.
Trong khi đó, hệ thống này cũng đối mặt với hai ràng buộc cấu trúc lớn.
Bức tường băng thông (Bandwidth Wall): Mặc dù có những đổi mới như DisTrO, độ trễ vật lý vẫn hạn chế việc đào tạo toàn bộ mô hình tham số lớn (70B+) hiện tại, Web3 AI chủ yếu bị giới hạn trong việc tinh chỉnh và suy diễn.
Định luật Goodhart (Reward Hacking): Trong mạng lưới có động lực cao, các thợ mỏ dễ dàng ‘quá khớp’ quy tắc phần thưởng (điểm số ảo) thay vì nâng cao trí thông minh thực sự. Thiết kế hàm phần thưởng chống gian lận là một trò chơi vĩnh cửu.
Tấn công nút Byzantine ác ý (BYZANTINE worker): Thông qua việc thao túng chủ động và đầu độc tín hiệu đào tạo, phá hủy sự hội tụ của mô hình. Vấn đề không nằm ở việc liên tục thiết kế hàm phần thưởng chống gian lận, mà là xây dựng cơ chế có tính kháng cự với sự đối kháng.
Sự kết hợp giữa học tăng cường và Web3, về bản chất là viết lại cơ chế ‘trí thông minh được sản xuất, căn chỉnh và phân phối giá trị như thế nào’. Đường đi tiến hóa của nó có thể được tóm tắt thành ba hướng bổ sung:
Mạng lưới đào tạo phi tập trung: từ máy tính khai thác đến mạng chính sách, sẽ thuê Rollout có thể xác minh ra cho GPU dài hạn toàn cầu, tập trung ngắn hạn vào thị trường suy diễn có thể xác minh, trung hạn tiến hóa thành mạng con học tăng cường theo nhiệm vụ.
Tài sản hóa sở thích và phần thưởng: Từ lao động ghi nhãn đến quyền sở hữu dữ liệu. Thực hiện tài sản hóa sở thích và phần thưởng, biến phản hồi chất lượng cao và mô hình phần thưởng thành tài sản dữ liệu có thể quản lý và phân phối, từ ‘lao động ghi nhãn’ nâng cấp thành ‘quyền sở hữu dữ liệu’
Tiến hóa ‘nhỏ nhưng đẹp’ trong các lĩnh vực dọc: Nuôi dưỡng các tác nhân RL chuyên dụng nhỏ nhưng mạnh trong các cảnh quan có thể xác minh kết quả, định lượng lợi nhuận như thực thi chiến lược DeFi, tạo mã, làm cho việc cải tiến chiến lược và việc thu hút giá trị được liên kết trực tiếp và có khả năng vượt qua các mô hình đóng kín chung.
Tổng thể mà nói, cơ hội thực sự của học tăng cường × Web3 không nằm ở việc sao chép một phiên bản phi tập trung của OpenAI, mà là viết lại ‘mối quan hệ sản xuất thông minh’: để thực hiện việc thực thi đào tạo trở thành một thị trường tính toán mở, để phần thưởng và sở thích trở thành tài sản có thể quản lý trên chuỗi, để giá trị mà trí thông minh mang lại không còn tập trung tại nền tảng, mà được phân phối lại giữa những người đào tạo, căn chỉnh và người sử dụng.
Tuyên bố miễn trừ trách nhiệm: Bài viết này trong quá trình sáng tác đã sử dụng sự hỗ trợ của công cụ AI ChatGPT-5 và Gemini 3, tác giả đã cố gắng hiệu đính và đảm bảo thông tin chính xác và đúng đắn, nhưng vẫn không thể tránh khỏi thiếu sót, xin hãy thông cảm. Cần đặc biệt lưu ý rằng thị trường tài sản mã hóa thường có tình trạng lệch lạc giữa cơ sở dự án và hiệu suất giá trên thị trường thứ cấp. Nội dung bài viết chỉ được sử dụng cho việc tổng hợp thông tin và trao đổi học thuật/nghiên cứu, không cấu thành bất kỳ lời khuyên đầu tư nào, cũng không nên được coi là bất kỳ khuyến nghị mua bán mã token nào.
Học tăng cường: Sự chuyển mình của mạng AI phi tập trung

2.1 Kiến trúc hệ thống của học tăng cường và các khâu cốt lõi

2.2 Khung giai đoạn học tăng cường (RLHF → RLAIF → PRM → GRPO)

2.3 Năm loại ứng dụng công nghiệp của học tăng cường

Prime Intellect: Mô hình học tăng cường phi đồng bộ prime-rl

Gensyn: Học tăng cường cốt lõi RL Swarm và SAPO

Nous Research: Môi trường học tăng cường có thể xác minh Atropos

Mạng Gradient: Kiến trúc học tăng cường Echo

Grail: Học tăng cường trong hệ sinh thái Bittensor

Fraction AI: Học tăng cường dựa trên cạnh tranh RLFC

Tin tức mới nhất