El nuevo motor de la conciencia inteligente: cómo el aprendizaje reforzado está transformando el ecosistema de IA en Web3

当 DeepSeek-R1 问世时,业界才真正意识到一个被低估的真相——强化学习不仅是模型对齐的配角,而是贯穿整个 AI 能力进化的核心驱动力。

Desde la aparición de DeepSeek-R1, la industria ha tomado verdadera conciencia de una verdad subestimada: el aprendizaje por refuerzo no es solo un actor secundario en la alineación de modelos, sino el motor central que atraviesa toda la evolución de las capacidades de la IA.

从预训练的「统计模式识别」到后训练的「结构化推理」,再到持续对齐,强化学习正在成为撬动下一代智能的关键杠杆。而更有趣的是,这套机制天然与 Web3 的去中心化激励体系相契合——这并非偶然,而是两个「激励驱动系统」在本质上的共鸣。

Desde el reconocimiento estadístico en la preentrenamiento hasta el razonamiento estructurado post-entrenamiento, y pasando por la alineación continua, el aprendizaje por refuerzo se está convirtiendo en la palanca clave para impulsar la próxima generación de inteligencia. Y lo más interesante es que este mecanismo encaja de forma natural con los sistemas de incentivos descentralizados de Web3 — esto no es casualidad, sino una resonancia esencial entre dos «sistemas impulsados por incentivos».

本文将深入解析强化学习的技术架构如何与区块链的分布式特性形成闭环,并通过剖析 Prime Intellect、Gensyn、Nous Research、Gradient、Grail 和 Fraction AI 等前沿项目,揭示这股浪潮背后的必然性与想象空间。

Este artículo analizará en profundidad cómo la arquitectura técnica del aprendizaje por refuerzo puede formar un ciclo cerrado con las características distribuidas de la blockchain, y mediante el análisis de proyectos pioneros como Prime Intellect、Gensyn、Nous Research、Gradient、Grail y Fraction AI, revelará la inevitabilidad y el potencial imaginativo de esta ola.

大模型训练的三层阶梯:从预训练到推理进阶

Las tres etapas del entrenamiento de grandes modelos: de la preentrenamiento a la inferencia avanzada

现代大模型的完整生命周期可分为三个递进的阶段,每一层都在重定义 AI 的能力边界。

El ciclo completo de vida de los grandes modelos modernos se puede dividir en tres fases progresivas, cada una redefiniendo los límites de las capacidades de la IA.

预训练阶段是基座的铸造。数万张 H100 需以全局同步的方式,在万亿级语料上进行自监督学习,成本占比达 80-95%。这一阶段对网络带宽、数据一致性与集群同构性的要求极端苛刻,必须在高度集中的超算中心完成,去中心化毫无立足之地。

La fase de preentrenamiento es la forja de la base. Decenas de miles de GPUs H100 deben realizar aprendizaje auto-supervisado en trillones de datos de forma sincronizada globalmente, con un coste que representa entre el 80-95%. Esta etapa exige requisitos extremadamente estrictos en ancho de banda, coherencia de datos y homogeneidad del clúster, y debe realizarse en centros de supercomputación altamente centralizados, dejando sin espacio a la descentralización.

监督微调(SFT) 是能力的定向注入。通过较小规模的指令数据对模型进行任务微调,成本占比仅 5-15%。微调既可全参训练,也可通过 LoRA、Q-LoRA 等参数高效方法实现,虽然去中心化潜力略高,但仍需梯度同步,难以突破网络瓶颈。

El ajuste fino supervisado (SFT) es la inyección dirigida de capacidades. Mediante conjuntos de datos de instrucciones de menor escala, se realiza un ajuste fino en tareas específicas, con un coste que representa solo el 5-15%. El ajuste fino puede ser de parámetros completos o mediante métodos eficientes como LoRA, Q-LoRA, etc. Aunque tiene potencial de descentralización, aún requiere sincronización de gradientes, dificultando superar los cuellos de botella de red.

后训练对齐才是强化学习的主战场。这一阶段数据量与成本最低(仅占 5-10%),核心工作聚焦于 Rollout(推理轨迹采样)与策略更新。由于 Rollout 天然支持异步分布式执行,节点无需持有完整权重,结合可验证计算与链上激励,后训练成为最适配去中心化的环节——这正是 Web3 + 强化学习论证的起点。

La alineación posterior al entrenamiento es el campo principal del aprendizaje por refuerzo. En esta fase, el volumen de datos y el coste son mínimos (solo el 5-10%), centrando el trabajo en Rollout (muestreo de trayectorias de inferencia) y actualización de políticas. Dado que Rollout soporta naturalmente la ejecución asíncrona y distribuida, los nodos no necesitan tener los pesos completos, y combinando cálculos verificables e incentivos en la cadena, esta etapa se adapta mejor a la descentralización — justo donde comienza la argumentación de Web3 + aprendizaje por refuerzo.

强化学习的机制解剖:三角循环的威力

Anatomía del mecanismo del aprendizaje por refuerzo: el poder del ciclo triangular

强化学习的核心是一个反馈闭环:策略生成动作 → 环境返回奖励 → 策略被迭代优化。这套体系通常由三类关键模块构成:

El núcleo del aprendizaje por refuerzo es un ciclo de retroalimentación: la política genera acciones → el entorno devuelve recompensas → la política se optimiza iterativamente. Este sistema generalmente consta de tres módulos clave:

策略网络(Policy) 充当决策中枢,根据状态生成动作。训练时需集中反向传播维持数值一致性,但推理时可分发至全球节点并行执行——这种「推理与训练分离」的特性,恰好是去中心化网络的理想场景。

Red de política (Policy) actúa como centro de decisiones, generando acciones en función del estado. Durante el entrenamiento, requiere retropropagación centralizada para mantener la coherencia numérica, pero en inferencia puede distribuirse a nodos globales para ejecución paralela — esta característica de «separación de inferencia y entrenamiento» es ideal para redes descentralizadas.

经验采样(Rollout) 是数据工厂。节点在本地执行策略与环境交互,生成完整的状态-动作-奖励轨迹。由于采样过程高度并行、通信需求极低、对硬件同构性无要求,消费级 GPU、边缘设备甚至手机都能参与——这是全球长尾算力能被激活的关键。

Muesteo de experiencia (Rollout) es la fábrica de datos. Los nodos ejecutan localmente la política e interactúan con el entorno para generar trayectorias completas de estado-acción-recompensa. Dado que el proceso de muestreo es altamente paralelo, con requisitos de comunicación mínimos y sin necesidad de hardware homogéneo, GPUs de consumo, dispositivos edge e incluso teléfonos pueden participar — esto es clave para activar la potencia de cómputo de cola larga global.

学习器(Learner) 是优化引擎,聚合所有 Rollout 数据并执行梯度更新。这一模块对算力与带宽要求最高,因此通常在中心化或轻中心化集群中运行,但不再需要像预训练那样动辄数万张 GPU。

Aprendiz es el motor de optimización, que agrega todos los datos de Rollout y realiza actualizaciones de gradiente. Este módulo requiere la mayor capacidad de cómputo y ancho de banda, por lo que generalmente opera en clústeres centralizados o semi-centralizados, pero ya no necesita decenas de miles de GPUs como en el preentrenamiento.

这种架构解耦的意义在于:可以用全球分布的廉价算力做 Rollout,用少量高端算力做梯度更新。这在传统云计算模式中无法实现经济效应,但在有链上激励的去中心化网络中,突然变成了最优路径。

La importancia de esta arquitectura desacoplada radica en que: se puede usar cómputo barato y distribuido globalmente para Rollout, y una pequeña cantidad de cómputo de alta gama para las actualizaciones de gradiente. Esto no es económicamente viable en los modelos tradicionales de computación en la nube, pero en redes descentralizadas con incentivos en la cadena, se vuelve la ruta óptima.

强化学习的技术迭代:从 RLHF 到可验证对齐

La evolución técnica del aprendizaje por refuerzo: de RLHF a la alineación verificable

强化学习方法论在快速演进,这个进程本身也定义了去中心化的可行空间。

Las metodologías de aprendizaje por refuerzo evolucionan rápidamente, y este proceso en sí mismo define el espacio factible para la descentralización.

RLHF(人类反馈强化学习) 是原点。通过多候选答案、人工标注、奖励模型训练与 PPO 策略优化,使模型对齐人类价值观。但它的致命限制是标注成本:招募标注队伍、维护标注质量、处理争议样本——这些在传统模式下都是瓶颈。

RLHF (Reinforcement Learning from Human Feedback) es el punto de partida. Mediante múltiples candidatos, anotaciones humanas, entrenamiento de modelos de recompensa y optimización PPO, alinea el modelo con valores humanos. Pero su limitación fatal es el coste de anotación: reclutar equipos de etiquetado, mantener la calidad, gestionar muestras controvertidas — todo esto es un cuello de botella en el modo tradicional.

RLAIF(AI 反馈强化学习) 打破了这个瓶颈。以 AI Judge 或规则库替代人工标注,使偏好信号生成变成可自动化、可规模化的流程。Anthropic、OpenAI、DeepSeek 已将其设为主流范式,而这个转变对 Web3 至关重要——因为自动化意味着可以通过链上合约实现。

RLAIF (AI Feedback Reinforcement Learning) rompe este cuello de botella. Utiliza jueces AI o bases de reglas en lugar de anotaciones humanas, haciendo que la generación de señales de preferencia sea automatizable y escalable. Anthropic, OpenAI y DeepSeek ya lo han establecido como paradigma principal, y este cambio es crucial para Web3 — porque la automatización significa que puede implementarse mediante contratos en la cadena.

GRPO(组相对策略优化) 则是 DeepSeek-R1 的核心创新。相比传统 PPO 需要维护一个额外的 Critic 网络,GRPO 通过对候选答案组内的优势分布建模,大幅降低计算与显存开销。更关键的是,它的异步容错能力更强,天然适应多步网络延迟与节点掉线的分布式环境。

GRPO (Group Relative Policy Optimization) es la innovación central de DeepSeek-R1. En lugar de requerir una red Critic adicional como en PPO tradicional, GRPO modela la distribución de ventajas dentro del grupo de respuestas candidatas, reduciendo significativamente el coste computacional y de memoria. Además, su capacidad de tolerancia asíncrona es superior, adaptándose naturalmente a la latencia en múltiples pasos y a la desconexión de nodos en entornos distribuidos.

可验证强化学习(RLVR) 是未来方向。在奖励生成与使用的全过程引入数学验证,使奖励尽可能来自可复现的规则与事实,而非模糊的人类偏好。这对无需许可的网络至关重要——没有验证,激励就容易被矿工「过拟合」(刷分),导致系统崩溃。

RLVR (Reinforcement Learning Verifiable) es la dirección futura. Introduce verificaciones matemáticas en todo el proceso de generación y uso de recompensas, asegurando que estas provengan de reglas y hechos reproducibles, en lugar de preferencias humanas ambiguas. Es crucial para redes sin permisos: sin verificación, los incentivos pueden ser «sobreajustados» por los mineros (fraude en puntuaciones), causando colapsos del sistema.

六大前沿项目的技术地图

Mapa tecnológico de seis proyectos pioneros

Prime Intellect:异步强化学习的工程极限

Prime Intellect: Los límites de la ingeniería en aprendizaje asíncrono

Prime Intellect 的野心是构建一个全球开放算力市场,让任意性能的 GPU 可以随时接入、随时脱离,形成一个自我修复的算力网络。

La ambición de Prime Intellect es construir un mercado global abierto de potencia de cálculo, donde cualquier GPU, independientemente de su rendimiento, pueda conectarse o desconectarse en cualquier momento, formando una red de cómputo autorregulada.

其核心是 prime-rl 框架,一套为分布式异步环境量身定制的强化学习引擎。传统 PPO 要求所有计算节点同步前进,一旦出现掉线或延迟就导致全局阻塞;prime-rl 则彻底摒弃这一同步范式,让 Rollout Worker 与 Trainer 完全解耦。

Su núcleo es el framework prime-rl, un motor de aprendizaje por refuerzo diseñado específicamente para entornos distribuidos y asíncronos. Mientras que PPO tradicional requiere que todos los nodos de cálculo avancen sincronizadamente, y las desconexiones o retrasos causan bloqueos globales, prime-rl elimina por completo este paradigma de sincronización, desacoplando completamente los Rollout Workers del Entrenador.

推理侧(Rollout Worker)集成了 vLLM 推理引擎,利用其 PagedAttention 与连续批处理能力实现极高吞吐。训练侧(Trainer)从共享的经验回放缓冲区异步拉取数据进行梯度更新,无需等待所有 Worker 完成当前批次。

El lado de inferencia (Rollout Worker) integra el motor de inferencia vLLM, aprovechando su atención paginada y capacidades de procesamiento en lotes continuos para lograr un rendimiento extremadamente alto. El lado de entrenamiento (Trainer) extrae datos de un búfer compartido de experiencia de forma asíncrona para actualizar gradientes, sin esperar a que todos los Workers completen su lote actual.

INTELLECT 模型家族则是这套框架的能力证明:

  • INTELLECT-1(10B,2024 年 10 月)首次证明跨三大洲的异构网络训练可行,通信占比低于 2%、算力利用率达 98%
  • INTELLECT-2(32B,2025 年 4 月)作为首个「无需许可 RL」模型,验证了在多步延迟、异步环境下的稳定收敛
  • INTELLECT-3(106B MoE,2025 年 11 月)采用仅激活 12B 的稀疏架构,在 512×H200 上训练,其性能指标已逼近或超越规模远大于自身的闭源模型(AIME 90.8%、GPQA 74.4%、MMLU-Pro 81.9%)

La familia de modelos INTELLECT es la prueba de capacidad de este marco:

  • INTELLECT-1 (10B, octubre 2024): demuestra por primera vez la viabilidad de entrenar redes heterogéneas a través de continentes, con menos del 2% de comunicación y un uso de recursos del 98%
  • INTELLECT-2 (32B, abril 2025): como el primer modelo RL sin permisos, valida convergencia estable en entornos asincrónicos con latencias múltiples
  • INTELLECT-3 (106B MoE, noviembre 2025): con una arquitectura dispersa que activa solo 12B, entrenada en 512×H200, sus métricas de rendimiento se acercan o superan a modelos cerrados mucho mayores (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%)

支撑这些模型的还有 OpenDiLoCo 通信协议(将跨地域训练的通信量降低数百倍)与 TopLoc 验证机制(通过激活指纹与沙箱验证确保推理真实性)。这些组件共同证明了一个关键命题:去中心化强化学习训练不仅可行,而且能产出世界级的智能模型

Estos modelos están respaldados por el protocolo de comunicación OpenDiLoCo (que reduce por cientos la comunicación en entrenamiento interregiones) y el mecanismo de verificación TopLoc (que asegura la autenticidad de la inferencia mediante huellas digitales y sandbox). Estos componentes demuestran conjuntamente una proposición clave: el entrenamiento descentralizado por refuerzo no solo es factible, sino que puede producir modelos de inteligencia de nivel mundial.

Gensyn:「生成-评估-更新」的蜂群智能

Gensyn: La inteligencia de enjambre de «generar-evaluar-actualizar»

Gensyn 的理念更接近「社会学」——它不是简单地分发任务和汇聚结果,而是模拟人类社会的协作学习过程。

La filosofía de Gensyn se acerca más a la «sociología» — no se trata solo de distribuir tareas y recopilar resultados, sino de simular el proceso de aprendizaje colaborativo de una sociedad humana.

RL Swarm 将强化学习的核心环节分解为三个角色的 P2P 组织结构:

RL Swarm descompone los componentes centrales del aprendizaje por refuerzo en una estructura P2P con tres roles:

  • Solvers(执行者) 在本地进行模型推理与 Rollout 生成,节点间的硬件差异完全不构成问题

  • Solvers (Ejecutores) realizan inferencia y generación de Rollout localmente, las diferencias de hardware entre nodos no son un problema

  • Proposers(出题者) 动态生成任务(数学题、代码挑战等),支持 Curriculum Learning 式的难度自适应

  • Proposers (Proponentes) generan dinámicamente tareas (problemas matemáticos, desafíos de código, etc.), soportando aprendizaje por currículo con dificultad adaptativa

  • Evaluators(评估者) 使用冻结的「裁判模型」或规则对本地 Rollout 进行评估,生成本地奖励

  • Evaluadores (Jueces) usan modelos de juicio congelados o reglas para evaluar los Rollout locales y generar recompensas locales

三者形成一个无中心协调的闭环。更妙的是,这个结构天然映射到区块链网络——矿工就是 Solvers,质押者就是 Evaluators,DAO 就是 Proposers。

Estos tres roles forman un ciclo cerrado sin coordinación central. Lo más interesante es que esta estructura mapea naturalmente a una red blockchain: los mineros son Solvers, los stakers son Evaluadores, y la DAO es Proposers.

SAPO(Swarm Sampling Policy Optimization) 是与这套体系配套的优化算法。它的核心思想是「共享 Rollout,而非共享梯度」——每个节点从全局 Rollout 池中采样, 视其为本地生成,从而在无中心协调、延迟差异显著的环境中保持稳定收敛。相比依赖 Critic 网络的 PPO,或基于组内优势的 GRPO,SAPO 以极低带宽使消费级 GPU 也能有效参与大规模强化学习。

El algoritmo de optimización Swarm Sampling Policy Optimization (SAPO) complementa este sistema. Su idea central es «compartir Rollout, no compartir gradientes»: cada nodo muestrea desde un pool global de Rollout, considerándolo como generado localmente, manteniendo así una convergencia estable en entornos sin coordinación central y con latencias variables. En comparación con PPO que depende de una red Critic, o GRPO basado en ventajas grupales, SAPO requiere un ancho de banda muy bajo, permitiendo que GPUs de consumo participen eficazmente en aprendizaje por refuerzo a gran escala.

Nous Research:可验证推理环境的闭环生态

Nous Research: Ecosistema cerrado de inferencia verificable

Nous Research 不是在构建一个强化学习系统,而是在构建一个持续自我进化的认知基础设施。

Nous Research no está construyendo un sistema de aprendizaje por refuerzo, sino una infraestructura cognitiva que evoluciona continuamente por sí misma.

其核心组件如同一部精密机器的各个齿轮:Hermes(模型接口)→ Atropos(验证环境)→ DisTrO(通信压缩)→ Psyche(去中心化网络)→ World Sim(复杂模拟)→ Forge(数据采集)。

Sus componentes centrales son como los engranajes de una máquina precisa: Hermes (interfaz del modelo) → Atropos (entorno de verificación) → DisTrO (compresión de comunicación) → Psyche (red descentralizada) → World Sim (simulación compleja) → Forge (recolección de datos).

Atropos 是这个系统的关键所在——它将提示、工具调用、代码执行、多轮交互等封装成标准化 RL 环境,能够直接验证输出的正确性,因此提供确定性的奖励信号。这消除了对昂贵、不可扩展的人类标注的依赖。

Atropos es la clave del sistema — encapsula prompts, llamadas a herramientas, ejecución de código, interacciones multironda en un entorno RL estandarizado, capaz de verificar directamente la corrección de las salidas, proporcionando así señales de recompensa deterministas. Esto elimina la dependencia de anotaciones humanas costosas e insostenibles.

更重要的是,在去中心化网络 Psyche 中,Atropos 充当「可信仲裁者」。通过可验证计算与链上激励,它能证明每个节点是否真实提升了策略,支持 Proof-of-Learning 机制,从根本上解决分布式 RL 中最棘手的问题——奖励信号的可信性

Más importante aún, en la red descentralizada Psyche, Atropos actúa como un «árbitro confiable». Mediante cálculos verificables y incentivos en la cadena, puede demostrar si cada nodo realmente mejoró la estrategia, soportando un mecanismo de Proof-of-Learning, resolviendo de raíz el problema más difícil en RL distribuido: la confiabilidad de la señal de recompensa.

DisTrO 优化器则试图解决分布式训练的根本瓶颈:带宽。通过梯度压缩与动量解耦,它能将通信成本降低几个数量级,使家庭宽带也能运行大模型训练。配合 Psyche 的链上调度,这个组合让分布式 RL 从「理想」变成「现实」。

El optimizador DisTrO busca abordar el cuello de botella fundamental del entrenamiento distribuido: el ancho de banda. Mediante compresión de gradientes y desacoplamiento de momentum, reduce los costos de comunicación en varios órdenes de magnitud, permitiendo que conexiones domésticas puedan entrenar modelos grandes. Combinado con la orquestación en la cadena de Psyche, esta combinación hace que RL distribuido pase de ser «ideal» a «realidad».

Gradient Network:开放智能协议栈

Gradient Network: Capas del protocolo de inteligencia abierta

Gradient 的视角更宏观——它在构建一套完整的「开放智能协议栈」,从底层通信到顶层应用都有模块覆盖。

Desde una perspectiva más macro, Gradient está construyendo una «pila de protocolos de inteligencia abierta» completa, cubriendo desde la comunicación en la capa base hasta las aplicaciones en la capa superior.

Echo 是其强化学习训练框架,核心设计理念在于解耦强化学习中的训练、推理与数据路径,使各环节能在异构环境中独立扩展。

Echo es su marco de entrenamiento de RL, cuyo diseño central es desacoplar los caminos de entrenamiento, inferencia y datos en RL, permitiendo que cada uno se escale independientemente en entornos heterogéneos.

Echo 采用「推理-训练双群架构」:

  • 推理群(Inference Swarm) 由消费级 GPU 与边缘设备组成,通过 Parallax 分布式推理引擎实现高吞吐采样

  • Grupo de inferencia (Inference Swarm) formado por GPUs de consumo y dispositivos edge, usando el motor de inferencia Parallax para muestreos de alto rendimiento

  • 训练群(Training Swarm) 由分布在全球各地的 GPU 组成,负责梯度更新与参数同步

  • Grupo de entrenamiento (Training Swarm) formado por GPUs distribuidos globalmente, encargados de actualizar gradientes y sincronizar parámetros

两群互不阻塞,独立运行。为维持策略与数据一致性,Echo 提供两类同步协议:

Ambos grupos operan sin bloquearse mutuamente y de forma independiente. Para mantener la coherencia de la política y los datos, Echo ofrece dos protocolos de sincronización:

  • 顺序拉取模式(精度优先):训练侧在拉取新轨迹前强制推理节点刷新模型版本,确保轨迹新鲜度

  • Modo de extracción secuencial (prioridad en precisión): el lado de entrenamiento fuerza a los nodos de inferencia a actualizar la versión del modelo antes de extraer nuevas trayectorias, asegurando la actualidad

  • 异步推拉模式(效率优先):推理侧持续生成带版本标签的轨迹,训练侧依自身节奏消费,最大化设备利用率

  • Modo de empuje y extracción asíncrono (prioridad en eficiencia): los nodos de inferencia generan continuamente trayectorias con etiquetas de versión, y el entrenamiento las consume a su propio ritmo, maximizando el uso de dispositivos

这套机制让全球异构网络上的强化学习训练成为可能,同时保持收敛稳定性。

Este mecanismo permite que el entrenamiento de RL en redes heterogéneas globales sea posible, manteniendo la estabilidad de la convergencia.

Grail 与 Bittensor:密码学驱动的信任层

Grail y Bittensor: Capa de confianza impulsada por criptografía

Bittensor 通过其 Yuma 共识机制构建了一个巨大的、稀疏的、非平稳的奖励函数网络。而 SN81 Grail 则在其上构建了强化学习的可验证执行层。

Bittensor construye una vasta red de funciones de recompensa dispersas, esparcidas y no estacionarias mediante su mecanismo de consenso Yuma. Por su parte, SN81 Grail construye sobre esto una capa de ejecución verificable para RL.

Grail 的目标是用密码学手段证明每条强化学习 rollout 的真实性与模型身份的绑定。其机制分为三层:

El objetivo de Grail es usar criptografía para demostrar la veracidad de cada rollout de RL y vincularlo con la identidad del modelo. Su mecanismo se divide en tres niveles:

  1. 确定性挑战生成:利用 drand 随机信标与区块哈希生成不可预测但可复现的挑战(如 SAT、GSM8K),杜绝预计算作弊

  2. Generación de desafíos deterministas: usando drand y hashes de bloques para crear desafíos impredecibles pero reproducibles (como SAT, GSM8K), evitando trampas precomputadas

  3. 低成本抽检验证:通过 PRF 索引采样与 sketch commitments,验证者以极低成本验证 token-level logprob 与推理链,确认 rollout 由声明模型生成

  4. Verificación de muestreo de bajo costo: mediante muestreos con PRF y compromisos de esquemas, los verificadores pueden validar logprob a nivel de token y la cadena de inferencia a bajo coste, confirmando que el rollout fue generado por el modelo declarado

  5. 模型身份绑定:将推理过程与模型权重指纹绑定,确保替换模型或结果重放都会被立即识别

  6. Vinculación de identidad del modelo: enlazando el proceso de inferencia con huellas digitales de los pesos del modelo, garantizando que cualquier reemplazo o reproducción de resultados sea detectado inmediatamente

基于这套机制,Grail 实现了可验证的 GRPO 风格后训练:矿工为同一题目生成多条推理路径,验证者依据正确性、推理质量评分,将归一化结果写入链上。公开实验表明,该框架已将 Qwen2.5-1.5B 的 MATH 准确率从 12.7% 提升至 47.6%,既能防作弊,也能显著强化模型能力。

Con este mecanismo, Grail realiza un entrenamiento posterior verificable estilo GRPO: los mineros generan múltiples rutas de inferencia para la misma tarea, y los verificadores evalúan la corrección y calidad, escribiendo los resultados normalizados en la cadena. Experimentos públicos muestran que este marco elevó la precisión en matemáticas de Qwen2.5-1.5B del 12.7% al 47.6%, previniendo trampas y fortaleciendo significativamente las capacidades del modelo.

Fraction AI:竞争中的智能涌现

Fraction AI: Emergencia de inteligencia en competencia

Fraction AI 的创新在于彻底改写了 RLHF 的范式——将静态奖励与人工标注替换为开放、动态的竞争环境。

La innovación de Fraction AI radica en reescribir completamente el paradigma RLHF — reemplazando recompensas estáticas y anotaciones humanas por entornos competitivos abiertos y dinámicos.

代理在不同 Spaces(隔离的任务域)中对抗,其相对排名与 AI 法官评分共同构成实时奖励。这使对齐过程演变为持续在线的多智能体博弈,其中奖励不再来自单一模型,而来自不断演化的对手与评估者,天然防止奖励模型被利用。

Los agentes compiten en diferentes Spaces (dominios de tareas aislados), donde su clasificación relativa y las puntuaciones de jueces AI conforman recompensas en tiempo real. Esto transforma la alineación en un juego multiactores en línea continua, donde las recompensas ya no provienen de un solo modelo, sino de oponentes y evaluadores en constante evolución, previniendo naturalmente el aprovechamiento del modelo de recompensa.

系统的四个关键组件:

Cuatro componentes clave del sistema:

  • Agents:基于开源 LLM 的轻量策略单元,通过 QLoRA 实现低成本更新

  • Agentes: unidades de estrategia ligeras basadas en LLMs de código abierto, con actualizaciones de bajo coste mediante QLoRA

  • Spaces:隔离的任务环境,代理付费进入并以胜负获得奖励

  • Spaces: entornos de tarea aislados, donde los agentes pagan para participar y reciben recompensas por victorias o derrotas

  • AI Judges:RLAIF 构建的即时奖励层,提供去中心化评估

  • Jueces AI: capa de recompensa en tiempo real construida con RLAIF, que proporciona evaluación descentralizada

  • Proof-of-Learning:将策略更新绑定到具体竞争结果,确保可验证

  • Proof-of-Learning: vincula la actualización de la estrategia a resultados competitivos específicos, asegurando verificabilidad

本质上,Fraction AI 构建了一个「人机协同的进化引擎」。用户通过提示工程引导探索方向,代理在微观竞争中自动生成海量高质量偏好数据对,最终实现了「去信任化微调」的商业闭环。

En esencia, Fraction AI construye un «motor evolutivo colaborativo humano-máquina». Los usuarios guían la exploración mediante ingeniería de prompts, y los agentes generan automáticamente vastos pares de datos de preferencias de alta calidad en competencia microscópica, logrando así un ciclo de negocio de «ajuste fino sin confianza» (de-trust) y democratizado.

收敛的架构逻辑:为什么强化学习与 Web3 必然相遇

Lógica convergente: por qué el aprendizaje por refuerzo y Web3 están destinados a encontrarse

尽管各项目的切入点各异,但它们的底层架构逻辑惊人地一致,都收敛为:解耦 - 验证 - 激励

Aunque los enfoques de cada proyecto difieren, su lógica estructural subyacente es sorprendentemente coherente, convergiendo en: desacoplar - verificar - incentivar.

解耦 是默认拓扑。通信稀疏的 Rollout 被外包给全球消费级 GPU,高带宽的参数更新集中于少数节点。这种物理分离天然匹配去中心化网络的异构性。

El desacople es la topología predeterminada. Los Rollout con comunicación escasa se externalizan a GPUs de consumo global, mientras que las actualizaciones de parámetros de alto ancho de banda se concentran en unos pocos nodos. Esta separación física encaja naturalmente con la heterogeneidad de las redes descentralizadas.

验证 是基础设施。计算真实性必须通过数学与机制设计强制保障——可验证推理、Proof-of-Learning、密码学证明,这些不仅解决了信任问题,还成为去中心化网络的核心竞争力。

La verificación es la infraestructura. La veracidad del cálculo debe garantizarse mediante matemáticas y diseño de mecanismos — pruebas verificables, Proof-of-Learning, pruebas criptográficas —, que no solo resuelven problemas de confianza, sino que también se convierten en la ventaja competitiva central de las redes descentralizadas.

激励 是自我演进的引擎。算力供给、数据生成、奖励分配形成闭环,通过代币奖励参与者、通过 Slashing 抑制作弊,使网络在开放环境中依然保持稳定与持续进化。

Los incentivos son el motor de autoevolución. La oferta de potencia, generación de datos y distribución de recompensas forman un ciclo cerrado, incentivando a los participantes con tokens y usando slashing para prevenir trampas, manteniendo la estabilidad y evolución continua en entornos abiertos.

终局想象:三条并行的演进路径

Imaginando el fin: tres caminos evolutivos paralelos

强化学习与 Web3 的结合,真正的机会不在于复制一个去中心化版 OpenAI,而在于彻底重写「智能的生产关系」。

La verdadera oportunidad en la unión de RL y Web3 no es copiar una versión descentralizada de OpenAI, sino reescribir completamente las «relaciones de producción de la inteligencia».

路径一:去中心化推训网络 将并行、可验证的 Rollout 外包给全球长尾 GPU,短期聚焦可验证推理市场,中期演化为按任务聚类的强化学习子网络。

Camino uno: una red de entrenamiento y despliegue descentralizada, externalizando Rollout paralelo y verificable a GPUs de cola larga globales, enfocándose inicialmente en mercados de inferencia verificable, y evolucionando a subredes de RL agrupadas por tareas en el medio plazo.

路径二:偏好与奖励的资产化 实现偏好与奖励的链上编码与治理,将高质量反馈与奖励模型变为可分配的数据资产,让参与者从「标注劳工」升级为「数据股权持有者」。

Camino dos: assetizar preferencias y recompensas mediante codificación y gobernanza en la cadena, transformando feedback y modelos de recompensa en activos de datos distribuidos, permitiendo que los participantes pasen de ser «trabajadores de anotación» a «propietarios de acciones de datos».

路径三:垂直领域的小而美进化 在结果可验证、收益可量化的垂直场景孕育小而强的专用 RL 智能体——DeFi 策略执行者、代码生成器、数学求解器——使策略改进与价值捕获直接绑定。

Camino tres: en nichos verticales con resultados verificables y beneficios cuantificables, evolucionar pequeños pero potentes agentes RL especializados — como ejecutores de estrategias DeFi, generadores de código, solucionadores matemáticos —, vinculando directamente la mejora de estrategias y la captura de valor.

这三条路径指向同一个终局:训练不再是大厂的专属权力,奖励与价值的分配变得透明且民主化,每一个贡献算力、数据、验证的参与者都能获得相应的回报。强化学习与 Web3 的相遇,本质上是在用代码与激励重新定义「谁拥有 AI」这个问题的

PRIME0,4%
ECHO14,5%
TAO-1%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)