Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?

Question

![Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?](https://img.gateio.im/social/moments-e1323e3b2b8eaabee7d53e902d2a2d18)Autor: Zen, PANewsLa IA es uno de los segmentos más destacados de la industria criptográfica actual, y el proyecto Gensyn, una red de computación AI distribuida que ha recaudado 50 millones de dólares con la inversión liderada por a16z, sin duda es un proyecto competitivo. Recientemente, Gensyn se lanzó oficialmente en la Testnet, aunque se retrasó más de un año respecto al cronograma original, finalmente ha entrado en una nueva fase con el lanzamiento de la Testnet.Como un Rollup de Ethereum personalizado diseñado específicamente para el aprendizaje automático, la Testnet de Gensyn integra un marco de ejecución, validación y comunicación fuera de la cadena, con el objetivo de proporcionar funciones clave como identidad persistente, seguimiento de participación, mantenimiento de pertenencia, pagos, coordinación de ejecución remota, verificación sin confianza, registro de procesos de entrenamiento y crowdfunding de tareas de entrenamiento a gran escala para sistemas de AI descentralizados.La primera fase de la Testnet se centra en rastrear la participación dentro de RL Swarm. RL Swarm es una aplicación para el entrenamiento posterior del aprendizaje por refuerzo colaborativo, cuyos nodos pueden estar vinculados a identidades en la cadena, asegurando que la contribución de cada nodo participante se registre con precisión.### RL Swarm: funciones centrales y entrenamiento colaborativoEn la Testnet de Gensyn, RL Swarm, como aplicación central, es un sistema de entrenamiento colaborativo de modelos construido sobre una red descentralizada. A diferencia del entrenamiento independiente de un solo modelo tradicional, RL Swarm permite que múltiples modelos se comuniquen, critiquen y mejoren entre sí en la red, lo que mejora el rendimiento general de manera conjunta. Su idea central radica en la "sabiduría colectiva", es decir, lograr un entrenamiento más eficiente a través de la colaboración y retroalimentación entre los modelos de cada nodo.Se puede entender como que modelos como DeepSeek-R1, al realizar el entrenamiento de inferencia, pueden mejorar su rendimiento de inferencia a través de la autocrítica, mientras que RL Swarm ha ampliado este mecanismo a un grupo de múltiples modelos, logrando el efecto de "muchos manos hacen un gran trabajo".Basado en el sistema RL Swarm, el modelo no solo depende de su propia retroalimentación, sino que también observa y evalúa el rendimiento de otros modelos, identificando sus propias deficiencias y optimizándose. Cada nodo de modelo que se une al Swarm participa en un proceso de tres etapas: primero, completa el problema de forma independiente y presenta ideas y respuestas; luego, revisa las respuestas de otros nodos y proporciona retroalimentación; finalmente, el modelo vota para seleccionar la mejor solución y corrige su salida en consecuencia. Este mecanismo de colaboración no solo mejora el rendimiento de cada modelo, sino que también impulsa la evolución de todo el modelo grupal. Los modelos que se unen al Swarm pueden conservar los pesos locales mejorados después de salir, obteniendo beneficios reales.![Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?](https://img.gateio.im/social/moments-65402c686682825bef76f2eba64060c3)Además, Gensyn ha hecho que el código de RL Swarm sea de código abierto, permitiendo que cualquier persona ejecute un nodo, inicie o se una a un Swarm existente sin necesidad de permiso. La comunicación subyacente de Swarm utiliza el protocolo de gossip proporcionado por Hivemind, que admite la mensajería descentralizada entre modelos y el intercambio de señales de aprendizaje. Ya sea en una computadora portátil doméstica o en una GPU en la nube, se puede participar en el entrenamiento colaborativo al unirse a un nodo de RL Swarm.### **Infraestructura** tres pilares: ejecución, comunicación y verificaciónActualmente, RL Swarm sigue siendo una demostración experimental que muestra un enfoque de aprendizaje automático a gran escala y escalable, y no una forma final de producto. Durante los últimos cuatro años, el trabajo fundamental de Gensyn ha sido construir la infraestructura subyacente, y después del lanzamiento de la Testnet, ha entrado en la fase v0.1, que ya se puede ejecutar en la práctica. Según la presentación oficial, la arquitectura general de Gensyn se divide en tres partes: ejecución, comunicación y verificación.#### Ejecución: consistencia y poder de cómputo distribuidoGensyn considera que el futuro del aprendizaje automático no estará limitado a los modelos monolíticos tradicionales, sino que estará compuesto por parámetros fragmentados distribuidos en dispositivos de todo el mundo. Para lograr este objetivo, el equipo de Gensyn ha desarrollado una arquitectura de ejecución subyacente que puede garantizar la consistencia entre dispositivos. Las tecnologías clave incluyen:* Almacenamiento y entrenamiento de parámetros distribuidos: a través de la fragmentación de modelos a gran escala en múltiples bloques de parámetros y su distribución en diferentes dispositivos, Gensyn ha logrado un despliegue fragmentado del modelo, reduciendo así los requisitos de memoria de un solo nodo.* Entrenamiento posterior al aprendizaje reforzado (RL Post-Training): Los estudios muestran que cuando los modelos son entrenados de manera colaborativa, se comunican entre sí y critican las respuestas de los demás, la eficiencia del aprendizaje en general mejora significativamente. Gensyn utiliza RL Swarm para demostrar este concepto, permitiendo que los modelos avancen rápidamente en discusiones colectivas y validando aún más la efectividad de la ejecución distribuida.* Operadores Reproducibles (RepOps): Para garantizar que diferentes hardware (como Nvidia A100 y H100) puedan llegar a resultados de cálculo completamente consistentes, Gensyn desarrolló la biblioteca RepOps, logrando una reproducción bit a bit entre plataformas mediante el orden de ejecución fijo de las operaciones de punto flotante.#### Comunicación: Intercambio de información eficienteEn escenarios de entrenamiento distribuido a gran escala, la comunicación eficiente entre nodos es crucial. Aunque los métodos tradicionales de paralelismo de datos pueden reducir los costos de comunicación hasta cierto punto, su escalabilidad se ve limitada por la memoria, ya que requieren que cada nodo almacene un modelo completo. Para ello, Gensyn ha propuesto una nueva solución:* SkipPipe – Tubería de salto dinámica en paralelo: La tecnología SkipPipe selecciona dinámicamente las capas de cálculo por las que pasan los microlotes (microbatch), saltando así ciertas etapas en la tubería tradicional y reduciendo el tiempo de espera innecesario. Su innovador algoritmo de programación puede evaluar en tiempo real la disponibilidad de cada ruta, reduciendo tanto el tiempo de inactividad de los nodos como acortando considerablemente la duración total del entrenamiento. Según los datos de prueba, en un entorno de Descentralización, SkipPipe puede reducir el tiempo de entrenamiento en aproximadamente un 55%, y en caso de fallos en algunos nodos, el rendimiento del modelo solo disminuye alrededor del 7%.* Estándares de comunicación y colaboración entre nodos Gensyn ha construido un protocolo de comunicación similar al TCP/IP, lo que permite a los participantes de todo el mundo, independientemente del dispositivo que utilicen, realizar transferencias de datos e intercambios de información de manera eficiente y fluida. Este estándar abierto proporciona una sólida base de red para el entrenamiento colaborativo distribuido.#### Verificación: asegurar la confianza y la seguridadEn una red distribuida que no requiere confianza, confirmar la veracidad y validez de los resultados de cálculo presentados por las partes involucradas es un gran desafío. Gensyn ha introducido un protocolo de verificación especializado, con el objetivo de asegurar que todos los proveedores de potencia de cálculo ofrezcan resultados de trabajo correctos a través de mecanismos de bajo costo y alta eficiencia:* Protocolo de verificación Verde: Verde es el primer sistema de verificación diseñado específicamente para el aprendizaje automático moderno. Su núcleo radica en utilizar un mecanismo de resolución de disputas ligero para localizar rápidamente el paso en el que surge la discrepancia entre el modelo y el validador durante el proceso de entrenamiento. A diferencia de los métodos de verificación tradicionales que requieren volver a ejecutar toda la tarea, Verde solo necesita recalcular las operaciones en disputa, lo que reduce significativamente los costos de verificación.* delegación referida (裁决式委托): al adoptar este método, si hay un problema con la salida de un proveedor, el validador podrá persuadir a un árbitro neutral a través de un juego eficiente de resolución de disputas, asegurando que la corrección del resultado completo se garantice siempre que exista al menos un nodo honesto.* Almacenamiento y hash de estados intermedios: Para apoyar el proceso de verificación mencionado anteriormente, los participantes solo necesitan almacenar y hacer hash de ciertos puntos de control intermedios de entrenamiento, en lugar de todos los datos, lo que reduce tanto el uso de recursos como mejora la escalabilidad y la inmediatez del sistema.

Gensyn Testnet en línea, ¿cómo hacer que el entrenamiento de IA sea más eficiente y más Descentralización?

RL Swarm: funciones centrales y entrenamiento colaborativo

Infraestructura tres pilares: ejecución, comunicación y verificación

Ejecución: consistencia y poder de cómputo distribuido

Comunicación: Intercambio de información eficiente

Verificación: asegurar la confianza y la seguridad