Comment rendre l’entraînement à l’IA plus efficace et décentralisé avec le lancement du testnet Gensyn ?

Question

![Gensyn Testnet en ligne, comment rendre l'entraînement de l'IA plus efficace et plus décentralisé ?](https://img.gateio.im/social/moments-e1323e3b2b8eaabee7d53e902d2a2d18)Auteur : Zen, PANewsL'IA est aujourd'hui la sous-catégorie la plus en vue dans l'industrie de la cryptographie, et le réseau de calcul AI distribué Gensyn, soutenu par a16z et ayant levé un montant total de 50 millions de dollars, est sans aucun doute un projet compétitif. Récemment, Gensyn a officiellement lancé son Testnet, bien que cela soit plus d'un an plus tard que prévu, le lancement du Testnet marque enfin l'entrée dans une nouvelle phase.En tant que Rollup Ethereum sur mesure conçu spécifiquement pour l'apprentissage automatique, le Testnet Gensyn intègre un cadre d'exécution, de validation et de communication hors chaîne, visant à fournir des fonctionnalités clés telles que l'identité persistante, le suivi de la participation, la maintenance de l'appartenance, les paiements, la coordination d'exécution à distance, la validation sans confiance, l'enregistrement des processus de formation et le financement participatif de tâches d'entraînement à grande échelle pour les systèmes d'IA décentralisés.La première phase du réseau de test s’est concentrée sur le suivi de la participation au sein de RL Swarm. RL Swarm est une application d’apprentissage par renforcement collaboratif post-formation, où les nœuds peuvent être liés à des identités on-chain, garantissant que les contributions de chaque nœud participant sont enregistrées avec précision.### RL Swarm : fonctionnalités clés et entraînement collaboratifDans le Testnet de Gensyn, RL Swarm, en tant qu'application principale, est un système d'entraînement collaboratif de modèles construit sur un réseau décentralisé. Contrairement à l'entraînement indépendant de modèles uniques traditionnel, RL Swarm permet à plusieurs modèles de communiquer, critiquer et s'améliorer mutuellement au sein du réseau, afin d'améliorer collectivement la performance globale. Son principe fondamental repose sur l'"intelligence collective", c'est-à-dire qu'à travers la collaboration et le retour d'information entre les modèles des nœuds, un entraînement plus efficace est réalisé.On peut comprendre simplement que des modèles comme DeepSeek-R1, lors de l'entraînement d'inférence, peuvent améliorer leurs performances d'inférence par auto-critique, tandis que RL Swarm a étendu ce mécanisme à un groupe de modèles, réalisant ainsi l'effet de "l'union fait la force".Basé sur le système RL Swarm, le modèle ne dépend pas seulement de ses propres retours, mais identifie également ses insuffisances et optimise ses performances en observant et en évaluant les performances des autres modèles. Chaque modèle qui rejoint le Swarm participe à un processus en trois étapes : d'abord, il résout le problème de manière indépendante et produit des idées et des réponses, ensuite, il examine les réponses des autres nœuds et fournit des retours, enfin, le modèle vote pour choisir la solution optimale et ajuste sa sortie en conséquence. Ce mécanisme de collaboration améliore non seulement les performances de chaque modèle, mais favorise également l'évolution de l'ensemble du modèle de groupe. Les modèles qui rejoignent le Swarm peuvent conserver leurs poids locaux améliorés après leur départ, obtenant ainsi des bénéfices réels.![Gensyn sur Testnet, comment rendre l'entraînement de l'IA plus efficace et plus Décentralisé ?](https://img.gateio.im/social/moments-65402c686682825bef76f2eba64060c3)De plus, Gensyn a rendu le code de RL Swarm open source, permettant à quiconque d'exécuter un nœud, de démarrer ou de rejoindre un Swarm existant sans autorisation. La communication sous-jacente du Swarm utilise le protocole de gossip fourni par Hivemind, qui prend en charge la messagerie décentralisée entre les modèles et le partage des signaux d'apprentissage. Que ce soit sur un ordinateur portable domestique ou sur un GPU dans le cloud, vous pouvez participer à l'entraînement collaboratif en rejoignant un nœud RL Swarm.### **Infrastructure** trois grands piliers : exécution, communication et vérificationActuellement, RL Swarm n'est qu'une démonstration expérimentale, montrant une méthode d'apprentissage automatique à grande échelle et évolutive, et non une forme de produit final. Au cours des quatre dernières années, le travail principal de Gensyn a en réalité consisté à construire l'infrastructure sous-jacente, qui est entrée dans la phase v0.1 après le lancement du Testnet et peut déjà fonctionner concrètement. Selon la présentation officielle, l'architecture globale de Gensyn se divise en trois parties : exécution, communication et validation.#### Exécution : cohérence et puissance de calcul distribuéeGensyn estime que l'avenir de l'apprentissage automatique ne se limite plus à des modèles monolithiques traditionnels, mais est composé de paramètres fragmentés répartis sur divers appareils à travers le monde. Pour atteindre cet objectif, l'équipe de Gensyn a développé une architecture d'exécution sous-jacente capable d'assurer la cohérence entre les appareils. Les technologies clés comprennent : * Stockage et entraînement de paramètres distribués : en divisant un grand modèle en plusieurs blocs de paramètres et en les distribuant sur différents appareils, Gensyn a réalisé un déploiement fragmenté du modèle, réduisant ainsi les exigences de mémoire pour un seul nœud.* RL Post-Training : Des études ont montré que lorsque les modèles sont entraînés en collaboration dans des groupes, communiquent les uns avec les autres et critiquent les réponses des autres, l’efficacité globale de l’apprentissage est considérablement améliorée. Gensyn a fait la démonstration du concept avec RL Swarm, ce qui a permis au modèle d’avancer rapidement dans le brainstorming et de valider davantage l’efficacité de l’exécution distribuée.* Opérateurs reproductibles (RepOps) : Afin de garantir que différents matériels (comme Nvidia A100 et H100) puissent produire des résultats de calcul entièrement cohérents, Gensyn a développé la bibliothèque RepOps, qui permet une reproduction bit à bit multiplateforme en fixant l'ordre d'exécution des opérations en virgule flottante.#### Communication : échange d'informations efficaceDans les scénarios d'entraînement distribué à grande échelle, la communication efficace entre les nœuds est essentielle. Bien que les méthodes de parallélisme de données traditionnelles puissent réduire les coûts de communication dans une certaine mesure, leur évolutivité est limitée par les contraintes de mémoire car elles exigent que chaque nœud stocke le modèle complet. Pour cela, Gensyn a proposé une toute nouvelle solution :* SkipPipe – pipeline à saut dynamique parallèle : La technologie SkipPipe réduit le temps d'attente inutile en sautant certaines étapes dans les pipelines traditionnels en sélectionnant dynamiquement les couches de calcul traversées par des micro-lots. Son algorithme de planification innovant évalue en temps réel la disponibilité des différents chemins, réduisant ainsi le temps d'inactivité des nœuds et raccourcissant considérablement la durée totale de formation. Selon les données de test, dans un environnement décentralisé, SkipPipe peut réduire le temps de formation d'environ 55 %, et en cas de défaillance de certains nœuds, la performance du modèle ne diminue que d'environ 7 %.* Normes de communication et collaboration inter-nœuds Gensyn a construit un protocole de communication similaire à TCP/IP, permettant aux participants du monde entier, quel que soit l'appareil utilisé, de transmettre des données et d'échanger des informations de manière efficace et transparente. Cette norme ouverte fournit une base réseau solide pour l'entraînement collaboratif décentralisé.#### Vérification : assurer la confiance et la sécuritéDans un réseau distribué sans confiance, confirmer que les résultats de calcul soumis par les différentes parties participantes sont réels et valides représente un grand défi. Gensyn a donc introduit un protocole de validation spécifique, visant à garantir, grâce à un mécanisme peu coûteux et efficace, que tous les fournisseurs de puissance de calcul fournissent des résultats de travail corrects :* Protocole de vérification Verde : Verde est le premier système de vérification conçu spécifiquement pour l’apprentissage automatique moderne. L’essentiel est d’utiliser un mécanisme léger de résolution des litiges pour localiser rapidement l’étape du processus d’apprentissage où le désaccord entre le modèle et le validateur se produit. Contrairement aux méthodes de vérification traditionnelles, où l’ensemble de la tâche doit être réexécuté, Verde n’a qu’à recalculer l’opération contestée, ce qui réduit considérablement la surcharge de validation.* délégation par arbitrage (référée) : après avoir adopté cette méthode, si la sortie d'un fournisseur présente un problème, le validateur peut persuader un arbitre neutre à travers un jeu de résolution de litiges efficace, garantissant que la validité du résultat global est assurée tant qu'il existe au moins un nœud honnête.* Stockage et hachage des états intermédiaires : Pour soutenir le processus de vérification ci-dessus, les participants n'ont besoin de stocker et de hacher que certaines parties des points de contrôle d'entraînement intermédiaires, plutôt que l'intégralité des données, ce qui réduit à la fois l'occupation des ressources et améliore l'évolutivité et la réactivité du système.

Comment rendre l’entraînement à l’IA plus efficace et décentralisé avec le lancement du testnet Gensyn ?

RL Swarm : fonctionnalités clés et entraînement collaboratif

Infrastructure trois grands piliers : exécution, communication et vérification

Exécution : cohérence et puissance de calcul distribuée

Communication : échange d'informations efficace

Vérification : assurer la confiance et la sécurité