Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Gemma de Google agit déjà comme Gemini—quelqu’un l’a aussi fait penser à Claude Opus
Si vous avez suivi la scène locale de l’IA, vous connaissez probablement Qwopus—le modèle open-source qui a tenté de distiller le raisonnement de Claude Opus 4.6 dans Qwen d’Alibaba, afin que vous puissiez exécuter quelque chose ressemblant à Opus sur votre propre matériel gratuitement. Cela a fonctionné de manière étonnamment efficace. Le problème évident : Qwen est un modèle chinois, et tout le monde n’est pas à l’aise avec cela.
Jackrong, le même développeur pseudonyme derrière ce projet, a entendu les retours. Sa réponse est Gemopus—une nouvelle famille de fine-tunes de style Claude Opus construite entièrement sur Gemma 4, open-source de Google. ADN américain, même idée : raisonnement de niveau frontier, fonctionnant localement sur du matériel que vous possédez déjà.
La famille se décline en deux versions. Gemopus-4-26B-A4B est l’option la plus lourde—un modèle de type Mixture of Experts (MOE) qui possède 26 milliards de paramètres au total, mais n’en active qu’environ 4 milliards lors de l’inférence, ce qui lui permet de surpasser ses limites sur du matériel contraint.
Les paramètres déterminent la capacité d’un IA à apprendre, raisonner et stocker des informations. Disposer de 26 milliards de paramètres donne au modèle une vaste gamme de connaissances. Mais en n’« éveillant » que les 4 milliards de paramètres pertinents pour votre requête spécifique, il offre les résultats de haute qualité d’un IA massif tout en restant suffisamment léger pour fonctionner en douceur sur du matériel quotidien.
L’autre version est Gemopus-4-E4B, un modèle de 4 milliards de paramètres conçu pour fonctionner confortablement sur un iPhone moderne ou un MacBook fin et léger—sans GPU requis.
Le choix du modèle de base est important ici. Gemma 4 de Google, sorti le 2 avril, est construit directement à partir des mêmes recherches et technologies que Gemini 3—la société l’a explicitement indiqué lors du lancement. Cela signifie que Gemopus possède quelque chose qu’aucune fine-tune basée sur Qwen ne peut revendiquer : l’ADN du modèle fermé de pointe de Google, sous le capot, enveloppé dans le style de pensée d’Anthropic. Le meilleur des deux mondes, plus ou moins.
Ce qui différencie Gemopus de la vague d’autres fine-tunes Gemma qui inondent actuellement Hugging Face, c’est la philosophie qui le sous-tend. Jackrong a délibérément choisi de ne pas forcer les traces de raisonnement en chaîne de Claude dans les poids de Gemma—une solution de facilité que prennent la plupart des autres versions.
Son argument, soutenu par des recherches récentes, est que bourrer un modèle étudiant avec un texte de raisonnement de surface d’un enseignant ne transfère pas réellement la capacité de raisonnement. Cela enseigne l’imitation, pas la logique. « Il n’est pas nécessaire d’avoir une imagination excessive ou une réplication superstitieuse de la chaîne de pensée à la Claude, » indique la fiche du modèle. Au lieu de cela, il s’est concentré sur la qualité des réponses, la clarté structurelle et la naturel de la conversation—corrigeant le ton rigide de Gemma, qui ressemble à une Wikipedia, et sa tendance à faire la leçon sur des sujets non demandés.
L’ingénieur en infrastructure IA Kyle Hessling a réalisé des benchmarks indépendants et publié les résultats directement sur la fiche du modèle. Son verdict sur la variante 26B était plutôt favorable. « Heureux d’avoir testé cette version intensément, c’est une fine-tune excellente d’un modèle déjà exceptionnel, » a-t-il écrit sur X. « Il excelle dans les requêtes en une seule étape sur de longs contextes, et fonctionne incroyablement vite grâce à l’architecture MOE (mixture of experts). »
La version E4B plus petite a passé tous les 14 tests de compétences fondamentales—suivi d’instructions, codage, mathématiques, raisonnement multi-étapes, traduction, sécurité, mise en cache—et a réussi tous les 12 tests de contexte long à 30K et 60K tokens. Sur la recherche de la paille dans la botte de foin, elle a passé 13 sur 13 probes, y compris un test d’étirement à un million de tokens avec YaRN 8× RoPE.
Le 26B s’étend nativement à 131K de contexte et jusqu’à 524K avec YaRN, ce que Hessling a également testé intensément : « Il a aussi écrasé mes tests simples de recherche de la paille dans la botte de foin jusqu’à un contexte étendu de 524k ! »
Sur du matériel edge, le E4B est vraiment rapide. Jackrong rapporte 45–60 tokens par seconde sur iPhone 17 Pro Max, et 90–120 tokens par seconde sur MacBook Air M3/M4 via MLX. L’architecture MOE 26B signifie qu’il se décharge gracieusement sur des systèmes à mémoire unifiée ou des GPU avec moins de 10 Go de VRAM. Hessling l’a recommandé comme son modèle quotidien pour les configurations à VRAM limitée.
Les deux modèles sont disponibles en format GGUF, ce qui signifie que vous pouvez les importer directement dans LM Studio ou llama.cpp sans configuration. Le code complet de formation et un guide étape par étape pour le fine-tuning sont disponibles sur le GitHub de Jackrong—même pipeline que celui utilisé pour Qwopus, même configuration Unsloth et LoRA, reproductible sur Colab.
Gemopus n’est pas sans ses imperfections. La gestion des outils reste cassée dans toute la série Gemma 4 dans llama.cpp et LM Studio—échecs d’appel, incompatibilités de format, boucles—donc si votre flux de travail dépend d’agents utilisant des outils externes, ce n’est pas encore votre modèle. Jackrong lui-même le qualifie « d’exploration d’ingénierie plutôt qu’une solution prête pour la production », et recommande sa propre série Qwopus 3.5 pour ceux qui ont besoin de quelque chose de plus stable pour des charges de travail réelles.
Et parce que Jackrong a délibérément évité la distillation agressive du raisonnement en chaîne à la Claude, ne vous attendez pas à ce qu’il ait la même profondeur Opus que Qwopus—c’était un compromis conscient pour la stabilité, pas une erreur.
Pour ceux qui veulent approfondir le fine-tuning de Gemma pour le raisonnement spécifiquement, il existe aussi un projet communautaire à suivre : Ornstein, par le développeur pseudonyme DJLougen, qui reprend la même base Gemma 4 de 26B et se concentre spécifiquement sur l’amélioration de ses chaînes de raisonnement sans dépendre de la logique ou du style d’un modèle tiers particulier.
Une mise en garde honnête : la dynamique d’entraînement de Gemma est plus chaotique que celle de Qwen pour les fine-tuners—fluctuations de perte plus larges, sensibilité accrue aux hyperparamètres. Jackrong le dit lui-même. Si vous avez besoin d’un modèle local plus éprouvé pour des workflows en production, sa série Qwopus 3.5 reste plus robuste et validée. Mais si vous cherchez un modèle américain avec une finition de style Opus, Gemopus est actuellement votre meilleure option. Une variante plus dense de 31B Gemopus est aussi en préparation, Hessling la tease comme « un vrai succès ».
Si vous souhaitez essayer d’exécuter des modèles locaux sur votre propre matériel, consultez notre guide pour commencer avec l’IA locale.