Si vous avez suivi la scène locale de l’IA, vous connaissez probablement Qwopus—le modèle open-source qui a tenté de distiller le raisonnement de Claude Opus 4.6 dans Qwen d’Alibaba, afin que vous puissiez exécuter quelque chose ressemblant à Opus sur votre propre matériel gratuitement. Cela a fonctionné de manière étonnamment efficace. Le problème évident : Qwen est un modèle chinois, et tout le monde n’est pas à l’aise avec cela.
Jackrong, le même développeur pseudonyme derrière ce projet, a entendu les retours. Sa réponse est Gemopus—une nouvelle famille de fine-tunes de style Claude Opus construite entièrement sur Gemma 4, open-source de Google. ADN américain, même idée : raisonnement de niveau frontier, fonctionnant localement sur du matériel que vous possédez déjà.
La famille se décline en deux versions. Gemopus-4-26B-A4B est l’option la plus lourde—un modèle de type Mixture of Experts (MOE) qui possède 26 milliards de paramètres au total, mais n’en active qu’environ 4 milliards lors de l’inférence, ce qui lui permet de surpasser ses limites sur du matériel contraint.

Les paramètres déterminent la capacité d’un IA à apprendre, raisonner et stocker des informations. Disposer de 26 milliards de paramètres donne au modèle une vaste gamme de connaissances. Mais en n’« éveillant » que les 4 milliards de paramètres pertinents pour votre requête spécifique, il offre les résultats de haute qualité d’un IA massif tout en restant suffisamment léger pour fonctionner en douceur sur du matériel quotidien.
L’autre version est Gemopus-4-E4B, un modèle de 4 milliards de paramètres conçu pour fonctionner confortablement sur un iPhone moderne ou un MacBook fin et léger—sans GPU requis.

Le choix du modèle de base est important ici. Gemma 4 de Google, sorti le 2 avril, est construit directement à partir des mêmes recherches et technologies que Gemini 3—la société l’a explicitement indiqué lors du lancement. Cela signifie que Gemopus possède quelque chose qu’aucune fine-tune basée sur Qwen ne peut revendiquer : l’ADN du modèle fermé de pointe de Google, sous le capot, enveloppé dans le style de pensée d’Anthropic. Le meilleur des deux mondes, plus ou moins.

Ce qui différencie Gemopus de la vague d’autres fine-tunes Gemma qui inondent actuellement Hugging Face, c’est la philosophie qui le sous-tend. Jackrong a délibérément choisi de ne pas forcer les traces de raisonnement en chaîne de Claude dans les poids de Gemma—une solution de facilité que prennent la plupart des autres versions.
Son argument, soutenu par des recherches récentes, est que bourrer un modèle étudiant avec un texte de raisonnement de surface d’un enseignant ne transfère pas réellement la capacité de raisonnement. Cela enseigne l’imitation, pas la logique. « Il n’est pas nécessaire d’avoir une imagination excessive ou une réplication superstitieuse de la chaîne de pensée à la Claude, » indique la fiche du modèle. Au lieu de cela, il s’est concentré sur la qualité des réponses, la clarté structurelle et la naturel de la conversation—corrigeant le ton rigide de Gemma, qui ressemble à une Wikipedia, et sa tendance à faire la leçon sur des sujets non demandés.
L’ingénieur en infrastructure IA Kyle Hessling a réalisé des benchmarks indépendants et publié les résultats directement sur la fiche du modèle. Son verdict sur la variante 26B était plutôt favorable. « Heureux d’avoir testé cette version intensément, c’est une fine-tune excellente d’un modèle déjà exceptionnel, » a-t-il écrit sur X. « Il excelle dans les requêtes en une seule étape sur de longs contextes, et fonctionne incroyablement vite grâce à l’architecture MOE (mixture of experts). »

Gemopus-4-26B-A4B de Jackrong EST EN LIGNE !

Heureux d’avoir testé cette version intensément (voir mes benchmarks dans la fiche du modèle) et c’est une fine-tune excellente d’un modèle déjà exceptionnel ! Mon ami Jackrong est toujours en train de concocter les meilleurs !

Il excelle dans les requêtes en une seule étape sur de longs…

— Kyle Hessling (@KyleHessling1) 10 avril 2026

La version E4B plus petite a passé tous les 14 tests de compétences fondamentales—suivi d’instructions, codage, mathématiques, raisonnement multi-étapes, traduction, sécurité, mise en cache—et a réussi tous les 12 tests de contexte long à 30K et 60K tokens. Sur la recherche de la paille dans la botte de foin, elle a passé 13 sur 13 probes, y compris un test d’étirement à un million de tokens avec YaRN 8× RoPE.

Le 26B s’étend nativement à 131K de contexte et jusqu’à 524K avec YaRN, ce que Hessling a également testé intensément : « Il a aussi écrasé mes tests simples de recherche de la paille dans la botte de foin jusqu’à un contexte étendu de 524k ! »
Sur du matériel edge, le E4B est vraiment rapide. Jackrong rapporte 45–60 tokens par seconde sur iPhone 17 Pro Max, et 90–120 tokens par seconde sur MacBook Air M3/M4 via MLX. L’architecture MOE 26B signifie qu’il se décharge gracieusement sur des systèmes à mémoire unifiée ou des GPU avec moins de 10 Go de VRAM. Hessling l’a recommandé comme son modèle quotidien pour les configurations à VRAM limitée.

Les deux modèles sont disponibles en format GGUF, ce qui signifie que vous pouvez les importer directement dans LM Studio ou llama.cpp sans configuration. Le code complet de formation et un guide étape par étape pour le fine-tuning sont disponibles sur le GitHub de Jackrong—même pipeline que celui utilisé pour Qwopus, même configuration Unsloth et LoRA, reproductible sur Colab.
Gemopus n’est pas sans ses imperfections. La gestion des outils reste cassée dans toute la série Gemma 4 dans llama.cpp et LM Studio—échecs d’appel, incompatibilités de format, boucles—donc si votre flux de travail dépend d’agents utilisant des outils externes, ce n’est pas encore votre modèle. Jackrong lui-même le qualifie « d’exploration d’ingénierie plutôt qu’une solution prête pour la production », et recommande sa propre série Qwopus 3.5 pour ceux qui ont besoin de quelque chose de plus stable pour des charges de travail réelles.
Et parce que Jackrong a délibérément évité la distillation agressive du raisonnement en chaîne à la Claude, ne vous attendez pas à ce qu’il ait la même profondeur Opus que Qwopus—c’était un compromis conscient pour la stabilité, pas une erreur.

Oui, la philosophie de celui-ci était la stabilité en priorité, il me semble que les modèles Gemma ont tendance à devenir instables si vous forcez une multitude de traces de raisonnement de Claude, vous pouvez le voir en testant beaucoup d’autres fine-tunes Opus Gemma sur Hugging Face.

Jackrong a essayé un…

— Kyle Hessling (@KyleHessling1) 10 avril 2026

Pour ceux qui veulent approfondir le fine-tuning de Gemma pour le raisonnement spécifiquement, il existe aussi un projet communautaire à suivre : Ornstein, par le développeur pseudonyme DJLougen, qui reprend la même base Gemma 4 de 26B et se concentre spécifiquement sur l’amélioration de ses chaînes de raisonnement sans dépendre de la logique ou du style d’un modèle tiers particulier.
Une mise en garde honnête : la dynamique d’entraînement de Gemma est plus chaotique que celle de Qwen pour les fine-tuners—fluctuations de perte plus larges, sensibilité accrue aux hyperparamètres. Jackrong le dit lui-même. Si vous avez besoin d’un modèle local plus éprouvé pour des workflows en production, sa série Qwopus 3.5 reste plus robuste et validée. Mais si vous cherchez un modèle américain avec une finition de style Opus, Gemopus est actuellement votre meilleure option. Une variante plus dense de 31B Gemopus est aussi en préparation, Hessling la tease comme « un vrai succès ».
Si vous souhaitez essayer d’exécuter des modèles locaux sur votre propre matériel, consultez notre guide pour commencer avec l’IA locale.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GatePreIPOsLaunchesWithSpaceX
141.82K Popularité
#
IsraelStrikesIranBTCPlunges
29.92K Popularité
#
US-IranTalksVSTroopBuildup
765.99K Popularité
#
CryptoMarketRecovery
94.25K Popularité
#
WCTCTradingChallengeShare8MUSDT
622.8K Popularité

Épingler

Gemma de Google agit déjà comme Gemini—quelqu’un l’a aussi fait penser à Claude Opus

Sujets populaires

GatePreIPOsLaunchesWithSpaceX

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

WCTCTradingChallengeShare8MUSDT

Épingler