Nvidia lance le modèle open source le plus puissant Nemotron 3 Ultra ! Se concentrant sur les tâches d'agent IA, des performances décuplées de 5 fois, réduction des coûts de 30 %

Le géant des puces NVIDIA a annoncé aujourd'hui (4) le lancement de son nouveau modèle phare open source « Nemotron 3 Ultra ». Ce modèle est spécialement conçu pour les agents IA (AI Agents) fonctionnant sur de longues périodes et pour des flux de travail multi-agents complexes, avec un total de 550 milliards de paramètres. En intégrant une architecture hybride et plusieurs innovations technologiques, Nemotron 3 Ultra ne se contente pas d'exceller dans de nombreux benchmarks, mais offre également une augmentation de débit jusqu'à 5 fois, tout en réduisant de 30 % le coût des tâches des agents.
(Précédent contexte : Nvidia dépense 400 millions de dollars pour acquérir Kumo AI ! Complétant le puzzle des « modèles de prévision d'entreprise », accélérant la transformation en un géant de l'IA tout-en-un)
(Complément de contexte : Nvidia s'allie avec la startup chinoise Yushu Technology Unitree ! Jensen Huang promeut une « plateforme d'IA pour robots humanoïdes », ciblant le marché physique de plusieurs dizaines de billions de dollars)

Table des matières

Toggle

  • 55 milliards de paramètres actifs, devenant le « cerveau » du flux de travail IA
  • Cinq grandes innovations technologiques : débit multiplié par 5, réduction des coûts de 30 %
  • Entièrement open source, accélérant la mise en œuvre d'applications IA d'entreprise

Dans la tendance de l'intelligence artificielle (IA) vers une automatisation avancée et des flux de travail complexes, les « systèmes multi-agents » rencontrent des limites en termes de coûts de calcul et d'efficacité, constituant le principal défi pour les entreprises adoptant l'IA. Pour résoudre ce problème, NVIDIA a officiellement lancé le 4 juin 2026 la gamme de produits phares Nemotron 3 — Nemotron 3 Ultra.

Il s'agit d'un modèle open source puissant, conçu spécifiquement pour « les agents IA fonctionnant sur de longues périodes ». Dans les flux de travail multi-agents traditionnels, en raison de la nécessité de planifier, d'appeler des outils, de déléguer à des sous-agents et de maintenir un contexte long, la consommation de jetons (Tokens) explose souvent, entraînant des coûts élevés et un risque de déviation des objectifs. Nemotron 3 Ultra a été créé pour surmonter ces défis.

55 milliards de paramètres actifs, devenant le « cerveau » du flux de travail IA

Nemotron 3 Ultra utilise une architecture Mixture-of-Experts (MoE) hybride, avec une taille totale de 550 milliards de paramètres, mais n'activant que 55 milliards lors de chaque opération, garantissant une efficacité maximale. Dans les flux de travail multi-agents, ce modèle est précisément positionné comme « orchestrateur » ou moteur de raisonnement avancé, spécialisé dans la planification approfondie, l'analyse complexe et la vérification logique à haute charge, tout en déléguant l'exécution routinière et l'appel d'outils à des modèles légers.

En termes de performance, Nemotron 3 Ultra brille dans plusieurs benchmarks axés sur les agents IA. Par exemple, il obtient un score de 91 % dans PinchBench, dédié à la productivité des agents, et atteint respectivement 40 % et 67 % dans EnterpriseOps-Gym (planification à long terme) et Terminal-Bench 2.0 (codage). Bien que le nombre de paramètres actifs soit moindre, ses capacités de raisonnement global surpassent ou égalent celles de modèles open source majeurs du marché comme GLM 5.1, Kimi K2.6 et Qwen3.5.

Cinq grandes innovations technologiques : débit multiplié par 5, réduction des coûts de 30 %

Pour atteindre de telles performances et vitesses, NVIDIA a intégré cinq innovations clés dans Nemotron 3 Ultra. La première est une « couche hybride Mamba-Transformer », combinant efficacement l'efficacité de traitement des longues séquences de Mamba avec la précision de rappel factuelle du Transformer. Ensuite, la prise en charge de la « quantification NVFP4 » permet de déployer sans couture les poids du modèle sur les GPU Hopper, Blackwell et Ampere, avec une amélioration de jusqu'à 5 fois du débit (vitesse de sortie) par rapport au format BF16 traditionnel sur Blackwell.

De plus, le modèle intègre LatentMoE (routeur d'experts efficace pour les charges de travail complexes), la prédiction multi-jetons (MTP, qui prédit plusieurs jetons futurs en une seule passe pour accélérer la génération de textes longs), et la distillation en ligne multi-enseignants (MOPD). Ces innovations réduisent considérablement la consommation totale de jetons lors du traitement des tâches, abaissant ainsi le coût des missions des agents d'entreprise jusqu'à 30 %.

Entièrement open source, accélérant la mise en œuvre d'applications IA d'entreprise

Concernant les données d'entraînement, Nemotron 3 Ultra repose sur une base de pré-entraînement massive de plus de 10 trillions de jetons, enrichie par plus de 212 milliards de jetons spécifiques à divers domaines (incluant documents juridiques, textes de style Wikipédia et code GitHub récent). NVIDIA souligne que ce modèle est entièrement open source, sous une licence OpenMDW-1.1 très flexible, et que ses poids, recettes d'entraînement et pipelines de données sont accessibles à la communauté.

Actuellement, les développeurs peuvent obtenir et déployer Nemotron 3 Ultra sur des plateformes principales telles que Hugging Face, NVIDIA Build et NIM. Grâce à ses capacités exceptionnelles de traitement de textes longs (atteignant 95 % dans le test Ruler @1M) et à son efficacité en termes de coûts, ce modèle est attendu pour devenir un outil précieux pour les entreprises souhaitant automatiser le service client, gérer la chaîne d'approvisionnement, renforcer la sécurité informatique ou valider la conception de puces.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé