R1 première année d'anniversaire dévoile le MODEL1 : les indices techniques laissés par DeepSeek sur GitHub

DeepSeek-R1 fête son premier anniversaire, et à cette étape, une nouvelle silhouette de modèle apparaît dans le code GitHub. Selon les dernières informations, lors de la mise à jour de la bibliothèque de code FlashMLA, 28 mentions de “MODEL1” ont été trouvées dans 114 fichiers, apparaissant comme un modèle différent de V32 (DeepSeek-V3.2), indiquant une architecture distincte. Ces indices dispersés dans le code esquissent le tableau d’une DeepSeek en constante itération de nouvelles architectures.

Signaux d’innovation dans le code

Différences dans les détails techniques

MODEL1 et V32 présentent des différences évidentes dans leur implémentation, principalement dans trois aspects clés :

  • Optimisation de la disposition du cache KV
  • Amélioration du mécanisme de traitement de la sparsité
  • Innovation dans la méthode de décodage FP8

Ces changements convergent tous vers une même direction : l’optimisation de la mémoire. Dans l’application pratique de l’inférence de grands modèles, la gestion du cache KV influence directement la vitesse d’inférence et l’utilisation de la mémoire GPU, le traitement de la sparsité concerne l’efficacité du modèle, et le décodage FP8 touche à l’équilibre entre précision de calcul et vitesse. Ce sont des axes de recherche prioritaires dans l’industrie.

Pourquoi une nouvelle architecture

V32 est une version itérative de V3, une optimisation de la même génération. Cependant, MODEL1 apparaît dans le code comme un modèle indépendant, ce qui indique qu’il ne s’agit pas simplement d’un ajustement de paramètres, mais probablement d’une innovation au niveau de l’architecture. Cette distinction est peu courante dans la gestion du code de DeepSeek, ce qui souligne l’importance de MODEL1.

Capacité de R&D derrière

L’apparition de MODEL1 reflète l’investissement technologique continu de DeepSeek. Selon les informations publiques, le coût d’entraînement de R1 est d’environ 29,4 millions de dollars, avec un budget total pour V3 de 5,57 millions de dollars. Ces coûts ne sont pas excessifs pour un laboratoire de premier plan de la Silicon Valley, mais le lancement constant de nouvelles architectures et modèles nécessite un financement stable.

Ce soutien provient de la quantification de Fantasia, qui génère en 2025 une moyenne de revenus de 56,55 %, avec une gestion dépassant 70 milliards de yuans, et un chiffre d’affaires annuel estimé à plus de 5 milliards de RMB. Un tel flux de trésorerie permet à DeepSeek de se concentrer sur la R&D à long terme sans pression de financement externe.

Orientations possibles pour l’avenir

Basé sur les axes d’optimisation dans le code, MODEL1 pourrait apporter des avancées dans plusieurs domaines :

  • Amélioration de l’efficacité de l’inférence, notamment sur mobile ou dans des scénarios edge
  • Nouvel équilibre entre la taille du modèle et ses performances
  • Conception d’architectures dédiées pour des applications spécifiques

Ces directions s’inscrivent dans la tendance principale du développement des grands modèles — pas simplement augmenter le nombre de paramètres, mais optimiser l’efficacité, le coût et la performance.

En résumé

La révélation de MODEL1 à l’occasion du premier anniversaire de R1 est à la fois une continuité naturelle de l’innovation technologique et une manifestation du rythme de R&D de DeepSeek. D’après les détails du code, cette entreprise se concentre sérieusement sur l’optimisation technique plutôt que sur la simple hype. Comparée à d’autres acteurs, DeepSeek dispose de deux avantages : des ressources R&D abondantes et une accumulation technologique continue. L’apparition de MODEL1 n’est qu’une étape dans ce processus. La question suivante est de savoir quand ce nouveau modèle sera officiellement lancé et dans quelle mesure il améliorera les performances. Ces réponses seront probablement révélées très bientôt.

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler

Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)