DeepSeek-R1 fête son premier anniversaire, et à cette étape, une nouvelle silhouette de modèle apparaît dans le code GitHub. Selon les dernières informations, lors de la mise à jour de la bibliothèque de code FlashMLA, 28 mentions de “MODEL1” ont été trouvées dans 114 fichiers, apparaissant comme un modèle différent de V32 (DeepSeek-V3.2), indiquant une architecture distincte. Ces indices dispersés dans le code esquissent le tableau d’une DeepSeek en constante itération de nouvelles architectures.
Signaux d’innovation dans le code
Différences dans les détails techniques
MODEL1 et V32 présentent des différences évidentes dans leur implémentation, principalement dans trois aspects clés :
Optimisation de la disposition du cache KV
Amélioration du mécanisme de traitement de la sparsité
Innovation dans la méthode de décodage FP8
Ces changements convergent tous vers une même direction : l’optimisation de la mémoire. Dans l’application pratique de l’inférence de grands modèles, la gestion du cache KV influence directement la vitesse d’inférence et l’utilisation de la mémoire GPU, le traitement de la sparsité concerne l’efficacité du modèle, et le décodage FP8 touche à l’équilibre entre précision de calcul et vitesse. Ce sont des axes de recherche prioritaires dans l’industrie.
Pourquoi une nouvelle architecture
V32 est une version itérative de V3, une optimisation de la même génération. Cependant, MODEL1 apparaît dans le code comme un modèle indépendant, ce qui indique qu’il ne s’agit pas simplement d’un ajustement de paramètres, mais probablement d’une innovation au niveau de l’architecture. Cette distinction est peu courante dans la gestion du code de DeepSeek, ce qui souligne l’importance de MODEL1.
Capacité de R&D derrière
L’apparition de MODEL1 reflète l’investissement technologique continu de DeepSeek. Selon les informations publiques, le coût d’entraînement de R1 est d’environ 29,4 millions de dollars, avec un budget total pour V3 de 5,57 millions de dollars. Ces coûts ne sont pas excessifs pour un laboratoire de premier plan de la Silicon Valley, mais le lancement constant de nouvelles architectures et modèles nécessite un financement stable.
Ce soutien provient de la quantification de Fantasia, qui génère en 2025 une moyenne de revenus de 56,55 %, avec une gestion dépassant 70 milliards de yuans, et un chiffre d’affaires annuel estimé à plus de 5 milliards de RMB. Un tel flux de trésorerie permet à DeepSeek de se concentrer sur la R&D à long terme sans pression de financement externe.
Orientations possibles pour l’avenir
Basé sur les axes d’optimisation dans le code, MODEL1 pourrait apporter des avancées dans plusieurs domaines :
Amélioration de l’efficacité de l’inférence, notamment sur mobile ou dans des scénarios edge
Nouvel équilibre entre la taille du modèle et ses performances
Conception d’architectures dédiées pour des applications spécifiques
Ces directions s’inscrivent dans la tendance principale du développement des grands modèles — pas simplement augmenter le nombre de paramètres, mais optimiser l’efficacité, le coût et la performance.
En résumé
La révélation de MODEL1 à l’occasion du premier anniversaire de R1 est à la fois une continuité naturelle de l’innovation technologique et une manifestation du rythme de R&D de DeepSeek. D’après les détails du code, cette entreprise se concentre sérieusement sur l’optimisation technique plutôt que sur la simple hype. Comparée à d’autres acteurs, DeepSeek dispose de deux avantages : des ressources R&D abondantes et une accumulation technologique continue. L’apparition de MODEL1 n’est qu’une étape dans ce processus. La question suivante est de savoir quand ce nouveau modèle sera officiellement lancé et dans quelle mesure il améliorera les performances. Ces réponses seront probablement révélées très bientôt.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
R1 première année d'anniversaire dévoile le MODEL1 : les indices techniques laissés par DeepSeek sur GitHub
DeepSeek-R1 fête son premier anniversaire, et à cette étape, une nouvelle silhouette de modèle apparaît dans le code GitHub. Selon les dernières informations, lors de la mise à jour de la bibliothèque de code FlashMLA, 28 mentions de “MODEL1” ont été trouvées dans 114 fichiers, apparaissant comme un modèle différent de V32 (DeepSeek-V3.2), indiquant une architecture distincte. Ces indices dispersés dans le code esquissent le tableau d’une DeepSeek en constante itération de nouvelles architectures.
Signaux d’innovation dans le code
Différences dans les détails techniques
MODEL1 et V32 présentent des différences évidentes dans leur implémentation, principalement dans trois aspects clés :
Ces changements convergent tous vers une même direction : l’optimisation de la mémoire. Dans l’application pratique de l’inférence de grands modèles, la gestion du cache KV influence directement la vitesse d’inférence et l’utilisation de la mémoire GPU, le traitement de la sparsité concerne l’efficacité du modèle, et le décodage FP8 touche à l’équilibre entre précision de calcul et vitesse. Ce sont des axes de recherche prioritaires dans l’industrie.
Pourquoi une nouvelle architecture
V32 est une version itérative de V3, une optimisation de la même génération. Cependant, MODEL1 apparaît dans le code comme un modèle indépendant, ce qui indique qu’il ne s’agit pas simplement d’un ajustement de paramètres, mais probablement d’une innovation au niveau de l’architecture. Cette distinction est peu courante dans la gestion du code de DeepSeek, ce qui souligne l’importance de MODEL1.
Capacité de R&D derrière
L’apparition de MODEL1 reflète l’investissement technologique continu de DeepSeek. Selon les informations publiques, le coût d’entraînement de R1 est d’environ 29,4 millions de dollars, avec un budget total pour V3 de 5,57 millions de dollars. Ces coûts ne sont pas excessifs pour un laboratoire de premier plan de la Silicon Valley, mais le lancement constant de nouvelles architectures et modèles nécessite un financement stable.
Ce soutien provient de la quantification de Fantasia, qui génère en 2025 une moyenne de revenus de 56,55 %, avec une gestion dépassant 70 milliards de yuans, et un chiffre d’affaires annuel estimé à plus de 5 milliards de RMB. Un tel flux de trésorerie permet à DeepSeek de se concentrer sur la R&D à long terme sans pression de financement externe.
Orientations possibles pour l’avenir
Basé sur les axes d’optimisation dans le code, MODEL1 pourrait apporter des avancées dans plusieurs domaines :
Ces directions s’inscrivent dans la tendance principale du développement des grands modèles — pas simplement augmenter le nombre de paramètres, mais optimiser l’efficacité, le coût et la performance.
En résumé
La révélation de MODEL1 à l’occasion du premier anniversaire de R1 est à la fois une continuité naturelle de l’innovation technologique et une manifestation du rythme de R&D de DeepSeek. D’après les détails du code, cette entreprise se concentre sérieusement sur l’optimisation technique plutôt que sur la simple hype. Comparée à d’autres acteurs, DeepSeek dispose de deux avantages : des ressources R&D abondantes et une accumulation technologique continue. L’apparition de MODEL1 n’est qu’une étape dans ce processus. La question suivante est de savoir quand ce nouveau modèle sera officiellement lancé et dans quelle mesure il améliorera les performances. Ces réponses seront probablement révélées très bientôt.