DeepSeek-R1 cumple un año desde su lanzamiento, y en este punto, la presencia de un nuevo modelo ha emergido en el código de GitHub. Según las últimas noticias, al actualizar la biblioteca de código FlashMLA, se mencionan “MODEL1” en 28 de los 114 archivos, diferenciándose del conocido V32 (DeepSeek-V3.2) como una arquitectura de modelo distinta. Estas pistas dispersas en el código delinean un panorama de DeepSeek en constante iteración de nuevas arquitecturas.
Señales de innovación en el código
Diferencias en detalles técnicos
MODEL1 y V32 presentan diferencias evidentes en la implementación del código, principalmente en tres aspectos clave:
Optimización y ajuste en la disposición de la caché KV
Mejora en el mecanismo de manejo de esparcimiento
Innovación en el método de decodificación FP8
Estos cambios apuntan en la misma dirección: optimización de memoria. En aplicaciones prácticas de inferencia con modelos grandes, la gestión de la caché KV afecta directamente la velocidad de inferencia y el uso de memoria de video. El manejo de esparcimiento influye en la eficiencia del modelo, y la decodificación FP8 involucra un equilibrio entre precisión de cálculo y velocidad. Todos estos son enfoques en los que la industria está centrando esfuerzos de innovación.
¿Por qué una nueva arquitectura?
V32 es una versión iterativa de V3, perteneciente a la misma serie de optimización. Sin embargo, MODEL1 aparece en el código como un modelo independiente, lo que indica que no se trata simplemente de un ajuste de parámetros, sino que probablemente representa una innovación a nivel de arquitectura. Este tipo de diferenciación es poco común en la gestión de código de DeepSeek, lo que sugiere la importancia de MODEL1.
Capacidad de investigación y desarrollo detrás
La aparición de MODEL1 refleja la inversión continua en tecnología por parte de DeepSeek. Según información pública, el costo de entrenamiento de R1 de DeepSeek es de aproximadamente 294,000 dólares, y el presupuesto total de V3 alcanza los 5.57 millones de dólares. Estos costos no son elevados en comparación con los laboratorios de élite en Silicon Valley, pero lanzar continuamente nuevas arquitecturas y modelos requiere un soporte financiero estable.
Este respaldo proviene del Quantum de DeepSeek, una empresa de cuantificación. En 2025, los ingresos promedio de Quantum alcanzaron el 56.55%, gestionando más de 70 mil millones de yuanes, con una estimación de ingresos anuales que podría superar los 5 mil millones de RMB. Este flujo de caja permite a DeepSeek centrarse en investigación y desarrollo a largo plazo sin presiones externas de financiamiento.
Posibles direcciones futuras
Basándose en las optimizaciones del código, MODEL1 podría avanzar en varias áreas:
Mejorar aún más la eficiencia de inferencia, especialmente en escenarios móviles o de edge computing
Encontrar un nuevo equilibrio entre tamaño del modelo y rendimiento
Diseñar arquitecturas específicas para aplicaciones particulares
Estas direcciones están alineadas con la tendencia principal en el desarrollo de grandes modelos: no simplemente aumentar parámetros, sino buscar soluciones óptimas en eficiencia, costo y rendimiento.
Resumen
La exposición de MODEL1 en el primer aniversario de R1 representa una continuación natural de la innovación tecnológica y refleja el ritmo de investigación y desarrollo de DeepSeek. Desde los detalles del código, se percibe que esta empresa se dedica a optimizaciones de ingeniería, no a la promoción de conceptos vacíos. En comparación con otras compañías, DeepSeek tiene dos ventajas: recursos de I+D abundantes y acumulación tecnológica continua. La aparición de MODEL1 es solo un hito en este proceso. La próxima pregunta es cuándo se lanzará oficialmente este nuevo arquitectura y cuánto mejorará su rendimiento. Es probable que estas respuestas se revelen muy pronto.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
R1 un año de exposición MODEL1: Pistas técnicas dejadas por DeepSeek en GitHub
DeepSeek-R1 cumple un año desde su lanzamiento, y en este punto, la presencia de un nuevo modelo ha emergido en el código de GitHub. Según las últimas noticias, al actualizar la biblioteca de código FlashMLA, se mencionan “MODEL1” en 28 de los 114 archivos, diferenciándose del conocido V32 (DeepSeek-V3.2) como una arquitectura de modelo distinta. Estas pistas dispersas en el código delinean un panorama de DeepSeek en constante iteración de nuevas arquitecturas.
Señales de innovación en el código
Diferencias en detalles técnicos
MODEL1 y V32 presentan diferencias evidentes en la implementación del código, principalmente en tres aspectos clave:
Estos cambios apuntan en la misma dirección: optimización de memoria. En aplicaciones prácticas de inferencia con modelos grandes, la gestión de la caché KV afecta directamente la velocidad de inferencia y el uso de memoria de video. El manejo de esparcimiento influye en la eficiencia del modelo, y la decodificación FP8 involucra un equilibrio entre precisión de cálculo y velocidad. Todos estos son enfoques en los que la industria está centrando esfuerzos de innovación.
¿Por qué una nueva arquitectura?
V32 es una versión iterativa de V3, perteneciente a la misma serie de optimización. Sin embargo, MODEL1 aparece en el código como un modelo independiente, lo que indica que no se trata simplemente de un ajuste de parámetros, sino que probablemente representa una innovación a nivel de arquitectura. Este tipo de diferenciación es poco común en la gestión de código de DeepSeek, lo que sugiere la importancia de MODEL1.
Capacidad de investigación y desarrollo detrás
La aparición de MODEL1 refleja la inversión continua en tecnología por parte de DeepSeek. Según información pública, el costo de entrenamiento de R1 de DeepSeek es de aproximadamente 294,000 dólares, y el presupuesto total de V3 alcanza los 5.57 millones de dólares. Estos costos no son elevados en comparación con los laboratorios de élite en Silicon Valley, pero lanzar continuamente nuevas arquitecturas y modelos requiere un soporte financiero estable.
Este respaldo proviene del Quantum de DeepSeek, una empresa de cuantificación. En 2025, los ingresos promedio de Quantum alcanzaron el 56.55%, gestionando más de 70 mil millones de yuanes, con una estimación de ingresos anuales que podría superar los 5 mil millones de RMB. Este flujo de caja permite a DeepSeek centrarse en investigación y desarrollo a largo plazo sin presiones externas de financiamiento.
Posibles direcciones futuras
Basándose en las optimizaciones del código, MODEL1 podría avanzar en varias áreas:
Estas direcciones están alineadas con la tendencia principal en el desarrollo de grandes modelos: no simplemente aumentar parámetros, sino buscar soluciones óptimas en eficiencia, costo y rendimiento.
Resumen
La exposición de MODEL1 en el primer aniversario de R1 representa una continuación natural de la innovación tecnológica y refleja el ritmo de investigación y desarrollo de DeepSeek. Desde los detalles del código, se percibe que esta empresa se dedica a optimizaciones de ingeniería, no a la promoción de conceptos vacíos. En comparación con otras compañías, DeepSeek tiene dos ventajas: recursos de I+D abundantes y acumulación tecnológica continua. La aparición de MODEL1 es solo un hito en este proceso. La próxima pregunta es cuándo se lanzará oficialmente este nuevo arquitectura y cuánto mejorará su rendimiento. Es probable que estas respuestas se revelen muy pronto.