El 21 de enero, según Quantum Bit, en el aniversario del lanzamiento de DeepSeek-R1, se reveló el nuevo modelo «MODEL1». DeepSeek actualizó el código FlashMLA en GitHub, en 114 archivos se mencionan 28 veces MODEL1, apareciendo junto a V32 como modelos diferentes. Se sabe que V32 es DeepSeek-V3.2, y lo más probable es que MODEL1 sea una nueva arquitectura. Las diferencias específicas en el código se reflejan en la disposición de la caché KV, el manejo de la esparcidad y la decodificación FP8, con varias diferencias en la optimización de memoria.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
DeepSeek-R1 cumple un año y revela el nuevo modelo «MODEL1»
El 21 de enero, según Quantum Bit, en el aniversario del lanzamiento de DeepSeek-R1, se reveló el nuevo modelo «MODEL1». DeepSeek actualizó el código FlashMLA en GitHub, en 114 archivos se mencionan 28 veces MODEL1, apareciendo junto a V32 como modelos diferentes. Se sabe que V32 es DeepSeek-V3.2, y lo más probable es que MODEL1 sea una nueva arquitectura. Las diferencias específicas en el código se reflejan en la disposición de la caché KV, el manejo de la esparcidad y la decodificación FP8, con varias diferencias en la optimización de memoria.