Deep潮 TechFlow Noticias, 21 de enero, según datos de Jin10, en el primer aniversario del lanzamiento de DeepSeek-R1, se ha revelado un nuevo modelo llamado “MODEL1”. DeepSeek ha actualizado el código FlashMLA en GitHub, que menciona MODEL1 en 28 de las 114 archivos, apareciendo junto a V32 como modelos diferentes. Se sabe que V32 es DeepSeek-V3.2, y es muy probable que MODEL1 sea una nueva arquitectura. Las diferencias específicas en el código se reflejan en la disposición de la caché KV, el manejo de la esparcidad y la decodificación FP8, con varias diferencias en la optimización de memoria. (Cuántico)
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Deep潮 TechFlow Noticias, 21 de enero, según datos de Jin10, en el primer aniversario del lanzamiento de DeepSeek-R1, se ha revelado un nuevo modelo llamado “MODEL1”. DeepSeek ha actualizado el código FlashMLA en GitHub, que menciona MODEL1 en 28 de las 114 archivos, apareciendo junto a V32 como modelos diferentes. Se sabe que V32 es DeepSeek-V3.2, y es muy probable que MODEL1 sea una nueva arquitectura. Las diferencias específicas en el código se reflejan en la disposición de la caché KV, el manejo de la esparcidad y la decodificación FP8, con varias diferencias en la optimización de memoria. (Cuántico)