DeepSeek-R1 cumple un año y revela el nuevo modelo «MODEL1»

BlockBeats noticias, 21 de enero, según reporta Quantumbit, en el primer aniversario del lanzamiento de DeepSeek-R1 se ha revelado un nuevo modelo llamado «MODEL1». DeepSeek actualizó el código FlashMLA en GitHub, en 114 archivos se mencionan 28 veces MODEL1, apareciendo junto a V32 como modelos diferentes. Se sabe que V32 es DeepSeek-V3.2, y lo más probable es que MODEL1 sea una nueva arquitectura. Las diferencias específicas en el código se reflejan en la disposición de la caché KV, el manejo de la esparcidad y la decodificación FP8, con varias optimizaciones en la memoria.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios