DeepSeek-R1 comemora um ano de lançamento e revela o novo modelo 「MODEL1」

BlockBeats notícia, 21 de janeiro, de acordo com a Quantumbit, no primeiro aniversário do lançamento do DeepSeek-R1, foi divulgado o novo modelo 「MODEL1」. O DeepSeek atualizou o código FlashMLA no GitHub, onde há 28 menções a MODEL1 em 114 arquivos, aparecendo ao lado do V32 como modelos diferentes. Sabe-se que o V32 é o DeepSeek-V3.2, e o MODEL1 provavelmente é uma nova arquitetura. As diferenças específicas no código manifestam-se na disposição do cache KV, no tratamento de esparsidade e na decodificação FP8, havendo várias alterações na otimização de memória.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário