Rakuten lança modelo Rakuten AI 3.0, ficheiros de configuração revelam arquitetura subjacente como DeepSeek V3

Gate News notícia, 17 de março, o grupo Rakuten lançou hoje o Rakuten AI 3.0 sob o nome de "maior modelo de IA de alto desempenho do Japão", de forma gratuita sob a licença Apache 2.0. Este modelo possui arquitetura MoE (mistura de especialistas), com um total de 671B de parâmetros, ativação de 37B por inferência, janela de contexto de 128K, otimizado para japonês, superando o GPT-4o em várias provas de benchmark em japonês. O modelo é resultado do projeto GENIAC, promovido conjuntamente pelo Ministério da Economia, Comércio e Indústria do Japão e pela Agência de Desenvolvimento de Tecnologias para a Indústria de Novas Energias (NEDO), com parte do financiamento de recursos computacionais fornecido pelo governo japonês. Na sua comunicação, a Rakuten descreveu a origem do modelo base como "aproveitamento máximo dos melhores resultados da comunidade open source", sem nomear especificamente o modelo. A comunidade verificou rapidamente os arquivos do modelo publicados no HuggingFace e constatou que o arquivo config.json indica claramente model_type: deepseek_v3 e architectures: DeepseekV3ForCausalLM, com um total de 671B de parâmetros, ativação de 37B e janela de contexto de 128K, totalmente compatíveis com o DeepSeek V3, indicando que o modelo foi ajustado em dados de japonês a partir do DeepSeek V3.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário