深潮 TechFlow 消息,6 月 30 日,据美团官方发布,美团正式推出新一代大模型 LongCat-2.0 并同步开源。该模型总参数达 1.6T,是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,原生支持 1M 超长上下文,核心聚焦 Agentic Coding 场景下的代码理解、生成与执行。
技术层面,LongCat-2.0 采用 LongCat Sparse Attention(LSA)稀疏注意力机制,将长文本计算量从平方级降至线性级;通过零计算专家机制实现 token 级动态激活(33B~56B);并引入 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力。训练效率方面,团队历经三年攻克国产算力适配难题,月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。
性能评测方面,LongCat-2.0 在 SWE-bench Pro 中获得 59.5 分,超越 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及 Claude Opus 4.6(57.3);在 BrowseComp 中获得 79.9 分,达到前沿闭源模型水平。
360.71K 人気度
8.72M 人気度
66.63K 人気度
494.07K 人気度
22.02M 人気度
美団(メイトゥアン)が兆パラメータ大モデルLongCat-2.0を発表、国産計算力クラスターで全フロートレーニングを完了した初の兆パラメータモデル
深潮 TechFlow 消息,6 月 30 日,据美团官方发布,美团正式推出新一代大模型 LongCat-2.0 并同步开源。该模型总参数达 1.6T,是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型,原生支持 1M 超长上下文,核心聚焦 Agentic Coding 场景下的代码理解、生成与执行。
技术层面,LongCat-2.0 采用 LongCat Sparse Attention(LSA)稀疏注意力机制,将长文本计算量从平方级降至线性级;通过零计算专家机制实现 token 级动态激活(33B~56B);并引入 MOPD 架构融合 Agent、Reasoning、Interaction 三组专家能力。训练效率方面,团队历经三年攻克国产算力适配难题,月均日故障率降低 70% 以上,训练 MFU 提升 1.5 倍,稳态日吞吐超 1T tokens/day。
性能评测方面,LongCat-2.0 在 SWE-bench Pro 中获得 59.5 分,超越 Gemini 3.1 Pro(54.2)、GPT-5.5(58.6)及 Claude Opus 4.6(57.3);在 BrowseComp 中获得 79.9 分,达到前沿闭源模型水平。