Kimi K2 Thinking estableció un nuevo récord en las evaluaciones de referencia para evaluar habilidades de razonamiento, codificación y agentes

GateNews
Según el sitio web de Moon's Dark Side, Kimi K2 Thinking ha establecido nuevos récords en las evaluaciones de referencia de razonamiento, codificación y capacidades de agentes. K2 Thinking logró un rendimiento SOTA del 44.9% en la evaluación de referencia HLE, alcanzó un 60.2% en la prueba BrowseComp y un 71.3% en la prueba SWE-Bench Verified, demostrando una poderosa capacidad de generalización como el modelo de agente de pensamiento más avanzado.
Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios