2026-06-05 14:19:03
A Tencent Hunyuan revela um algoritmo de Stem Sparse Attention, reduz a latência do primeiro token em 3,7x com 128K de contexto
De acordo com o Guru Club, a 5 de junho, a Tencent Hunyuan revelou o algoritmo de atenção esparsa Stem, aceite pela conferência de topo em aprendizagem automática ICML-26. O algoritmo alcança uma precisão quase sem perdas com um orçamento de 25% através do Token Position Decay (TPD) e do Output-Aware Metric (OAM), reduzindo a latência do primeiro token em 3,7x no comprimento de contexto de 128K quando combinado com operadores HPC.