🔥Ramp Labs lança uma solução de memória compartilhada multi-agente Latent Briefing, com redução de até 65% no consumo de Token


Em 11 de abril, a empresa de infraestrutura de IA Ramp Labs divulgou o resultado de pesquisa "Latent Briefing", que realiza uma compressão direta do cache KV de grandes modelos para permitir uma troca eficiente de memória entre sistemas multi-agente, reduzindo significativamente o consumo de Token sem perder precisão.
Nos principais arquiteturas de multi-agentes, o coordenador (Orchestrator) divide as tarefas e chama repetidamente o modelo trabalhador (Worker), e à medida que a cadeia de raciocínio se estende, o uso de Token cresce exponencialmente.
A ideia central do Latent Briefing é: usar mecanismos de atenção para identificar…
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar