2026-03-05 06:48:35

o mito de que o python "gerencia a memória para você" é a razão pela qual seus agentes ficam sem memória (OOM) após 4 horas de uptime

executei 24 multi-agentes em paralelo no mês passado, consumindo 10x mais tokens do que uma única sessão por ZERO output utilizável
o verdadeiro problema não eram os tokens, mas a memória que ninguém estava monitorando
python usa contagem de referências mais um coletor de lixo cíclico. parece bem até você carregar arrays numpy através de extensões C que não decrementam referências corretamente. esses objetos NUNCA são coletados. eles simplesmente ficam lá, crescendo, silenciosos
a cada 100 tokens de contexto que seu agente de longa duração processa, há uma nova alocação de tensor que pode não ser liberada. multiplique isso por 24 sessões simultâneas e você está vazando 400MB/h em um dia bom
> basta adicionar mais RAM
sim, isso custa $30k/mês em computação para compensar algo que tracemalloc teria detectado em 10 minutos.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.