llama.cpp Reprocessamento Massivo de Prompts com Agentes de Codificação: Depuração do Cache KV e Troca de Contexto

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source
llama.cpp Reprocessamento Massivo de Prompts com Agentes de Codificação: Depuração do Cache KV e Troca de Contexto
Ad

Um desenvolvedor no r/LocalLLaMA está enfrentando um sério problema de performance com o llama.cpp ao executar agentes de codificação de contexto longo (opencode + pi.dev) via llama-swap. Mesmo com prompts altamente semelhantes (similaridade LCP frequentemente >0,99), o sistema descarta periodicamente o cache KV e reprocessa 40k+ tokens, causando TTFT de vários minutos.

Comportamento Observado

  • O contexto cresce para 50k+ tokens.
  • Após várias reutilizações normais (ex.: prompt eval time = 473 ms / 19 tokens), o n_past cai subitamente para ~4-5k.
  • O llama.cpp então reprocessa o prompt completo: n_tokens = 4750 prompt eval time = 222411 ms / 44016 tokens.
  • O uso do cache atinge 4676 MiB, excedendo o limite configurado (2500 MiB).

Configuração Atual

llama-server --ctx-size 150000 --parallel 1 --ctx-checkpoints 32 --cache-ram 2500 --cache-reuse 256 -no-kvu --no-context-shift
Ad

Causas Suspeitas

  • Invalidação do cache devido ao estouro do limite de --cache-ram – o log mostra 4676 MiB usados vs. limite de 2500 MiB.
  • Mecanismo de reutilização KV ruim quando os tokens iniciais do prompt mudam (possivelmente alterações frequentes pelo opencode).
  • --ctx-checkpoints ou --cache-reuse insuficientes para o tamanho de contexto de 150k.

Recomendações da Comunidade

A discussão ainda tem poucas respostas, mas os primeiros passos óbvios incluem aumentar --cache-ram para corresponder ao uso típico (ex.: 5000+ MiB), ou reduzir --ctx-size para ficar abaixo do limite do cache. Verifique também se o opencode está alterando intencionalmente os prefixos do prompt; em caso afirmativo, travar o prompt do sistema ou usar um prefixo fixo pode melhorar a reutilização.

Para desenvolvedores com configurações semelhantes, compartilhem suas configurações funcionando no tópico de origem.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also