llama.cpp Reprocessamento Massivo de Prompts com Agentes de Codificação: Depuração do Cache KV e Troca de Contexto

Um desenvolvedor no r/LocalLLaMA está enfrentando um sério problema de performance com o llama.cpp ao executar agentes de codificação de contexto longo (opencode + pi.dev) via llama-swap. Mesmo com prompts altamente semelhantes (similaridade LCP frequentemente >0,99), o sistema descarta periodicamente o cache KV e reprocessa 40k+ tokens, causando TTFT de vários minutos.
Comportamento Observado
- O contexto cresce para 50k+ tokens.
- Após várias reutilizações normais (ex.:
prompt eval time = 473 ms / 19 tokens), on_pastcai subitamente para ~4-5k. - O llama.cpp então reprocessa o prompt completo:
n_tokens = 4750 prompt eval time = 222411 ms / 44016 tokens. - O uso do cache atinge 4676 MiB, excedendo o limite configurado (2500 MiB).
Configuração Atual
llama-server --ctx-size 150000 --parallel 1 --ctx-checkpoints 32 --cache-ram 2500 --cache-reuse 256 -no-kvu --no-context-shiftCausas Suspeitas
- Invalidação do cache devido ao estouro do limite de
--cache-ram– o log mostra 4676 MiB usados vs. limite de 2500 MiB. - Mecanismo de reutilização KV ruim quando os tokens iniciais do prompt mudam (possivelmente alterações frequentes pelo opencode).
--ctx-checkpointsou--cache-reuseinsuficientes para o tamanho de contexto de 150k.
Recomendações da Comunidade
A discussão ainda tem poucas respostas, mas os primeiros passos óbvios incluem aumentar --cache-ram para corresponder ao uso típico (ex.: 5000+ MiB), ou reduzir --ctx-size para ficar abaixo do limite do cache. Verifique também se o opencode está alterando intencionalmente os prefixos do prompt; em caso afirmativo, travar o prompt do sistema ou usar um prefixo fixo pode melhorar a reutilização.
Para desenvolvedores com configurações semelhantes, compartilhem suas configurações funcionando no tópico de origem.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Automatizando Reinícios de Sessão do Claude com tmux e at
Use tmux e o comando at para agendar reinicializações automáticas da sua sessão Claude quando o uso for redefinido em horários incomuns.

OpenClaw v2026.3.13 adiciona configuração de cacheRetention por agente para economia de custos com tokens da OpenAI.
O OpenClaw v2026.3.13 adiciona a configuração cacheRetention por agente que habilita a retenção de cache de prompt de 24 horas da OpenAI, potencialmente reduzindo os custos de tokens de entrada em até 90% para agentes com ciclos de heartbeat maiores que 10 minutos.

O Método da Sogra: Usando a Amabilidade de Claude para Revisões de Código Brutais
Um usuário do Reddit engana o Claude para fazer revisões de código severas, enquadrando o código como escrito por uma sogra odiada, resultando em 27 problemas encontrados em 4 agentes revisores hostis após 31 minutos de análise profunda.

Telegram vs Discord vs WhatsApp: Escolhendo Seu Canal OpenClaw
Nenhum