llama.cpp Reprocessamento Massivo de Prompts com Agentes de Codificação: Depuração do Cache KV e Troca de Contexto

✍️ OpenClawRadar📅 Publicado: May 14, 2026🔗 Source

Um desenvolvedor no r/LocalLLaMA está enfrentando um sério problema de performance com o llama.cpp ao executar agentes de codificação de contexto longo (opencode + pi.dev) via llama-swap. Mesmo com prompts altamente semelhantes (similaridade LCP frequentemente >0,99), o sistema descarta periodicamente o cache KV e reprocessa 40k+ tokens, causando TTFT de vários minutos.

Comportamento Observado

O contexto cresce para 50k+ tokens.
Após várias reutilizações normais (ex.: prompt eval time = 473 ms / 19 tokens), o n_past cai subitamente para ~4-5k.
O llama.cpp então reprocessa o prompt completo: n_tokens = 4750 prompt eval time = 222411 ms / 44016 tokens.
O uso do cache atinge 4676 MiB, excedendo o limite configurado (2500 MiB).

Configuração Atual

llama-server --ctx-size 150000 --parallel 1 --ctx-checkpoints 32 --cache-ram 2500 --cache-reuse 256 -no-kvu --no-context-shift

Causas Suspeitas

Invalidação do cache devido ao estouro do limite de --cache-ram – o log mostra 4676 MiB usados vs. limite de 2500 MiB.
Mecanismo de reutilização KV ruim quando os tokens iniciais do prompt mudam (possivelmente alterações frequentes pelo opencode).
--ctx-checkpoints ou --cache-reuse insuficientes para o tamanho de contexto de 150k.

Recomendações da Comunidade

A discussão ainda tem poucas respostas, mas os primeiros passos óbvios incluem aumentar --cache-ram para corresponder ao uso típico (ex.: 5000+ MiB), ou reduzir --ctx-size para ficar abaixo do limite do cache. Verifique também se o opencode está alterando intencionalmente os prefixos do prompt; em caso afirmativo, travar o prompt do sistema ou usar um prefixo fixo pode melhorar a reutilização.

Para desenvolvedores com configurações semelhantes, compartilhem suas configurações funcionando no tópico de origem.

📖 Leia a fonte completa: r/LocalLLaMA

👀 See Also

Tips

iCloud Sincronização de Área de Trabalho/Documentos Causa Problemas de Perda de Arquivos com Claude no Mac

Um usuário de Mac relata que ativar a sincronização do iCloud Drive para as pastas Desktop e Documentos faz com que o Claude crie arquivos duplicados e pode levar à perda permanente de dados, incluindo pastas ocultas /.claude que o iCloud não faz backup.

Mar 14, 2026, 09:45 PM UTC

OpenClawRadar

Tips

Usuário do Reddit compartilha erros comuns de prompt para Claude Code com correções

Um desenvolvedor usando Claude para trabalho de backend em Node.js identificou 10 erros comuns de prompt após meses de uso, incluindo falta de requisitos de validação e tratar Claude como uma ferramenta de uso único. Eles criaram um guia visual com correções para cada problema.

Apr 15, 2026, 12:15 PM UTC

OpenClawRadar

Tips

Solução alternativa para erro de ativos da Interface de Controle após atualização do OpenClaw 2026.3.22

Um usuário postou uma solução para o erro 'Control UI assets not found' que ocorre após atualizar para o OpenClaw 2026.3.22, envolvendo a cópia da pasta control-ui de uma instalação beta para a versão estável.

Mar 28, 2026, 01:45 PM UTC

OpenClawRadar

Tips

8 Meses de Uso Diário: 9 Dicas Práticas com Claude (Não Codificação)

Um usuário do Reddit compartilha 9 lições aprendidas em 8 meses de uso diário do Claude para escrita e pesquisa—não código—abordando edição, gerenciamento de contexto, configuração de estilo e uso do Claude como parceiro de pensamento.

Jun 20, 2026, 12:18 AM UTC

OpenClawRadar