Corrigiendo la Invalidación de la Caché KV del Código de Claude con Backends Locales

Las versiones de Claude Code 2.1.36 y superiores inyectan contenido dinámico en los prompts del sistema en cada solicitud, causando invalidación de la caché KV cuando se usan backends de inferencia locales como llama.cpp, llama-server o LM Studio. Esto fuerza al hardware a reprocesar prompts del sistema de 20K tokens desde cero para llamadas menores a herramientas.
El Problema
llama.cpp depende de coincidencia exacta de cadenas para reutilizar la caché KV. Cuando el inicio de un prompt cambia, toda la caché se vacía y el prompt completo debe reprocesarse. Claude Code introduce dos elementos dinámicos que mutan los prompts en cada turno:
- Hash de Telemetría: Inyecta una cabecera de facturación/telemetría (
x-anthropic-billing-header: cch=xxxxx) con un hash que cambia en cada solicitud - Instantánea Git: Inyecta la salida de
git statusen el bloque de entorno, cambiando el prompt cuando se modifican archivos
Esto resulta en registros del servidor mostrando "forzando reprocesamiento completo del prompt debido a falta de datos en caché" y tiempos de procesamiento de más de 60 segundos para lo que deberían ser operaciones menores.
La Solución
Configura Claude Code para deshabilitar elementos dinámicos de prompt y enrutar a tu hardware local. Abre ~/.claude/settings.json (o la configuración local de tu proyecto) y asegura la siguiente configuración:
{
"includeGitInstructions": false,
"env": {
"ANTHROPIC_BASE_URL": "<tu-llama-server-aquí>",
"ANTHROPIC_API_KEY": "<cualquier-cadena>",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
"DISABLE_TELEMETRY": "1",
"DISABLE_ERROR_REPORTING": "1",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}Después de reiniciar Claude Code, los registros de llama-server deberían mostrar mejor reconocimiento de caché. En lugar de procesar 24,000 tokens, verás mensajes como "selected slot by LCP similarity, sim_best = 0.973" seguido de "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" - indicando solo 600 tokens de procesamiento delta en lugar de reprocesamiento completo.
Esto reduce los tiempos de llamadas a herramientas locales de más de un minuto a aproximadamente 4 segundos en hardware como Quadro RTX-8000 de la era Turing.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Configurando OpenClaw para una Comunicación Fluida entre Agentes
Un usuario de Reddit comparte configuraciones específicas para OpenClaw que reducen los tiempos de espera en la comunicación entre agentes, incluyendo ajustes de visibilidad de herramientas, directivas de memoria y soluciones para la limitación ANNOUNCE_SKIP.

Los modelos Qwen3.x fallan silenciosamente en OpenClaw debido a una incompatibilidad en el formato de salida en flujo continuo.
Los modelos Qwen3.x en modo de transmisión envían su salida al campo 'reasoning' en lugar de 'content', lo que hace que OpenClaw pase silenciosamente a los modelos de respaldo. Un proxy que traduce los formatos de API e inyecta 'think: false' soluciona el problema, permitiendo la evaluación completa de llamadas a herramientas.

Propietarios de Repositorios en GitHub: Usen la Bandera --author de Git para Bloquear el Spam de Bots de IA
Archestra combatió el spam de comentarios/PR de IA explotando la configuración de 'contribuyentes anteriores' de GitHub y la bandera --author de Git para incluir humanos reales mediante un flujo de incorporación basado en captcha.

Construyendo un puente para dos bots de Telegram en un grupo de chat: Semántica de entrega sobre HTTP
Un desarrollador comparte un enfoque práctico para conectar dos bots independientes de Telegram en el mismo chat grupal, abordando las deficiencias de entrega de bot a bot de Telegram con retransmisiones HTTP, ACKs, deduplicación y feeds estrictamente delimitados.