Claude Code 2.1.36+: Cómo Arreglar Invalidación Caché KV Local

Las versiones de Claude Code 2.1.36 y superiores inyectan contenido dinámico en los prompts del sistema en cada solicitud, causando invalidación de la caché KV cuando se usan backends de inferencia locales como llama.cpp, llama-server o LM Studio. Esto fuerza al hardware a reprocesar prompts del sistema de 20K tokens desde cero para llamadas menores a herramientas.

El Problema

llama.cpp depende de coincidencia exacta de cadenas para reutilizar la caché KV. Cuando el inicio de un prompt cambia, toda la caché se vacía y el prompt completo debe reprocesarse. Claude Code introduce dos elementos dinámicos que mutan los prompts en cada turno:

Hash de Telemetría: Inyecta una cabecera de facturación/telemetría (x-anthropic-billing-header: cch=xxxxx) con un hash que cambia en cada solicitud
Instantánea Git: Inyecta la salida de git status en el bloque de entorno, cambiando el prompt cuando se modifican archivos

Esto resulta en registros del servidor mostrando "forzando reprocesamiento completo del prompt debido a falta de datos en caché" y tiempos de procesamiento de más de 60 segundos para lo que deberían ser operaciones menores.

La Solución

Configura Claude Code para deshabilitar elementos dinámicos de prompt y enrutar a tu hardware local. Abre ~/.claude/settings.json (o la configuración local de tu proyecto) y asegura la siguiente configuración:

{
  "includeGitInstructions": false,
  "env": {
    "ANTHROPIC_BASE_URL": "<tu-llama-server-aquí>",
    "ANTHROPIC_API_KEY": "<cualquier-cadena>",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "DISABLE_TELEMETRY": "1",
    "DISABLE_ERROR_REPORTING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Después de reiniciar Claude Code, los registros de llama-server deberían mostrar mejor reconocimiento de caché. En lugar de procesar 24,000 tokens, verás mensajes como "selected slot by LCP similarity, sim_best = 0.973" seguido de "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" - indicando solo 600 tokens de procesamiento delta en lugar de reprocesamiento completo.

Esto reduce los tiempos de llamadas a herramientas locales de más de un minuto a aproximadamente 4 segundos en hardware como Quadro RTX-8000 de la era Turing.

📖 Read the full source: r/LocalLLaMA

Corrigiendo la Invalidación de la Caché KV del Código de Claude con Backends Locales

El Problema

La Solución

👀 Ver también

Claude vs GPT para la escritura académica de doctorado: Preservando el significado técnico en las secciones de Métodos

Dominando las Copias de Seguridad: Protegiendo su Agente OpenClaw

Lista de verificación de configuración de OpenClaw: seis pasos críticos para nuevos usuarios.

Cómo Importar tu Historial de ChatGPT a Claude Usando Proyectos