Corrigiendo la Invalidación de la Caché KV del Código de Claude con Backends Locales

✍️ OpenClawRadar📅 Publicado: 31 de marzo de 2026🔗 Source
Corrigiendo la Invalidación de la Caché KV del Código de Claude con Backends Locales
Ad

Las versiones de Claude Code 2.1.36 y superiores inyectan contenido dinámico en los prompts del sistema en cada solicitud, causando invalidación de la caché KV cuando se usan backends de inferencia locales como llama.cpp, llama-server o LM Studio. Esto fuerza al hardware a reprocesar prompts del sistema de 20K tokens desde cero para llamadas menores a herramientas.

El Problema

llama.cpp depende de coincidencia exacta de cadenas para reutilizar la caché KV. Cuando el inicio de un prompt cambia, toda la caché se vacía y el prompt completo debe reprocesarse. Claude Code introduce dos elementos dinámicos que mutan los prompts en cada turno:

  • Hash de Telemetría: Inyecta una cabecera de facturación/telemetría (x-anthropic-billing-header: cch=xxxxx) con un hash que cambia en cada solicitud
  • Instantánea Git: Inyecta la salida de git status en el bloque de entorno, cambiando el prompt cuando se modifican archivos

Esto resulta en registros del servidor mostrando "forzando reprocesamiento completo del prompt debido a falta de datos en caché" y tiempos de procesamiento de más de 60 segundos para lo que deberían ser operaciones menores.

Ad

La Solución

Configura Claude Code para deshabilitar elementos dinámicos de prompt y enrutar a tu hardware local. Abre ~/.claude/settings.json (o la configuración local de tu proyecto) y asegura la siguiente configuración:

{
  "includeGitInstructions": false,
  "env": {
    "ANTHROPIC_BASE_URL": "<tu-llama-server-aquí>",
    "ANTHROPIC_API_KEY": "<cualquier-cadena>",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "DISABLE_TELEMETRY": "1",
    "DISABLE_ERROR_REPORTING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Después de reiniciar Claude Code, los registros de llama-server deberían mostrar mejor reconocimiento de caché. En lugar de procesar 24,000 tokens, verás mensajes como "selected slot by LCP similarity, sim_best = 0.973" seguido de "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" - indicando solo 600 tokens de procesamiento delta en lugar de reprocesamiento completo.

Esto reduce los tiempos de llamadas a herramientas locales de más de un minuto a aproximadamente 4 segundos en hardware como Quadro RTX-8000 de la era Turing.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Errores comunes de instalación de OpenClaw y cómo solucionarlos
Guías

Errores comunes de instalación de OpenClaw y cómo solucionarlos

Una publicación de Reddit consolida soluciones para varios problemas comunes de instalación de OpenClaw, incluyendo configuración de PATH, errores de permisos, requisitos de versión de Node.js, problemas de TTY y problemas de estado de complementos.

OpenClawRadar
Límites de Tasa de la API Claude: Ventanas de Zona Horaria, Gestión de Contexto y Sobrecarga de MCP
Guías

Límites de Tasa de la API Claude: Ventanas de Zona Horaria, Gestión de Contexto y Sobrecarga de MCP

El análisis de los límites de tasa de la API de Claude revela restricciones más estrictas durante las horas pico (5am-11am PT / 8am-2pm ET en días laborables), donde la gestión del contexto y el uso del servidor MCP impactan significativamente el consumo de tokens. Las estrategias prácticas incluyen trabajar fuera de las ventanas pico, iniciar conversaciones nuevas para tareas diferentes y auditar las integraciones MCP.

OpenClawRadar
OpenClaw Mega Cheatsheet: Tu puerta de entrada a la maestría en codificación de IA.
Guías

OpenClaw Mega Cheatsheet: Tu puerta de entrada a la maestría en codificación de IA.

Sumérgete en la Mega Hoja de Trucos de OpenClaw de r/openclaw, una guía completa llena de consejos esenciales para entusiastas de la codificación y la automatización de IA.

OpenClawRadar
Solucionando el Inflado de Indicaciones y los Bucles Lentos de Respuesta en OpenClaw
Guías

Solucionando el Inflado de Indicaciones y los Bucles Lentos de Respuesta en OpenClaw

Usuarios que experimentan demoras prolongadas desde 2026.4.26 pueden recuperar rendimiento reduciendo la hinchazón del contexto: recortar archivos siempre inyectados, limitar habilidades visibles y evitar pegar grandes salidas de herramientas en el chat principal.

OpenClawRadar