Correctif Claude Code : Cache KV réduit de 60s à 4s

Les versions 2.1.36 et supérieures de Claude Code injectent du contenu dynamique dans les prompts système à chaque requête, provoquant une invalidation du cache KV lors de l'utilisation de backends d'inférence locaux comme llama.cpp, llama-server ou LM Studio. Cela force le matériel à retraiter les prompts système de plus de 20 000 tokens depuis le début pour des appels d'outils mineurs.

Le Problème

llama.cpp repose sur une correspondance exacte des chaînes pour la réutilisation du cache KV. Lorsque le début d'un prompt change, le cache entier est vidé et le prompt complet doit être retraité. Claude Code introduit deux éléments dynamiques qui modifient les prompts à chaque tour :

Hachage de Télémétrie : Injecte un en-tête de facturation/télémétrie (x-anthropic-billing-header: cch=xxxxx) avec un hachage qui change à chaque requête
Instantané Git : Injecte la sortie de git status dans le bloc d'environnement, modifiant le prompt dès que des fichiers sont modifiés

Cela se traduit par des journaux serveur affichant "forçant le retraitement complet du prompt en raison d'un manque de données de cache" et des temps de traitement de plus de 60 secondes pour ce qui devrait être des opérations mineures.

La Solution

Configurez Claude Code pour désactiver les éléments de prompt dynamiques et acheminer vers votre matériel local. Ouvrez ~/.claude/settings.json (ou la configuration locale de votre projet) et assurez-vous de la configuration suivante :

{
  "includeGitInstructions": false,
  "env": {
    "ANTHROPIC_BASE_URL": "<your-llama-server-here>",
    "ANTHROPIC_API_KEY": "<any-string>",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "DISABLE_TELEMETRY": "1",
    "DISABLE_ERROR_REPORTING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Après avoir redémarré Claude Code, les journaux de llama-server devraient montrer une meilleure reconnaissance du cache. Au lieu de traiter 24 000 tokens, vous verrez des messages comme "selected slot by LCP similarity, sim_best = 0.973" suivis de "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" - indiquant seulement 600 tokens de traitement delta au lieu d'un retraitement complet.

Cela réduit les temps d'appel d'outils locaux de plus d'une minute à environ 4 secondes sur du matériel comme le Quadro RTX-8000 de l'ère Turing.

📖 Read the full source: r/LocalLLaMA

Correction de l'invalidation du cache KV de Claude Code avec des backends locaux

Le Problème

La Solution

👀 See Also

Déboguer les Timeouts du Modèle Local OpenClaw + Ollama : Cinq Correctifs pour les Pannes Silencieuses

Maximiser les capacités des agents d'IA dans OpenClaw

Comment éviter des coûts imprévus d'OpenRouter dans l'automatisation OpenClaw

Flux de travail pratique avec Claude Code pour les équipes de développement