Correction de l'invalidation du cache KV de Claude Code avec des backends locaux

Les versions 2.1.36 et supérieures de Claude Code injectent du contenu dynamique dans les prompts système à chaque requête, provoquant une invalidation du cache KV lors de l'utilisation de backends d'inférence locaux comme llama.cpp, llama-server ou LM Studio. Cela force le matériel à retraiter les prompts système de plus de 20 000 tokens depuis le début pour des appels d'outils mineurs.
Le Problème
llama.cpp repose sur une correspondance exacte des chaînes pour la réutilisation du cache KV. Lorsque le début d'un prompt change, le cache entier est vidé et le prompt complet doit être retraité. Claude Code introduit deux éléments dynamiques qui modifient les prompts à chaque tour :
- Hachage de Télémétrie : Injecte un en-tête de facturation/télémétrie (
x-anthropic-billing-header: cch=xxxxx) avec un hachage qui change à chaque requête - Instantané Git : Injecte la sortie de
git statusdans le bloc d'environnement, modifiant le prompt dès que des fichiers sont modifiés
Cela se traduit par des journaux serveur affichant "forçant le retraitement complet du prompt en raison d'un manque de données de cache" et des temps de traitement de plus de 60 secondes pour ce qui devrait être des opérations mineures.
La Solution
Configurez Claude Code pour désactiver les éléments de prompt dynamiques et acheminer vers votre matériel local. Ouvrez ~/.claude/settings.json (ou la configuration locale de votre projet) et assurez-vous de la configuration suivante :
{
"includeGitInstructions": false,
"env": {
"ANTHROPIC_BASE_URL": "<your-llama-server-here>",
"ANTHROPIC_API_KEY": "<any-string>",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
"DISABLE_TELEMETRY": "1",
"DISABLE_ERROR_REPORTING": "1",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}Après avoir redémarré Claude Code, les journaux de llama-server devraient montrer une meilleure reconnaissance du cache. Au lieu de traiter 24 000 tokens, vous verrez des messages comme "selected slot by LCP similarity, sim_best = 0.973" suivis de "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" - indiquant seulement 600 tokens de traitement delta au lieu d'un retraitement complet.
Cela réduit les temps d'appel d'outils locaux de plus d'une minute à environ 4 secondes sur du matériel comme le Quadro RTX-8000 de l'ère Turing.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Utiliser l'IA comme partenaire cognitif plutôt que comme usine à code
Un post sur Reddit propose un prompt système appelé 'Cognitive Authorship Copilot' qui force l'IA à agir comme un partenaire de programmation en binôme plutôt que comme un générateur de solutions autonome, avec trois niveaux d'intervention basés sur la complexité de la tâche.

Résoudre les erreurs 'Échec du démarrage de l'espace de travail' de Claude Cowork sur Windows 11 Famille
Un utilisateur a résolu les erreurs de démarrage de Claude Cowork sur Windows 11 Famille en installant le Sous-système Windows pour Linux (WSL2) depuis le Microsoft Store, qui est requis pour la technologie de machine virtuelle sous-jacente.

Comment exécuter OpenClaw entièrement en local avec Ollama
Un post sur Reddit décrit une méthode pour exécuter OpenClaw entièrement en local, sans recourir à des API cloud ou à une facturation par jeton, en utilisant Ollama et LLMFit pour évaluer les performances des modèles locaux.

Création de compétences personnalisées pour Claude Co-Work : meilleures pratiques et formats
Découvrez les meilleures pratiques pour créer des compétences personnalisées pour Claude Co-Work avec des conseils de mise en forme spécifiques et des recommandations d'implémentation issues d'expériences utilisateurs.