KV-Cache Invalidierung beheben: Claude Code 60s auf 4s reduzieren

Claude Code Versionen 2.1.36 und höher injizieren bei jeder Anfrage dynamische Inhalte in Systemprompts, was bei der Verwendung lokaler Inferenz-Backends wie llama.cpp, llama-server oder LM Studio zu einer Invalidierung des KV-Caches führt. Dies zwingt die Hardware dazu, 20K+ Token umfassende Systemprompts für geringfügige Tool-Aufrufe von Grund auf neu zu verarbeiten.

Das Problem

llama.cpp verlässt sich auf exakte Zeichenkettenübereinstimmung für die Wiederverwendung des KV-Caches. Wenn sich der Anfang eines Prompts ändert, wird der gesamte Cache geleert und der vollständige Prompt muss neu verarbeitet werden. Claude Code führt zwei dynamische Elemente ein, die Prompts bei jedem Zugriff verändern:

Telemetrie-Hash: Injiziert einen Abrechnungs-/Telemetrie-Header (x-anthropic-billing-header: cch=xxxxx) mit einem Hash, der sich bei jeder Anfrage ändert
Git-Snapshot: Injiziert git status-Ausgabe in den Umgebungsblock, wodurch sich der Prompt ändert, sobald Dateien modifiziert werden

Dies führt dazu, dass Server-Logs "erzwinge vollständige Prompt-Neuverarbeitung aufgrund fehlender Cache-Daten" anzeigen und Verarbeitungszeiten von 60+ Sekunden für Operationen, die eigentlich geringfügig sein sollten.

Die Lösung

Konfigurieren Sie Claude Code so, dass dynamische Prompt-Elemente deaktiviert werden und die Anfragen an Ihre lokale Hardware geroutet werden. Öffnen Sie ~/.claude/settings.json (oder Ihre lokale Projektkonfiguration) und stellen Sie sicher, dass folgende Konfiguration vorhanden ist:

{
  "includeGitInstructions": false,
  "env": {
    "ANTHROPIC_BASE_URL": "<your-llama-server-here>",
    "ANTHROPIC_API_KEY": "<any-string>",
    "CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
    "DISABLE_TELEMETRY": "1",
    "DISABLE_ERROR_REPORTING": "1",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
  }
}

Nach einem Neustart von Claude Code sollten llama-server-Logs eine verbesserte Cache-Erkennung anzeigen. Anstatt 24.000 Token zu verarbeiten, werden Sie Meldungen wie "selected slot by LCP similarity, sim_best = 0.973" gefolgt von "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" sehen – was darauf hinweist, dass nur 600 Token als Delta verarbeitet werden, anstatt einer vollständigen Neuverarbeitung.

Dies reduziert die lokalen Tool-Aufrufzeiten von über einer Minute auf etwa 4 Sekunden auf Hardware wie der Turing-Ära Quadro RTX-8000.

📖 Read the full source: r/LocalLLaMA

Behebung der KV-Cache-Invalidierung von Claude Code mit lokalen Backends

Das Problem

Die Lösung

👀 Siehe auch

"OpenClaw 101 meistern: Ein Anfängerleitfaden inspiriert von Redditor-Einsichten"

Claude API-Ratenlimits: Zeitzonenfenster, Kontextverwaltung und MCP-Overhead

OpenClaw-Integration mit WhatsApp Cloud API

Claude Code Workflow Visual erklärt Speicherhierarchie und Fähigkeitensystem