Behebung der KV-Cache-Invalidierung von Claude Code mit lokalen Backends

Claude Code Versionen 2.1.36 und höher injizieren bei jeder Anfrage dynamische Inhalte in Systemprompts, was bei der Verwendung lokaler Inferenz-Backends wie llama.cpp, llama-server oder LM Studio zu einer Invalidierung des KV-Caches führt. Dies zwingt die Hardware dazu, 20K+ Token umfassende Systemprompts für geringfügige Tool-Aufrufe von Grund auf neu zu verarbeiten.
Das Problem
llama.cpp verlässt sich auf exakte Zeichenkettenübereinstimmung für die Wiederverwendung des KV-Caches. Wenn sich der Anfang eines Prompts ändert, wird der gesamte Cache geleert und der vollständige Prompt muss neu verarbeitet werden. Claude Code führt zwei dynamische Elemente ein, die Prompts bei jedem Zugriff verändern:
- Telemetrie-Hash: Injiziert einen Abrechnungs-/Telemetrie-Header (
x-anthropic-billing-header: cch=xxxxx) mit einem Hash, der sich bei jeder Anfrage ändert - Git-Snapshot: Injiziert
git status-Ausgabe in den Umgebungsblock, wodurch sich der Prompt ändert, sobald Dateien modifiziert werden
Dies führt dazu, dass Server-Logs "erzwinge vollständige Prompt-Neuverarbeitung aufgrund fehlender Cache-Daten" anzeigen und Verarbeitungszeiten von 60+ Sekunden für Operationen, die eigentlich geringfügig sein sollten.
Die Lösung
Konfigurieren Sie Claude Code so, dass dynamische Prompt-Elemente deaktiviert werden und die Anfragen an Ihre lokale Hardware geroutet werden. Öffnen Sie ~/.claude/settings.json (oder Ihre lokale Projektkonfiguration) und stellen Sie sicher, dass folgende Konfiguration vorhanden ist:
{
"includeGitInstructions": false,
"env": {
"ANTHROPIC_BASE_URL": "<your-llama-server-here>",
"ANTHROPIC_API_KEY": "<any-string>",
"CLAUDE_CODE_ATTRIBUTION_HEADER": "0",
"DISABLE_TELEMETRY": "1",
"DISABLE_ERROR_REPORTING": "1",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1"
}
}Nach einem Neustart von Claude Code sollten llama-server-Logs eine verbesserte Cache-Erkennung anzeigen. Anstatt 24.000 Token zu verarbeiten, werden Sie Meldungen wie "selected slot by LCP similarity, sim_best = 0.973" gefolgt von "prompt processing progress, n_tokens = 24270, batch.n_tokens = 4" sehen – was darauf hinweist, dass nur 600 Token als Delta verarbeitet werden, anstatt einer vollständigen Neuverarbeitung.
Dies reduziert die lokalen Tool-Aufrufzeiten von über einer Minute auf etwa 4 Sekunden auf Hardware wie der Turing-Ära Quadro RTX-8000.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Greifen Sie auf GPT-5.4 über das Codex-Abonnement in OpenClaw zu.
Ein Reddit-Beitrag beschreibt, wie man OpenClaw für die Nutzung von GPT-5.4 über ein OpenAI Codex-Abonnement konfiguriert, indem man die openclaw.json-Konfigurationsdatei anpasst und das Gateway neu startet.

Behebung von OpenClaw-Prompt-Bloat und langsamen Antwortschleifen
Benutzer, die seit 2026.4.26 lange Verzögerungen erleben, können die Leistung durch Reduzierung von Kontextblähung wiederherstellen: Kürzen Sie stets eingefügte Dateien, beschränken Sie sichtbare Fähigkeiten und vermeiden Sie das Einfügen riesiger Tool-Ausgaben im Hauptchat.

OpenClaw Workspace-Struktur und Selbstverbesserungsansatz eines langjährigen Nutzers
Ein langjähriger OpenClaw-Nutzer teilt seine Arbeitsbereichsstruktur mit wichtigen Markdown-Dateien wie SOUL.md, AGENTS.md und MEMORY.md sowie der entscheidenden Erkenntnis, dass die Effektivität des Agenten dramatisch steigt, wenn er seine eigene Umgebung verbessern darf.

Analyse der Produktionstechnik-Muster von Claude Code aus reverse-engineertem Quellcode
Ein Entwickler hat etwa 500.000 Zeilen des TypeScript-Quellcodes von Claude Code in ein 19 Kapitel umfassendes technisches Handbuch rückentwickelt, das Produktions-Engineering-Muster dokumentiert, die unter realer Last, realem Geld und realen Gegnern entstehen.