Claude Code Token-Audit deckt versteckte Kosten durch Standard-Tool-Ladung auf

Untersuchung von Token-Verschwendung deckt erheblichen Overhead auf
Ein Entwickler führte eine Prüfung von 926 Claude Code-Sitzungen durch, nachdem er einen schnellen Token-Verbrauch nach den Änderungen der Rate Limits von Anthropic bemerkt hatte. Die Untersuchung ergab, dass jede Claude Code-Sitzung mit einer Grundlast von etwa 45.000 Token beginnt, bevor überhaupt eine Benutzereingabe erfolgt. Dazu gehören Systemaufforderungen, Tool-Definitionen, Agentenbeschreibungen, Speicherdateien, Fähigkeitsbeschreibungen und MCP-Schemata.
Im Standardkontextfenster von 200.000 Token entspricht diese Startlast von 45.000 Token über 20 % des verfügbaren Kontexts, der verbraucht wird, bevor ein Gespräch beginnt. Da Claude Code als zustandslose Schleife arbeitet, wird dieser gesamte Kontext mit jeder einzelnen Runde neu aufgebaut und erneut gesendet, wodurch der Start-Overhead zu einer wiederkehrenden Kosten wird.
Standardmäßiges Tool-Laden verbraucht erhebliche Token
Die Prüfung ergab, dass 20.000 Token des Startkontexts von System-Tool-Schemadefinitionen stammten. Standardmäßig lädt Claude Code das vollständige JSON-Schema für jedes verfügbare Tool zu Sitzungsbeginn in den Kontext, unabhängig davon, ob diese Tools verwendet werden.
Der Entwickler entdeckte eine Einstellung namens enable_tool_search, die verzögertes Tool-Laden ermöglicht. Wenn aktiviert, lädt diese Einstellung zunächst nur 6 primäre Tools und lädt den Rest bei Bedarf nach, anstatt alle Tool-Schemata auf einmal zu laden.
Konfigurationsänderung bringt sofortige Einsparungen
Um verzögertes Tool-Laden zu aktivieren, fügen Sie dies zu Ihrer settings.json hinzu:
{
"env": {
"ENABLE_TOOL_SEARCH": "true"
}
}Diese einzelne Konfigurationsänderung reduzierte den Startkontext von 45.000 auf 20.000 Token, wobei der System-Tool-Overhead von 20.000 auf 6.000 Token sank. Dies spart 14.000 Token bei jeder Runde jeder Sitzung.
Kostenauswirkungen der Standardeinstellungen
Der Entwickler berechnete die Auswirkungen dieser einen Einstellung auf seine Nutzung. Bei Sitzungen mit durchschnittlich 22 Runden ergaben die zusätzlichen 14.000 Token pro Runde 308.000 unnötige Token pro Sitzung. Über 858 Sitzungen summierten sich dies auf 264 Millionen Token.
Beim Cache-Lese-Preis (0,50 $/MTok) entsprach dies 132 $ unnötiger Kosten. Da jedoch über die Hälfte der Runden abgelaufene Caches traf (was den vollen Eingabepreis von 5 $/MTok auslöst), wurden die tatsächlichen Kosten auf zwischen 132 $ und 1.300 $ durch diese einzelne Standardeinstellung geschätzt.
Zusätzliche Optimierungsstrategien
Der Entwickler implementierte auch andere Optimierungen, die den Startkontext um 4.000–5.000 Token reduzierten:
- Kürzen und Überarbeiten von CLAUDE-Markdown- und Speicherdateien
- Zusammenfassen von Fähigkeitsbeschreibungen
- Abschalten ungenutzter MCP-Server
- Verschlanken von Schema-Injektionen aus Speicher-Hooks
Claude Code speichert Konversationen lokal als JSONL-Dateien unter ~/.claude/projects/, obwohl es keine integrierte Möglichkeit gibt, detaillierte Aufschlüsselungen pro Sitzung, Kosten pro Projekt oder Ausgabenkategorien zu erhalten. Der integrierte Befehl /insights erwies sich als unzureichend für die Diagnose von Verschwendung.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Wie deaktiviere ich die Verb-Spinner-Funktion von Claude Code?
Claude Code enthält einen standardmäßigen Verb-Spinner, der während der Verarbeitung verspielte Gerundien wie 'Seasoning' und 'Crafting' anzeigt. Sie können ihn deaktivieren, indem Sie die settings.json-Datei bearbeiten und ein Leerzeichen in das spinnerVerbs-Array einfügen.

Code KI-Bots zum Kämpfen gegen Menschen in einem neuen Multiplayer-Spiel.
Ein neues Mehrspieler-Spiel ermöglicht es Spielern, KI-Bots zu programmieren, die gegen menschliche Spieler in Echtzeit antreten, und bietet eine einzigartige Kombination aus Programmier- und Spielherausforderungen.

OpenClaw betreiben ohne pleite zu gehen: Konfigurations-Guide
Reddit-User digitalknk teilte einen praktischen Guide zum effizienten Betrieb von OpenClaw. Ein kampferprobtes Setup mit Fokus auf Stabilität und Kostenkontrolle.

Claude-Code-Plugin-Fehler führt dazu, dass Fähigkeiten doppelt geladen werden und die Kontextkomprimierung verstärkt wird
Ein Fehler in Claude Code führt dazu, dass Plugins jede Fähigkeit doppelt laden, was die Größe des Systemprompts erheblich erhöht und häufige Kontextkomprimierung auslöst. Die Quelle bietet Prüfskripte zur Identifizierung des Problems und Korrekturskripte zum Entfernen veralteter Plugin-Versionen und doppelter Symlinks.