Claude Code: 45.000 Token versteckte Kosten durch Tool-Ladung

Untersuchung von Token-Verschwendung deckt erheblichen Overhead auf

Ein Entwickler führte eine Prüfung von 926 Claude Code-Sitzungen durch, nachdem er einen schnellen Token-Verbrauch nach den Änderungen der Rate Limits von Anthropic bemerkt hatte. Die Untersuchung ergab, dass jede Claude Code-Sitzung mit einer Grundlast von etwa 45.000 Token beginnt, bevor überhaupt eine Benutzereingabe erfolgt. Dazu gehören Systemaufforderungen, Tool-Definitionen, Agentenbeschreibungen, Speicherdateien, Fähigkeitsbeschreibungen und MCP-Schemata.

Im Standardkontextfenster von 200.000 Token entspricht diese Startlast von 45.000 Token über 20 % des verfügbaren Kontexts, der verbraucht wird, bevor ein Gespräch beginnt. Da Claude Code als zustandslose Schleife arbeitet, wird dieser gesamte Kontext mit jeder einzelnen Runde neu aufgebaut und erneut gesendet, wodurch der Start-Overhead zu einer wiederkehrenden Kosten wird.

Standardmäßiges Tool-Laden verbraucht erhebliche Token

Die Prüfung ergab, dass 20.000 Token des Startkontexts von System-Tool-Schemadefinitionen stammten. Standardmäßig lädt Claude Code das vollständige JSON-Schema für jedes verfügbare Tool zu Sitzungsbeginn in den Kontext, unabhängig davon, ob diese Tools verwendet werden.

Der Entwickler entdeckte eine Einstellung namens enable_tool_search, die verzögertes Tool-Laden ermöglicht. Wenn aktiviert, lädt diese Einstellung zunächst nur 6 primäre Tools und lädt den Rest bei Bedarf nach, anstatt alle Tool-Schemata auf einmal zu laden.

Konfigurationsänderung bringt sofortige Einsparungen

Um verzögertes Tool-Laden zu aktivieren, fügen Sie dies zu Ihrer settings.json hinzu:

{
  "env": {
    "ENABLE_TOOL_SEARCH": "true"
  }
}

Diese einzelne Konfigurationsänderung reduzierte den Startkontext von 45.000 auf 20.000 Token, wobei der System-Tool-Overhead von 20.000 auf 6.000 Token sank. Dies spart 14.000 Token bei jeder Runde jeder Sitzung.

Kostenauswirkungen der Standardeinstellungen

Der Entwickler berechnete die Auswirkungen dieser einen Einstellung auf seine Nutzung. Bei Sitzungen mit durchschnittlich 22 Runden ergaben die zusätzlichen 14.000 Token pro Runde 308.000 unnötige Token pro Sitzung. Über 858 Sitzungen summierten sich dies auf 264 Millionen Token.

Beim Cache-Lese-Preis (0,50 $/MTok) entsprach dies 132 $ unnötiger Kosten. Da jedoch über die Hälfte der Runden abgelaufene Caches traf (was den vollen Eingabepreis von 5 $/MTok auslöst), wurden die tatsächlichen Kosten auf zwischen 132 $ und 1.300 $ durch diese einzelne Standardeinstellung geschätzt.

Zusätzliche Optimierungsstrategien

Der Entwickler implementierte auch andere Optimierungen, die den Startkontext um 4.000–5.000 Token reduzierten:

Kürzen und Überarbeiten von CLAUDE-Markdown- und Speicherdateien
Zusammenfassen von Fähigkeitsbeschreibungen
Abschalten ungenutzter MCP-Server
Verschlanken von Schema-Injektionen aus Speicher-Hooks

Claude Code speichert Konversationen lokal als JSONL-Dateien unter ~/.claude/projects/, obwohl es keine integrierte Möglichkeit gibt, detaillierte Aufschlüsselungen pro Sitzung, Kosten pro Projekt oder Ausgabenkategorien zu erhalten. Der integrierte Befehl /insights erwies sich als unzureichend für die Diagnose von Verschwendung.

📖 Read the full source: r/ClaudeAI