Analyse von Claudes Token-Verbrennung bei 1M Kontextfenster: Daten zeigen unbegrenztes Wachstum und kumulierte Cache-Fehlschläge

Token-Verbrauchsanalyse aus realen Nutzungsdaten
Eine detaillierte Analyse der Implementierung von Claudes 1-Millionen-Token-Kontextfenster zeigt spezifische technische Faktoren, die einen schnellen Token-Verbrauch verursachen. Der Autor analysierte JSONL-Sitzungsdateien über mehrere Konversationen hinweg, um Muster zu identifizieren.
Wichtige Erkenntnisse aus den Daten
Unbegrenztes Kontextwachstum: Vor dem 1-Millionen-Token-Kontextfenster wurde die automatische Komprimierung bei etwa 160.000 Token ausgelöst. Nach der 1-Millionen-Implementierung ist diese Obergrenze weg, sodass Sitzungen regelmäßig 500.000+ Token erreichen. Jede Eingabe sendet den gesamten Kontext erneut, was bedeutet, dass bei 500.000 Token selbst eine einfache Bestätigung 500.000 Token kostet. Wenn Claude 3 Tool-Aufrufe tätigt, um eine Eingabe zu beantworten, sind das 1,5 Millionen Token für eine einzige Interaktion.
Verstärkung durch Cache-Fehlzugriffe: Anthropic speichert den Kontext serverseitig für etwa 5 Minuten zwischen. Nach diesem Zeitfenster verarbeitet die nächste Eingabe den gesamten Kontext erneut, was etwa das 10-fache des zwischengespeicherten Preises kostet. Obwohl die Cache-Fehlzugriffsrate unverändert geblieben ist (etwa 2,5 % der Interaktionen), ist ein Cache-Fehlzugriff bei 500.000 Token-Kontext deutlich teurer als bei 150.000 Token-Kontext.
Analysetool
Der Autor hat ein Python-Skript erstellt, das Token-Zählungen aus Claude-JSONL-Sitzungsdateien analysiert, ohne auf den Konversationsinhalt zuzugreifen. Das Skript erkennt automatisch Ihr Claude-Datenverzeichnis und benötigt matplotlib und numpy. Das Skript ist verfügbar unter: https://github.com/RyanSeanPhillips/cldctrl/blob/master/docs/context_analysis.py
Der Autor erwähnt auch CLD CTRL (https://github.com/RyanSeanPhillips/cldctrl), ein Terminal-Dashboard zum Starten und Überwachen von Claude Code-Sitzungen, Token-Verbrauch und Projektaktivitäten.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Qwen3.6 27B FP8 läuft mit 200k Tokens BF16 KV-Cache bei 80 TPS auf RTX 5000 PRO 48GB
Ein Reddit-Benutzer stellt ein vLLM-Setup für Qwen3.6 27B FP8 mit BF16-KV-Cache bei 200.000 Token vor und erreicht 60-90 TPS auf einer einzelnen RTX 5000 PRO 48GB. Vollständige Umgebungsvariablen, Konfiguration und Benchmark-Ergebnisse werden bereitgestellt.

Claude-App-Store-Rankings in 7 Ländern
Claude belegte Platz 1 in den USA und Kanada, Platz 3 in Frankreich und Deutschland, Platz 4 im Vereinigten Königreich, Platz 8 in Italien und Platz 22 in Japan in den Free-App-Rankings des App Stores, die gleichzeitig am 1. März 2026 um 09:00 UTC erfasst wurden.

Pentagon verspricht nach Anthropic-Aus keine einzigen KI-Anbieter mehr, schließt Deals mit AWS, Google, Microsoft, NVIDIA, OpenAI, Oracle, SpaceX
Verteidigungsstaatssekretär Emil Michael sagt, das Pentagon werde sich 'niemals wieder' auf einen einzigen KI-Modellanbieter verlassen, unter Verweis auf Integrationskomplexität und den jüngsten Streit mit Anthropic. Neue Vereinbarungen mit acht KI-Unternehmen zielen darauf ab, den Technologie-Stack zu diversifizieren.

GPT 5.5 vs Claude: Ein Entwickler-Refactoring-Battle-Report
Ein Entwickler nutzte GPT 5.5 für die Planung und Claude zum Coding einer massiven C-Refaktorisierung mit 36.000 Zeilen. GPT 5.5 beeindruckte mit klaren Plänen, verbrauchte aber 85 % des Kontingents in 2 Stunden beim 30-Dollar-Tarif.