/loop-Befehl verbrannte 6.000 $ in der Claude-API über Nacht

Ein Reddit-Nutzer berichtete, dass er aufwachte und feststellte, dass sein Claude-Nutzungslimit ausgeschöpft war, nachdem ein einzelner Befehl /loop 30m check my PRs 46 Mal in 26 Stunden unbeaufsichtigt auf claude-opus-4-7 lief und dabei rund 6.000 $ verbrauchte. Die Ursache: Prompt-Caching in Kombination mit einer langlebigen Sitzung.

Hier die technische Aufschlüsselung:

Kontextfenster wächst mit jeder Iteration: Jeder API-Aufruf sendet den gesamten Gesprächsverlauf. Runde 1 mag ein paar hundert Token sein; Runde 46 sendet 800.000 Token. Sie bezahlen für alles, was in jeder Runde gesendet wird.
Prompt-Caching läuft nach ~5 Minuten ab: Anthropic cached den Gesprächsverlauf mit einem Rabatt von 12,5×, wenn er innerhalb des Cache-Fensters wiederverwendet wird. Aber bei /loop 30m überschreitet die 30-minütige Pause die 5-minütige Cache-TTL. Jede Iteration zahlt den teuren Schreibpreis, um den gesamten wachsenden Kontext von Grund auf neu zwischenzuspeichern.
Ausgabe erhöht den Kontext: Jede Schleifeniteration hängt ihre Ausgabe an das Gespräch an, was den nächsten Neucache noch größer macht. Nach 20 Stunden erreichte die Sitzung ~800.000 Token.
Dashboard-Verzögerung versteckt den Schaden: Das Anthropic-Nutzungsdashboard hat eine mehrtägige Verzögerung bei der Berichterstattung. Das einzige Echtzeitsignal war die Benachrichtigungs-E-Mail zum Limit – zu diesem Zeitpunkt war das Geld bereits ausgegeben.

Die wichtigsten Empfehlungen des Nutzers, um dies zu vermeiden:

Eine Stoppbedingung hinzufügen: Statt /loop 30m check my PRs schreiben Sie /loop 30m check my PRs — stop when all are merged or after 3 hours. Claude beendet die Schleife, wenn die Bedingung erfüllt ist.
Sonnet für unbeaufsichtigte Aufgaben verwenden: Opus ist ~5× teurer pro Ausgabe-Token. Für Abfrageaufgaben wie PR-Checks ist Sonnet ausreichend. Reservieren Sie Opus für Sitzungen, bei denen Sie anwesend sind.
Dem Dashboard nicht trauen: Es hinkt um Tage hinterher. Verlassen Sie sich für Echtzeit-Abrechnungssignale auf Nutzungslimit-E-Mails.
Frische Sitzungen sind günstiger: Langlebige Sitzungen vervielfachen die Kosten, da jeder Aufruf mit einer Pause von >5 Minuten den vollen Kontext neu cachen muss. Eine neue Sitzung starten setzt den Kontext zurück und vermeidet dies.
max_turns ist kein Schleifenbegrenzer: Es begrenzt die Anzahl der Tool-Call-Ketten innerhalb einer einzelnen Iteration, nicht wie oft die Schleife feuert. Der einzige integrierte Ablauf von /loop ist eine automatische Löschung nach 7 Tagen.

Die Schleife läuft im Hauptgespräch, sodass bei aktiver Sitzung jede Schleifenausführung weit mehr Token liest und schreibt als nötig – was die Kosten exponentiell vervielfacht.

Wenn Sie Claude mit /loop automatisieren, setzen Sie immer eine Stoppbedingung, verwenden Sie ein günstigeres Modell und überwachen Sie mit externen Tools. Der Cache-Rabatt hilft nur, wenn die Aufrufe häufig genug sind, um innerhalb der TTL zu bleiben.

📖 Read the full source: r/ClaudeAI

Wie ein /loop-Befehl über Nacht 6.000 Dollar in der Claude-API verbrannte

👀 Siehe auch

So verhindern Sie CLAUDE.md-Verfall: Behandeln Sie Regeln wie Code

Stiller Erfolg: Ein Dev-Ansatz für Cron-Job-Benachrichtigungen

OpenClaw-Agenten werden nach Woche 1 reaktionslos: Probleme mit der Telegram-Integration?

Token-Verschwendung in Claude Code: Eine Selbstkontrolle zeigt, dass Verhaltensänderungen besser sind als Modellwechsel