Commande /loop : 6 000 $ perdus sur l'API Claude en une nuit

Un utilisateur de Reddit a rapporté s'être réveillé pour découvrir que son quota d'utilisation de Claude était épuisé après qu'une simple commande /loop 30m check my PRs s'est exécutée 46 fois sur 26 heures sans surveillance sur claude-opus-4-7, brûlant environ 6 000 $. La cause principale : le comportement du cache de prompt combiné à une session de longue durée.

Voici le détail technique :

La fenêtre de contexte s'agrandit à chaque itération : Chaque appel API envoie tout l'historique de la conversation. Le tour 1 peut être de quelques centaines de tokens ; le tour 46 envoie 800 000 tokens. Vous payez pour tout ce qui est envoyé à chaque tour.
Le cache de prompt expire après environ 5 minutes : Anthropic met en cache l'historique de la conversation avec une réduction de 12,5× s'il est réutilisé dans la fenêtre de cache. Mais avec /loop 30m, l'intervalle de 30 minutes dépasse la durée de vie du cache de 5 minutes. Chaque itération paie le tarif d'écriture élevé pour remettre en cache tout le contexte croissant depuis le début.
La sortie s'ajoute au contexte : Chaque itération de boucle ajoute sa sortie à la conversation, rendant le prochain recache encore plus volumineux. À la 20e heure, la session atteignait environ 800 000 tokens.
Le retard du tableau de bord masque les dégâts : Le tableau de bord d'utilisation d'Anthropic a un délai de rapport de plusieurs jours. Le seul signal en temps réel était l'e-mail de notification de limite — à ce moment-là, l'argent était déjà dépensé.

Les principales recommandations de l'utilisateur pour éviter cela :

Ajoutez une condition d'arrêt : Au lieu de /loop 30m check my PRs nu, écrivez /loop 30m check my PRs — stop when all are merged or after 3 hours. Claude termine la boucle lorsque la condition est remplie.
Utilisez Sonnet pour les tâches non surveillées : Opus coûte environ 5× plus cher par token de sortie. Pour les tâches de vérification comme les PR, Sonnet est suffisant. Réservez Opus pour les sessions où vous êtes présent.
Ne faites pas confiance au tableau de bord : Il a un retard de plusieurs jours. Fiez-vous aux e-mails de limite d'utilisation pour les signaux de facturation en temps réel.
Les sessions fraîches sont moins chères : Les sessions longues cumulent les coûts car chaque appel avec un écart de plus de 5 minutes paie le recache du contexte complet. Démarrer une nouvelle session réinitialise le contexte et évite cela.
max_turns n'est pas un limiteur de boucle : Il limite les chaînes d'appels d'outils au sein d'une seule itération, pas le nombre de fois que la boucle se déclenche. La seule expiration intégrée sur /loop est une suppression automatique après 7 jours.

La boucle s'exécute dans la conversation principale, donc si vous gardez la même session active, chaque exécution de boucle lit et écrit bien plus de tokens que nécessaire — amplifiant les coûts de manière exponentielle.

Si vous automatisez Claude avec /loop, définissez toujours une condition d'arrêt, utilisez un modèle moins cher et surveillez avec des outils externes. La réduction du cache n'est utile que si les appels sont assez fréquents pour rester dans la durée de vie du cache.

📖 Read the full source: r/ClaudeAI

Comment une commande /loop a brûlé 6 000 $ sur l'API Claude en une nuit

👀 See Also

Optimiser CLAUDE.md pour réduire l'anxiété contextuelle dans Claude AI

Explorer les exigences minimales pour OpenClaw : l'OrangePi Zero est-il suffisant ?

Habitudes pratiques pour une interaction critique avec les LLM

Arrêtez d'utiliser Claude Code comme un autocomplétion : les vraies réussites du refactoring conscient du dépôt