Como um /loop consumiu US$ 6.000 na API Claude em uma noite

Um usuário do Reddit relatou ter acordado e descoberto que seu limite de uso do Claude havia se esgotado depois que um único comando /loop 30m check my PRs foi executado 46 vezes em 26 horas sem supervisão no claude-opus-4-7, queimando cerca de US$ 6.000. A causa raiz: comportamento de cache de prompt combinado com uma sessão de longa duração.

Aqui está a análise técnica:

A janela de contexto cresce a cada iteração: Cada chamada de API envia todo o histórico da conversa. A primeira iteração pode ter algumas centenas de tokens; a 46ª envia 800 mil tokens. Você paga por tudo que é enviado a cada chamada.
O cache de prompt expira após ~5 minutos: A Anthropic armazena em cache o histórico da conversa com um desconto de 12,5× se reutilizado dentro da janela de cache. Mas com /loop 30m, o intervalo de 30 minutos excede o TTL de 5 minutos do cache. Cada iteração paga a taxa cara de escrita para recachear todo o contexto crescente do zero.
A saída adiciona ao contexto: Cada iteração do loop anexa sua saída à conversa, tornando o próximo recache ainda maior. Após 20 horas, a sessão atingiu ~800 mil tokens.
A latência do painel esconde o estrago: O painel de uso da Anthropic tem um atraso de vários dias na atualização. O único sinal em tempo real foi o e-mail de notificação de limite — nessa altura o dinheiro já havia sido gasto.

As principais recomendações do usuário para evitar isso:

Adicione uma condição de parada: Em vez de /loop 30m check my PRs simples, escreva /loop 30m check my PRs — pare quando todos estiverem mesclados ou após 3 horas. O Claude encerra o loop quando a condição é atendida.
Use o Sonnet para tarefas não supervisionadas: O Opus é ~5× mais caro por token de saída. Para tarefas de verificação como PRs, o Sonnet é suficiente. Reserve o Opus para sessões em que você está presente.
Não confie no painel: Ele atrasa dias. Baseie-se nos e-mails de limite de uso para sinais de faturamento em tempo real.
Sessões novas são mais baratas: Sessões longas aumentam os custos porque cada chamada com intervalo >5 minutos paga para recachear o contexto completo. Iniciar uma nova sessão redefine o contexto e evita isso.
max_turns não é um limitador de loop: Ele limita cadeias de chamadas de ferramentas dentro de uma única iteração, não quantas vezes o loop é acionado. A única expiração embutida no /loop é uma exclusão automática de 7 dias.

O loop é executado na conversa principal, então se você mantiver a mesma sessão ativa, cada execução do loop lê e escreve muito mais tokens do que o necessário — amplificando os custos exponencialmente.

Se você automatizar o Claude com /loop, sempre defina uma condição de parada, use um modelo mais barato e monitore com ferramentas externas. O desconto do cache só ajuda quando as chamadas são frequentes o suficiente para permanecer dentro do TTL.

📖 Leia a fonte completa: r/ClaudeAI

Como um comando /loop queimou US$ 6.000 na API Claude durante a noite

👀 See Also

A Estrutura de Prompt que Corrigiu os Resumos de Grandes Relatórios em PDF do Claude AI

Pare os travessões do Claude com uma linha em Preferências ou Claude.md

Após 3 meses testando A/B 160 códigos de prompt do Claude: as conclusões maçantes

Plugin de Código Claude Causa Bug que Faz Habilidades Carregarem Duas Vezes, Aumentando a Compactação de Contexto