Claude Opus com Codex vs. Opus Puro: Benchmark de Geração de Código

Análise de Custo do Fluxo de Trabalho Opus+Codex

Um usuário do Reddit conduziu um benchmark controlado comparando o uso puro do Claude Opus contra um fluxo de trabalho combinado onde o Opus planeja e o OpenAI Codex executa o código. A configuração usou o Claude Opus 4.6 com a CLI do OpenAI Codex via a habilidade opus-codex, testando três tarefas reais em worktrees git isoladas.

Resultados do Benchmark

Os testes mediram o custo em dólares para cada abordagem em tarefas de escala crescente:

Tarefa de 80 LOC (flag CLI + 3 testes): Opus puro $0.33, Opus+Codex $0.53
Tarefa de 400 LOC (relatório HTML + 10 testes): Opus puro $0.68, Opus+Codex $0.74
Tarefa de 1060 LOC (API REST + 46 testes): Opus puro $0.86, Opus+Codex $0.78

O ponto de equilíbrio de custo ocorre em aproximadamente 600 linhas de código. Abaixo desse limite, a sobrecarga de planejamento e transferência da abordagem combinada custa mais do que fazer o Opus escrever o código diretamente. Acima de 600 LOC, Opus+Codex se torna mais econômico porque reduz os tokens de saída em cerca de 50%.

Fator de Custo Oculto: Leituras do Cache

A análise identificou as leituras do cache como um fator de custo significativo frequentemente negligenciado. Enquanto muitos desenvolvedores se concentram em otimizar os tokens de saída, cada turno da API reenvia toda a conversa como contexto em cache. Turnos extras das fases de planejamento e revisão acumulam custos. O benchmark descobriu que 600 linhas de stdout do Codex entrando na conversa foram o maior inflacionador de custo individual — redirecionar essa saída para um arquivo economizou aproximadamente $0.15 por execução.

Recomendações Práticas

< 500 LOC: Use Opus puro. A abordagem mais simples é mais custo-efetiva para tarefas pequenas.
500-800 LOC: Qualquer abordagem funciona com custo aproximadamente igual.
> 800 LOC: Opus+Codex economiza dinheiro, com a diferença de eficiência aumentando conforme a escala. O teste gratuito do Codex torna essa abordagem particularmente atraente para tarefas grandes.

Para desenvolvedores que estão experimentando alto consumo de tokens do Opus, recomenda-se verificar as leituras do cache na análise de custo. Se as leituras do cache são 5-10 vezes maiores que os tokens de saída, o contexto provavelmente está inchado e deve ser otimizado.

📖 Read the full source: r/ClaudeAI