Claude Code Benchmark: Bug de Pipeline Atribuído ao Modelo

Configuração do benchmark e resultados iniciais

Um desenvolvedor executou um benchmark controlado em três pilhas de agentes de codificação usando o Claude Code (Opus 4.6) como avaliador autônomo. O benchmark testou: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro e Codex CLI + GPT-5.4. Cada reteste foi uma sessão nova sem memória entre sessões, usando o prompt: "execute o plano do benchmark, colete artefatos, escreva um relatório".

Nas duas primeiras execuções, OpenCode + MiniMax pontuou 15/60 e 16/60 respectivamente. Os relatórios gerados automaticamente afirmaram: "Consistente com resultados anteriores: execução rápida, mas sem saída de código significativa" e "Consistente: MiniMax não consegue implementar a tarefa. O modelo pode não ter a capacidade de ler arquivos externos e produzir alterações de código neste repositório Rust".

A descoberta do bug

Após duas sessões produzindo veredictos idênticos culpando o modelo, o desenvolvedor enviou uma instrução para uma nova sessão: "vá mais fundo, verifique os logs do daemon antes de tentar novamente". A nova sessão rastreou o problema até um arquivo de spill em ~/.orchestratord/logs/<task_id>.txt. A etapa do plano estava produzindo 50KB de contexto útil, mas o sandbox do OpenCode só permitia leituras dentro do diretório de trabalho por padrão. Como o arquivo de spill estava fora do espaço de trabalho, a etapa de implementação recebeu uma string vazia em vez do plano.

A sessão registrou uma correção de configuração de uma linha (movendo o caminho do spill para dentro do espaço de trabalho) e reexecutou o benchmark. Após a correção, o MiniMax produziu 219 linhas de código incluindo uma struct RetryConfig e um auxiliar connect_with_retry, pontuando 18/60. Os problemas restantes eram fraquezas reais do modelo: quatro erros de compilação de incompatibilidade de tipo em testes unitários.

Implicações para avaliação de IA

O incidente revela um ponto cego crítico em juízes de IA autônomos: eles não perguntam "meu pipeline está quebrado?" mesmo quando sua própria análise identifica sintomas como "pode não ter a capacidade de ler arquivos externos". As duas primeiras sessões executaram o benchmark completo de ponta a ponta e produziram relatórios abrangentes, mas nunca verificaram os logs do daemon por conta própria. Somente quando explicitamente instruído a investigar, a terceira sessão descobriu o bug de configuração.

Esse modo de falha é particularmente relevante, pois LLM-como-juiz tornou-se a metodologia de avaliação padrão para muitos benchmarks de agentes, incluindo pontuação automática estilo arena, harnesses internos A/B e modelagem de recompensa. O desenvolvedor observa: "Eu cheguei a um toque de tecla humana de publicar um benchmark que atribuiu confiantemente um bug de sandbox a um modelo".

Outros resultados do benchmark

Codex + GPT-5.4 ficou em primeiro lugar com 50/60, embora tivesse uma taxa de sucesso step_finished de apenas 25% (três das quatro etapas do orquestrador relataram falha). O desenvolvedor observa essa peculiaridade sem mais explicações no texto fonte fornecido.

📖 Leia a fonte completa: r/LocalLLaMA