O benchmark Claude Code revela ponto cego de juízes de IA: bugs de pipeline atribuídos erroneamente à capacidade do modelo

✍️ OpenClawRadar📅 Publicado: April 16, 2026🔗 Source
O benchmark Claude Code revela ponto cego de juízes de IA: bugs de pipeline atribuídos erroneamente à capacidade do modelo
Ad

Configuração do benchmark e resultados iniciais

Um desenvolvedor executou um benchmark controlado em três pilhas de agentes de codificação usando o Claude Code (Opus 4.6) como avaliador autônomo. O benchmark testou: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro e Codex CLI + GPT-5.4. Cada reteste foi uma sessão nova sem memória entre sessões, usando o prompt: "execute o plano do benchmark, colete artefatos, escreva um relatório".

Nas duas primeiras execuções, OpenCode + MiniMax pontuou 15/60 e 16/60 respectivamente. Os relatórios gerados automaticamente afirmaram: "Consistente com resultados anteriores: execução rápida, mas sem saída de código significativa" e "Consistente: MiniMax não consegue implementar a tarefa. O modelo pode não ter a capacidade de ler arquivos externos e produzir alterações de código neste repositório Rust".

A descoberta do bug

Após duas sessões produzindo veredictos idênticos culpando o modelo, o desenvolvedor enviou uma instrução para uma nova sessão: "vá mais fundo, verifique os logs do daemon antes de tentar novamente". A nova sessão rastreou o problema até um arquivo de spill em ~/.orchestratord/logs/<task_id>.txt. A etapa do plano estava produzindo 50KB de contexto útil, mas o sandbox do OpenCode só permitia leituras dentro do diretório de trabalho por padrão. Como o arquivo de spill estava fora do espaço de trabalho, a etapa de implementação recebeu uma string vazia em vez do plano.

A sessão registrou uma correção de configuração de uma linha (movendo o caminho do spill para dentro do espaço de trabalho) e reexecutou o benchmark. Após a correção, o MiniMax produziu 219 linhas de código incluindo uma struct RetryConfig e um auxiliar connect_with_retry, pontuando 18/60. Os problemas restantes eram fraquezas reais do modelo: quatro erros de compilação de incompatibilidade de tipo em testes unitários.

Ad

Implicações para avaliação de IA

O incidente revela um ponto cego crítico em juízes de IA autônomos: eles não perguntam "meu pipeline está quebrado?" mesmo quando sua própria análise identifica sintomas como "pode não ter a capacidade de ler arquivos externos". As duas primeiras sessões executaram o benchmark completo de ponta a ponta e produziram relatórios abrangentes, mas nunca verificaram os logs do daemon por conta própria. Somente quando explicitamente instruído a investigar, a terceira sessão descobriu o bug de configuração.

Esse modo de falha é particularmente relevante, pois LLM-como-juiz tornou-se a metodologia de avaliação padrão para muitos benchmarks de agentes, incluindo pontuação automática estilo arena, harnesses internos A/B e modelagem de recompensa. O desenvolvedor observa: "Eu cheguei a um toque de tecla humana de publicar um benchmark que atribuiu confiantemente um bug de sandbox a um modelo".

Outros resultados do benchmark

Codex + GPT-5.4 ficou em primeiro lugar com 50/60, embora tivesse uma taxa de sucesso step_finished de apenas 25% (três das quatro etapas do orquestrador relataram falha). O desenvolvedor observa essa peculiaridade sem mais explicações no texto fonte fornecido.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

🦀
News

Títulos do Sistema Claude Code v2.1.139: Documentos da Plataforma Claude na AWS, Segurança de Sumarização, Ferramentas do PowerShell

CC 2.1.139 (+2.248 tokens) adiciona documentação de referência do Claude Platform na AWS com autenticação SigV4, sumarização de conversas com preservação de segurança, tabela de equivalência de comandos Unix para PowerShell e vários refinamentos de habilidades/prompts.

OpenClawRadar
Lançamento do Claude-Code v2.1.38: Principais Correções e Melhorias
News

Lançamento do Claude-Code v2.1.38: Principais Correções e Melhorias

Claude-Code v2.1.38 corrige regressão do terminal do VS Code, problemas com a tecla Tab e ajustes de permissões em comandos bash. Também aprimora a análise de heredoc e a segurança do modo sandbox.

OpenClawRadar
Desenvolvedores do Spotify Utilizam IA para Contribuições Sem Código
News

Desenvolvedores do Spotify Utilizam IA para Contribuições Sem Código

Os principais desenvolvedores do Spotify não escrevem código desde dezembro devido à IA, notadamente por meio de seu sistema interno 'Honk' que facilita implantações de código remotas e em tempo real usando Claude Code.

OpenClawRadar
A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.
News

A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.

A Microsoft Research lançou o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio de 15 bilhões de parâmetros com pesos abertos, disponível através do Microsoft Foundry, HuggingFace e GitHub. O modelo equilibra poder de raciocínio com eficiência e se destaca em raciocínio matemático/científico e compreensão de interfaces.

OpenClawRadar