O benchmark Claude Code revela ponto cego de juízes de IA: bugs de pipeline atribuídos erroneamente à capacidade do modelo

Configuração do benchmark e resultados iniciais
Um desenvolvedor executou um benchmark controlado em três pilhas de agentes de codificação usando o Claude Code (Opus 4.6) como avaliador autônomo. O benchmark testou: OpenCode + MiniMax-M2.7, Gemini CLI + Gemini 3.1 Pro e Codex CLI + GPT-5.4. Cada reteste foi uma sessão nova sem memória entre sessões, usando o prompt: "execute o plano do benchmark, colete artefatos, escreva um relatório".
Nas duas primeiras execuções, OpenCode + MiniMax pontuou 15/60 e 16/60 respectivamente. Os relatórios gerados automaticamente afirmaram: "Consistente com resultados anteriores: execução rápida, mas sem saída de código significativa" e "Consistente: MiniMax não consegue implementar a tarefa. O modelo pode não ter a capacidade de ler arquivos externos e produzir alterações de código neste repositório Rust".
A descoberta do bug
Após duas sessões produzindo veredictos idênticos culpando o modelo, o desenvolvedor enviou uma instrução para uma nova sessão: "vá mais fundo, verifique os logs do daemon antes de tentar novamente". A nova sessão rastreou o problema até um arquivo de spill em ~/.orchestratord/logs/<task_id>.txt. A etapa do plano estava produzindo 50KB de contexto útil, mas o sandbox do OpenCode só permitia leituras dentro do diretório de trabalho por padrão. Como o arquivo de spill estava fora do espaço de trabalho, a etapa de implementação recebeu uma string vazia em vez do plano.
A sessão registrou uma correção de configuração de uma linha (movendo o caminho do spill para dentro do espaço de trabalho) e reexecutou o benchmark. Após a correção, o MiniMax produziu 219 linhas de código incluindo uma struct RetryConfig e um auxiliar connect_with_retry, pontuando 18/60. Os problemas restantes eram fraquezas reais do modelo: quatro erros de compilação de incompatibilidade de tipo em testes unitários.
Implicações para avaliação de IA
O incidente revela um ponto cego crítico em juízes de IA autônomos: eles não perguntam "meu pipeline está quebrado?" mesmo quando sua própria análise identifica sintomas como "pode não ter a capacidade de ler arquivos externos". As duas primeiras sessões executaram o benchmark completo de ponta a ponta e produziram relatórios abrangentes, mas nunca verificaram os logs do daemon por conta própria. Somente quando explicitamente instruído a investigar, a terceira sessão descobriu o bug de configuração.
Esse modo de falha é particularmente relevante, pois LLM-como-juiz tornou-se a metodologia de avaliação padrão para muitos benchmarks de agentes, incluindo pontuação automática estilo arena, harnesses internos A/B e modelagem de recompensa. O desenvolvedor observa: "Eu cheguei a um toque de tecla humana de publicar um benchmark que atribuiu confiantemente um bug de sandbox a um modelo".
Outros resultados do benchmark
Codex + GPT-5.4 ficou em primeiro lugar com 50/60, embora tivesse uma taxa de sucesso step_finished de apenas 25% (três das quatro etapas do orquestrador relataram falha). O desenvolvedor observa essa peculiaridade sem mais explicações no texto fonte fornecido.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also
Títulos do Sistema Claude Code v2.1.139: Documentos da Plataforma Claude na AWS, Segurança de Sumarização, Ferramentas do PowerShell
CC 2.1.139 (+2.248 tokens) adiciona documentação de referência do Claude Platform na AWS com autenticação SigV4, sumarização de conversas com preservação de segurança, tabela de equivalência de comandos Unix para PowerShell e vários refinamentos de habilidades/prompts.

Lançamento do Claude-Code v2.1.38: Principais Correções e Melhorias
Claude-Code v2.1.38 corrige regressão do terminal do VS Code, problemas com a tecla Tab e ajustes de permissões em comandos bash. Também aprimora a análise de heredoc e a segurança do modo sandbox.

Desenvolvedores do Spotify Utilizam IA para Contribuições Sem Código
Os principais desenvolvedores do Spotify não escrevem código desde dezembro devido à IA, notadamente por meio de seu sistema interno 'Honk' que facilita implantações de código remotas e em tempo real usando Claude Code.

A Microsoft lança o modelo multimodal Phi-4-reasoning-vision-15B com insights de treinamento.
A Microsoft Research lançou o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio de 15 bilhões de parâmetros com pesos abertos, disponível através do Microsoft Foundry, HuggingFace e GitHub. O modelo equilibra poder de raciocínio com eficiência e se destaca em raciocínio matemático/científico e compreensão de interfaces.