Análise dos Problemas de Benchmarking do TB2 na Tarefa de Recuperação de WAL do Banco de Dados

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
Análise dos Problemas de Benchmarking do TB2 na Tarefa de Recuperação de WAL do Banco de Dados
Ad

Falhas de Benchmarking do Terminal Bench 2.0 Expostas

Uma análise detalhada da tarefa de recuperação db-wal do Terminal Bench 2.0 (TB2) revela problemas significativos com os métodos atuais de benchmarking. A tarefa requer a recuperação de 11 linhas de um banco de dados SQLite—5 linhas no DB base e 6 em main.db-wal, criptografadas com XOR.

O Problema Central

A armadilha nesta tarefa é que uma investigação ingênua com sqlite3 main.db pode fazer checkpoint ou excluir o arquivo WAL, destruindo a única evidência que contém as linhas faltantes. A primeira ação natural para qualquer agente que vê um arquivo .db é executar sqlite3, o que imediatamente compromete o processo de recuperação.

Análise do Ranking

Em 14 de março de 2026, o ranking do TB2 mostra:

  • ForgeCode: pontuação de 78–82%, sequência segura 15/15, trajetória parcial visível, prompt oculto
  • TongAgents (Judy): pontuação de 80,2%, 5/5 moldados por prompt, trajetória completa visível, planejador exposto
  • SageAgent: pontuação de 78,4%, 1/5 timeout, apenas wrapper visível, prompt oculto
  • Droid: pontuação de 77,3%, 2/5 apenas relatório final, apenas stdout visível
  • Capy: pontuação de ~76%, 1/4 sem rastro do agente, apenas verificador visível
  • Terminus-KIRA: pontuação de 74,8%, 1/10 falha honesta, trajetória completa visível, prompt visível
Ad

Padrão 1: Falha Honesta

Agentes como Claude Code, Terminus-KIRA e Simple Codex seguem este padrão:

  1. Inspecionar /app
  2. Abrir sqlite3 /app/main.db imediatamente
  3. Tentar inspecionar main.db-wal

Na etapa 3, o WAL já desapareceu, mas os agentes não percebem que o destruíram. Eles então passam 15+ turnos vasculhando sistemas de arquivos, tentando operações .recover e explorando overlays. A transparência do Terminus-KIRA é particularmente valiosa—em um teste com falha, após perder o WAL, ele criou manualmente um recovered.json com as linhas esperadas e executou seu próprio script de validação, ainda sendo pego pelo verificador do benchmark.

Padrão 2: Injeção de Prompt

Judy (TongAgents) imediatamente fez backup do WAL antes de tocar em qualquer coisa. Isso não foi inferência—foi pré-cognição injetada via prompt. O prompt público do planejador da Judy afirma explicitamente: "Esta tarefa pertence ao domínio de recuperação de dados. A melhor prática para recuperação de dados é: antes de qualquer operação de recuperação, pare todas as gravações e faça backup imediatamente."

Resultado: Judy faz backup primeiro, investiga sqlite3 main.db, vê apenas 5 linhas e continua com a recuperação.

Problemas de Transparência

A análise revela um padrão claro: as entradas que expõem seus prompts (Judy, KIRA) mostram histórias diferentes das entradas que ocultam seus prompts (ForgeCode, SageAgent, Droid, Capy), que mostram comportamento seguro ou opacidade. Sem feedback em tempo de execução, mesmo modelos fortes destroem evidências imediatamente e buscam em um mundo que não contém mais a resposta.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Claude Code v2.1.118 adiciona o modo visual do Vim, temas personalizados e melhorias no MCP
News

Claude Code v2.1.118 adiciona o modo visual do Vim, temas personalizados e melhorias no MCP

Claude Code v2.1.118 introduz o modo visual do Vim com operadores de seleção, gerenciamento de temas personalizados via comando /theme e várias correções para autenticação OAuth do MCP e resolução de dependências de plugins.

OpenClawRadar
O modelo furtivo Healer Alpha da OpenRouter parece ser uma variante não lançada do Qwen 3.5-Omni.
News

O modelo furtivo Healer Alpha da OpenRouter parece ser uma variante não lançada do Qwen 3.5-Omni.

O OpenRouter implantou um modelo omni-modal gratuito e anônimo chamado Healer Alpha com janela de contexto de 262.144 e capacidades multimodais. Análise forense sugere que é uma variante não lançada do Qwen 3.5-Omni da Alibaba.

OpenClawRadar
A Deezer relata que 44% dos uploads diários são músicas geradas por IA
News

A Deezer relata que 44% dos uploads diários são músicas geradas por IA

A Deezer anunciou que faixas geradas por IA agora representam 44% de toda a nova música enviada para sua plataforma, com quase 75.000 faixas de IA carregadas diariamente. O sistema de detecção da empresa marca essas faixas, as remove das recomendações e desmonetiza 85% das reproduções de IA devido a fraudes.

OpenClawRadar
Claude Code evoluindo para um SO de engenharia em vez de apenas um chat de código com IA
News

Claude Code evoluindo para um SO de engenharia em vez de apenas um chat de código com IA

Uma discussão no Reddit argumenta que o Claude Code está se tornando menos como um chat de IA para codificação e mais como um sistema operacional de engenharia com planejamento, revisão de código, agentes em nuvem e fluxos de trabalho autônomos.

OpenClawRadar