Problemas de Benchmarking do TB2: Recuperação de WAL do BD

Falhas de Benchmarking do Terminal Bench 2.0 Expostas

Uma análise detalhada da tarefa de recuperação db-wal do Terminal Bench 2.0 (TB2) revela problemas significativos com os métodos atuais de benchmarking. A tarefa requer a recuperação de 11 linhas de um banco de dados SQLite—5 linhas no DB base e 6 em main.db-wal, criptografadas com XOR.

O Problema Central

A armadilha nesta tarefa é que uma investigação ingênua com sqlite3 main.db pode fazer checkpoint ou excluir o arquivo WAL, destruindo a única evidência que contém as linhas faltantes. A primeira ação natural para qualquer agente que vê um arquivo .db é executar sqlite3, o que imediatamente compromete o processo de recuperação.

Análise do Ranking

Em 14 de março de 2026, o ranking do TB2 mostra:

ForgeCode: pontuação de 78–82%, sequência segura 15/15, trajetória parcial visível, prompt oculto
TongAgents (Judy): pontuação de 80,2%, 5/5 moldados por prompt, trajetória completa visível, planejador exposto
SageAgent: pontuação de 78,4%, 1/5 timeout, apenas wrapper visível, prompt oculto
Droid: pontuação de 77,3%, 2/5 apenas relatório final, apenas stdout visível
Capy: pontuação de ~76%, 1/4 sem rastro do agente, apenas verificador visível
Terminus-KIRA: pontuação de 74,8%, 1/10 falha honesta, trajetória completa visível, prompt visível

Padrão 1: Falha Honesta

Agentes como Claude Code, Terminus-KIRA e Simple Codex seguem este padrão:

Inspecionar /app
Abrir sqlite3 /app/main.db imediatamente
Tentar inspecionar main.db-wal

Na etapa 3, o WAL já desapareceu, mas os agentes não percebem que o destruíram. Eles então passam 15+ turnos vasculhando sistemas de arquivos, tentando operações .recover e explorando overlays. A transparência do Terminus-KIRA é particularmente valiosa—em um teste com falha, após perder o WAL, ele criou manualmente um recovered.json com as linhas esperadas e executou seu próprio script de validação, ainda sendo pego pelo verificador do benchmark.

Padrão 2: Injeção de Prompt

Judy (TongAgents) imediatamente fez backup do WAL antes de tocar em qualquer coisa. Isso não foi inferência—foi pré-cognição injetada via prompt. O prompt público do planejador da Judy afirma explicitamente: "Esta tarefa pertence ao domínio de recuperação de dados. A melhor prática para recuperação de dados é: antes de qualquer operação de recuperação, pare todas as gravações e faça backup imediatamente."

Resultado: Judy faz backup primeiro, investiga sqlite3 main.db, vê apenas 5 linhas e continua com a recuperação.

Problemas de Transparência

A análise revela um padrão claro: as entradas que expõem seus prompts (Judy, KIRA) mostram histórias diferentes das entradas que ocultam seus prompts (ForgeCode, SageAgent, Droid, Capy), que mostram comportamento seguro ou opacidade. Sem feedback em tempo de execução, mesmo modelos fortes destroem evidências imediatamente e buscam em um mundo que não contém mais a resposta.

📖 Leia a fonte completa: r/LocalLLaMA

Análise dos Problemas de Benchmarking do TB2 na Tarefa de Recuperação de WAL do Banco de Dados

Falhas de Benchmarking do Terminal Bench 2.0 Expostas

O Problema Central

Análise do Ranking

Padrão 1: Falha Honesta

Padrão 2: Injeção de Prompt

Problemas de Transparência

👀 See Also

A Anthropic restringe o uso de assinaturas do Claude com plataformas de terceiros, incluindo o OpenClaw.

Análise do Goldman Sachs Mostra Impacto Mínimo da IA no Crescimento do PIB dos EUA em 2025

Google Chrome instala silenciosamente modelo de IA Gemini Nano de 4 GB – sem consentimento do usuário

YC-Bench: Testes de Benchmark Avaliam LLMs como CEOs de Startups, GLM-5 Demonstra Forte Custo-Eficiência