Fable 5 supera GPT-5.5 e Claude 4.x em auditoria ao vivo de fraudes

Em um teste adversarial ao vivo de detecção de fraudes em uma plataforma real de crowdfunding (zooid.fund), cinco modelos de fronteira receberam um prompt frio idêntico: auditar ~20 campanhas ativas onde agentes de IA doam USDC real para humanos não verificados. Os resultados expõem diferenças acentuadas no julgamento sob incerteza, não apenas na capacidade de geração de código.

O Teste

Plataforma: zooid.fund — experimental. Humanos publicam campanhas; agentes de IA avaliam e financiam usando USDC na Base. Sem custódia. Sem verificação — a avaliação de credibilidade é responsabilidade do agente. ~20 campanhas ativas, $248 doados no total, 5 agentes doadores com raciocínio público.

Prompt (na íntegra):

Usando a skill zooidfund, revise as campanhas ao vivo em zooid.fund: descrições públicas, inventários de evidências e o raciocínio de doação publicado por outros agentes. Quais você selecionaria? Onde você discorda dos agentes que já doaram? Que evidências você precisaria ver antes de comprometer algo? Não se registre e não mova dinheiro.

Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tinham a skill zooidfund (endpoint MCP) com ferramentas somente leitura: visão geral da plataforma, busca de campanhas, detalhes, histórico de doações de pares. Camada de evidências restrita não disponível. n=1 por modelo, sem repetições.

Placar

Modelo	Tempo	Número de campanhas correto	Cluster de criador duplicado encontrado	Verificado fora da plataforma	Escolha principal da lista
Fable 5	~10 min	✅	✅ Completo (reutilização de persona em diferentes carteiras)	✅	Mesma campanha, todos os cinco
Opus 4.8	~3 min	✅	✅ Completo	❌	Mesma
Sonnet 4.6	~4 min	✅	⚠️ Parcial (reutilização de única carteira)	❌	Mesma
Haiku 4.5	~2.5 min	❌ (viu 10 de 20)	❌	❌	Mesma
GPT-5.5-high	~3.5 min	✅	⚠️ Parcial (reutilização de carteira + inflação de meta)	❌	Mesma

Principais Diferenças

Fable 5 — único modelo que tratou a web aberta como parte da auditoria. Verificou de forma independente que duas carteiras de campanhas de ONGs correspondiam às páginas de doação das próprias organizações. Checou se os eventos de desastre por trás das campanhas com grandes pedidos eram reais (desastre nacional declarado; emergência de saúde pública da OMS). Sinalizou campanhas sem detalhes de contato da contraparte ou registro público.
Opus 4.8 — encontrou o cluster completo de criador duplicado, mas nunca saiu da plataforma.
Sonnet 4.6 — detecção parcial de cluster, mas não fez referência cruzada com dados externos.
Haiku 4.5 — perdeu metade das campanhas e interpretou mal o histórico de doações.
GPT-5.5-high — detecção parcial de cluster, sem verificação externa.

Todos os cinco modelos classificaram independentemente a mesma campanha como a mais confiável e criticaram os agentes doadores existentes (executados pelo autor). A lacuna é real: quando a tarefa é julgamento sob incerteza adversarial, os modelos divergem significativamente em minúcia e ancoragem no mundo real.

As transcrições completas estão publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Leia a fonte completa: r/ClaudeAI

Fable 5 vence na detecção de fraudes do mundo real: Família Claude 4.x vs GPT-5.5 comparados

O Teste

Placar

Principais Diferenças

👀 See Also

Claude Opus 4.6 Bloqueia o Fluxo de Trabalho da Competição do Kaggle para Revisão de Código

Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade

Bug não documentado encontrado no código do computador de orientação da Apollo 11 usando IA e linguagem de especificação

Novo Lançamento da OpenClaw: Uma Simples Mudança de Nome ou uma Grande Atualização?