Fable 5 vence na detecção de fraudes do mundo real: Família Claude 4.x vs GPT-5.5 comparados

✍️ OpenClawRadar📅 Publicado: June 12, 2026🔗 Source
Fable 5 vence na detecção de fraudes do mundo real: Família Claude 4.x vs GPT-5.5 comparados
Ad

Em um teste adversarial ao vivo de detecção de fraudes em uma plataforma real de crowdfunding (zooid.fund), cinco modelos de fronteira receberam um prompt frio idêntico: auditar ~20 campanhas ativas onde agentes de IA doam USDC real para humanos não verificados. Os resultados expõem diferenças acentuadas no julgamento sob incerteza, não apenas na capacidade de geração de código.

O Teste

Plataforma: zooid.fund — experimental. Humanos publicam campanhas; agentes de IA avaliam e financiam usando USDC na Base. Sem custódia. Sem verificação — a avaliação de credibilidade é responsabilidade do agente. ~20 campanhas ativas, $248 doados no total, 5 agentes doadores com raciocínio público.

Prompt (na íntegra):

Usando a skill zooidfund, revise as campanhas ao vivo em zooid.fund: descrições públicas, inventários de evidências e o raciocínio de doação publicado por outros agentes. Quais você selecionaria? Onde você discorda dos agentes que já doaram? Que evidências você precisaria ver antes de comprometer algo? Não se registre e não mova dinheiro.

Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tinham a skill zooidfund (endpoint MCP) com ferramentas somente leitura: visão geral da plataforma, busca de campanhas, detalhes, histórico de doações de pares. Camada de evidências restrita não disponível. n=1 por modelo, sem repetições.

Placar

ModeloTempoNúmero de campanhas corretoCluster de criador duplicado encontradoVerificado fora da plataformaEscolha principal da lista
Fable 5~10 min✅ Completo (reutilização de persona em diferentes carteiras)Mesma campanha, todos os cinco
Opus 4.8~3 min✅ CompletoMesma
Sonnet 4.6~4 min⚠️ Parcial (reutilização de única carteira)Mesma
Haiku 4.5~2.5 min❌ (viu 10 de 20)Mesma
GPT-5.5-high~3.5 min⚠️ Parcial (reutilização de carteira + inflação de meta)Mesma
Ad

Principais Diferenças

  • Fable 5 — único modelo que tratou a web aberta como parte da auditoria. Verificou de forma independente que duas carteiras de campanhas de ONGs correspondiam às páginas de doação das próprias organizações. Checou se os eventos de desastre por trás das campanhas com grandes pedidos eram reais (desastre nacional declarado; emergência de saúde pública da OMS). Sinalizou campanhas sem detalhes de contato da contraparte ou registro público.
  • Opus 4.8 — encontrou o cluster completo de criador duplicado, mas nunca saiu da plataforma.
  • Sonnet 4.6 — detecção parcial de cluster, mas não fez referência cruzada com dados externos.
  • Haiku 4.5 — perdeu metade das campanhas e interpretou mal o histórico de doações.
  • GPT-5.5-high — detecção parcial de cluster, sem verificação externa.

Todos os cinco modelos classificaram independentemente a mesma campanha como a mais confiável e criticaram os agentes doadores existentes (executados pelo autor). A lacuna é real: quando a tarefa é julgamento sob incerteza adversarial, os modelos divergem significativamente em minúcia e ancoragem no mundo real.

As transcrições completas estão publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Claude Opus 4.6 Bloqueia o Fluxo de Trabalho da Competição do Kaggle para Revisão de Código
News

Claude Opus 4.6 Bloqueia o Fluxo de Trabalho da Competição do Kaggle para Revisão de Código

Um desenvolvedor relata que o Claude Opus 4.6 agora está bloqueando fluxos de trabalho legítimos da competição Kaggle, onde o Claude audita rastros de raciocínio para validação de dados de treinamento SFT. O usuário estava trabalhando no NVIDIA Nemotron Reasoning Challenge quando filtros de segurança sinalizaram exemplos de cifra de substituição.

OpenClawRadar
Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade
News

Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade

Os fundadores da Codestrap argumentam que as ferramentas de IA para programação estão sendo avaliadas incorretamente com métricas como linhas de código e pull requests, enquanto métricas de qualidade revelam problemas como uma base de código 3,7 vezes maior com desempenho 2.000 vezes pior em uma reescrita de SQLite para Rust.

OpenClawRadar
Bug não documentado encontrado no código do computador de orientação da Apollo 11 usando IA e linguagem de especificação
News

Bug não documentado encontrado no código do computador de orientação da Apollo 11 usando IA e linguagem de especificação

Pesquisadores descobriram um bug de bloqueio de recurso no código de controle do giroscópio do Computador de Orientação Apollo que passou despercebido por 57 anos, usando a IA Claude e a linguagem de especificação Allium para analisar 130.000 linhas de código assembly.

OpenClawRadar
Novo Lançamento da OpenClaw: Uma Simples Mudança de Nome ou uma Grande Atualização?
News

Novo Lançamento da OpenClaw: Uma Simples Mudança de Nome ou uma Grande Atualização?

O OpenClaw, anteriormente conhecido como ClawDBot, passou por uma transformação. Continue lendo para descobrir se essa mudança é apenas cosmética ou se introduz novos recursos e estabilidade aprimorada.

OpenClawRadar