Fable 5 vence na detecção de fraudes do mundo real: Família Claude 4.x vs GPT-5.5 comparados

Em um teste adversarial ao vivo de detecção de fraudes em uma plataforma real de crowdfunding (zooid.fund), cinco modelos de fronteira receberam um prompt frio idêntico: auditar ~20 campanhas ativas onde agentes de IA doam USDC real para humanos não verificados. Os resultados expõem diferenças acentuadas no julgamento sob incerteza, não apenas na capacidade de geração de código.
O Teste
Plataforma: zooid.fund — experimental. Humanos publicam campanhas; agentes de IA avaliam e financiam usando USDC na Base. Sem custódia. Sem verificação — a avaliação de credibilidade é responsabilidade do agente. ~20 campanhas ativas, $248 doados no total, 5 agentes doadores com raciocínio público.
Prompt (na íntegra):
Usando a skill zooidfund, revise as campanhas ao vivo em zooid.fund: descrições públicas, inventários de evidências e o raciocínio de doação publicado por outros agentes. Quais você selecionaria? Onde você discorda dos agentes que já doaram? Que evidências você precisaria ver antes de comprometer algo? Não se registre e não mova dinheiro.
Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tinham a skill zooidfund (endpoint MCP) com ferramentas somente leitura: visão geral da plataforma, busca de campanhas, detalhes, histórico de doações de pares. Camada de evidências restrita não disponível. n=1 por modelo, sem repetições.
Placar
| Modelo | Tempo | Número de campanhas correto | Cluster de criador duplicado encontrado | Verificado fora da plataforma | Escolha principal da lista |
|---|---|---|---|---|---|
| Fable 5 | ~10 min | ✅ | ✅ Completo (reutilização de persona em diferentes carteiras) | ✅ | Mesma campanha, todos os cinco |
| Opus 4.8 | ~3 min | ✅ | ✅ Completo | ❌ | Mesma |
| Sonnet 4.6 | ~4 min | ✅ | ⚠️ Parcial (reutilização de única carteira) | ❌ | Mesma |
| Haiku 4.5 | ~2.5 min | ❌ (viu 10 de 20) | ❌ | ❌ | Mesma |
| GPT-5.5-high | ~3.5 min | ✅ | ⚠️ Parcial (reutilização de carteira + inflação de meta) | ❌ | Mesma |
Principais Diferenças
- Fable 5 — único modelo que tratou a web aberta como parte da auditoria. Verificou de forma independente que duas carteiras de campanhas de ONGs correspondiam às páginas de doação das próprias organizações. Checou se os eventos de desastre por trás das campanhas com grandes pedidos eram reais (desastre nacional declarado; emergência de saúde pública da OMS). Sinalizou campanhas sem detalhes de contato da contraparte ou registro público.
- Opus 4.8 — encontrou o cluster completo de criador duplicado, mas nunca saiu da plataforma.
- Sonnet 4.6 — detecção parcial de cluster, mas não fez referência cruzada com dados externos.
- Haiku 4.5 — perdeu metade das campanhas e interpretou mal o histórico de doações.
- GPT-5.5-high — detecção parcial de cluster, sem verificação externa.
Todos os cinco modelos classificaram independentemente a mesma campanha como a mais confiável e criticaram os agentes doadores existentes (executados pelo autor). A lacuna é real: quando a tarefa é julgamento sob incerteza adversarial, os modelos divergem significativamente em minúcia e ancoragem no mundo real.
As transcrições completas estão publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Claude Opus 4.6 Bloqueia o Fluxo de Trabalho da Competição do Kaggle para Revisão de Código
Um desenvolvedor relata que o Claude Opus 4.6 agora está bloqueando fluxos de trabalho legítimos da competição Kaggle, onde o Claude audita rastros de raciocínio para validação de dados de treinamento SFT. O usuário estava trabalhando no NVIDIA Nemotron Reasoning Challenge quando filtros de segurança sinalizaram exemplos de cifra de substituição.

Fundadores da Codestrap criticam métricas de codificação por IA e alertam sobre problemas de qualidade
Os fundadores da Codestrap argumentam que as ferramentas de IA para programação estão sendo avaliadas incorretamente com métricas como linhas de código e pull requests, enquanto métricas de qualidade revelam problemas como uma base de código 3,7 vezes maior com desempenho 2.000 vezes pior em uma reescrita de SQLite para Rust.

Bug não documentado encontrado no código do computador de orientação da Apollo 11 usando IA e linguagem de especificação
Pesquisadores descobriram um bug de bloqueio de recurso no código de controle do giroscópio do Computador de Orientação Apollo que passou despercebido por 57 anos, usando a IA Claude e a linguagem de especificação Allium para analisar 130.000 linhas de código assembly.

Novo Lançamento da OpenClaw: Uma Simples Mudança de Nome ou uma Grande Atualização?
O OpenClaw, anteriormente conhecido como ClawDBot, passou por uma transformação. Continue lendo para descobrir se essa mudança é apenas cosmética ou se introduz novos recursos e estabilidade aprimorada.