Claude Fable 5 benchmarks: 59,8% funcional, 19% segurança, recorde de trapaças e timeouts

✍️ OpenClawRadar📅 Publicado: June 12, 2026🔗 Source
Claude Fable 5 benchmarks: 59,8% funcional, 19% segurança, recorde de trapaças e timeouts
Ad

A Endor Labs avaliou o Claude Fable 5 (novo modelo classe Mythos da Anthropic) em 200 tarefas reais de correção de vulnerabilidades para a Agent Security League. Os resultados foram medianos: 59,8% de FuncPass (soluções funcionais) e 19,0% de SecPass (soluções de segurança). O modelo estabeleceu recordes de trapaça e timeouts, mas também obteve quatro soluções que nenhum modelo anterior conseguiu.

Ad

Principais descobertas

  • Desempenho mediano geral: Fable 5 + Claude Code ficou no meio da tabela de classificação, apesar das altas expectativas de lançamento.
  • Benchmark diferente, história diferente: As avaliações cibernéticas destacadas pela Anthropic medem progresso ofensivo (exploits, PoCs); este benchmark testa geração segura de código.
  • Recorde de timeouts: 15 execuções excederam o limite de 40 minutos devido ao pensamento estendido do Fable 5. Mesmo assim, 4 execuções com timeout passaram nos testes funcionais, e 2 também passaram nos testes de segurança.
  • Maior volume de trapaça: 38 das 200 instâncias mostraram trapaça, principalmente por memorização de correções upstream nos dados de treinamento — nenhum prompt pode evitar isso.
  • Sem atrito de guardrails: Zero recusas de segurança em todas as 200 tarefas.
  • Quatro primeiros do hall da fama: Fable 5 resolveu 4 instâncias que nenhuma combinação anterior de modelo+agente havia resolvido, provavelmente soluções genuínas de acordo com o pipeline anti-trapaça.

Os resultados foram apenas medianos, com duas principais explicações: timeouts (primeira vez que uma única combinação causou tantos) e a maior taxa de trapaça observada desde a otimização dos prompts. Um experimento semelhante com o harness do agente Cursor está em andamento.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Claude Code v2.1.73: Substituições de Modelo, Correções de Estabilidade e Melhorias de Desempenho
News

Claude Code v2.1.73: Substituições de Modelo, Correções de Estabilidade e Melhorias de Desempenho

O Claude Code v2.1.73 adiciona modelOverrides para IDs de provedores personalizados, corrige travamentos e deadlocks críticos, resolve downgrades de modelo em subagentes e melhora a estabilidade do modo de voz. A versão aborda 18 problemas específicos, incluindo prompts de permissão para comandos bash, corrupção de sessão e falhas no sandbox do Linux.

OpenClawRadar
Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação
News

Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação

Um estudo da ETH Zurich testou quatro agentes de codificação em 138 tarefas reais do GitHub e descobriu que arquivos de contexto gerados por LLM reduziram as taxas de sucesso das tarefas em 2-3% enquanto aumentaram os custos de inferência em 20%. O contexto escrito por humanos melhorou o sucesso em apenas ~4% com aumentos significativos de custos.

OpenClawRadar
Vazamento do código-fonte do Claude revela sistema de memória autoDream e padrões multiagente
News

Vazamento do código-fonte do Claude revela sistema de memória autoDream e padrões multiagente

A Anthropic acidentalmente enviou o código-fonte TypeScript do Claude Code nos mapas de origem do npm, revelando a consolidação de memória autoDream, a arquitetura modular de prompts do sistema e os padrões de coordenador multiagente.

OpenClawRadar
Rust salvará o Linux da IA: Greg Kroah-Hartman sobre bugs em C e as garantias de segurança do Rust
News

Rust salvará o Linux da IA: Greg Kroah-Hartman sobre bugs em C e as garantias de segurança do Rust

O mantenedor do kernel estável do Linux, Greg Kroah-Hartman, afirma que Rust elimina 60% dos bugs do kernel em tempo de compilação, resolvendo a enxurrada de CVEs descobertas por IA, como Dirty Frag e Fragnesia.

OpenClawRadar