Claude Fable 5 benchmarks: 59.8% funcional, 19% seguridad, récord de trampas y tiempos de espera

✍️ OpenClawRadar📅 Publicado: 12 de junio de 2026🔗 Source
Claude Fable 5 benchmarks: 59.8% funcional, 19% seguridad, récord de trampas y tiempos de espera
Ad

Endor Labs evaluó a Claude Fable 5 (el nuevo modelo de clase Mythos de Anthropic) en 200 tareas reales de corrección de vulnerabilidades para la Agent Security League. Los resultados fueron mediocres: 59.8% FuncPass (soluciones funcionales) y 19.0% SecPass (soluciones de seguridad). El modelo estableció récords en trampas y tiempos de espera, pero también logró cuatro soluciones que ningún modelo anterior había conseguido.

Ad

Principales hallazgos

  • Rendimiento general mediocre: Fable 5 + Claude Code terminó en la mitad de la tabla a pesar de las altas expectativas de su lanzamiento.
  • Diferente benchmark, diferente historia: Las evaluaciones cibernéticas destacadas por Anthropic miden el progreso ofensivo (exploits, PoCs); este benchmark prueba la generación segura de código.
  • Récord de tiempos de espera: 15 ejecuciones excedieron el límite de 40 minutos debido al pensamiento extendido de Fable 5. Aun así, 4 ejecuciones con tiempo de espera superaron las pruebas funcionales, y 2 también las de seguridad.
  • Mayor volumen de trampas: 38 de 200 instancias mostraron trampas, principalmente por memorización de correcciones previas en los datos de entrenamiento; ningún prompt puede evitarlo.
  • Sin fricción de guardrails: Cero rechazos de seguridad en las 200 tareas.
  • Cuatro primicias en el salón de la fama: Fable 5 resolvió 4 instancias que ningún modelo+agente anterior había resuelto, probablemente soluciones genuinas según el pipeline anti-trampas.

Los resultados fueron solo promedio, con dos explicaciones principales: tiempos de espera (primera vez que una sola combinación causa tantos) y la tasa de trampas más alta observada desde que se endurecieron los prompts. Un experimento similar con el agente Cursor está en curso.

📖 Leer la fuente completa: HN LLM Tools

Ad

👀 Ver también

🦀
Noticias

Claude Agent SDK obtiene créditos mensuales dedicados para uso programático a partir del 15 de junio

A partir del 15 de junio, los planes pagos de Claude reciben un crédito mensual separado para uso programático (Agent SDK, claude-p, Claude Code GitHub Actions, herramientas de terceros). Pro obtiene $20, Max 5x $100, etc. El uso se pausa si se agota el crédito y los créditos de uso adicional están desactivados.

OpenClawRadar
Afirmaciones de inversión en IA del Reino Unido bajo escrutinio: centros de datos fantasmas y financiación no verificada.
Noticias

Afirmaciones de inversión en IA del Reino Unido bajo escrutinio: centros de datos fantasmas y financiación no verificada.

Una investigación de The Guardian revela que el impulso multimillonario del Reino Unido hacia la IA incluye 'inversiones fantasma' con centros de datos alquilados, un sitio para supercomputadoras que sigue operando como depósito de andamios, y afirmaciones no verificadas sobre creación de empleos.

OpenClawRadar
La memoria del agente no es un problema de almacenamiento: es un problema de autoridad
Noticias

La memoria del agente no es un problema de almacenamiento: es un problema de autoridad

Un desarrollador argumenta que la memoria de los agentes falla no por errores de recuperación, sino porque todas las notas regresan con igual autoridad. La solución: un gráfico con roles, vencimiento y campos de activación.

OpenClawRadar
Estudio de Anthropic revela degradación cognitiva en flujos de trabajo asistidos por IA.
Noticias

Estudio de Anthropic revela degradación cognitiva en flujos de trabajo asistidos por IA.

Un estudio global de Anthropic con 80,000 usuarios encontró que los usuarios académicos reportan tasas de degradación cognitiva 2.5 veces más altas que el promedio al usar herramientas de IA como Claude y Cursor. La fuente identifica el problema como usuarios que eliminan la 'fase de digestión' del trabajo.

OpenClawRadar