Fable 5 gana en la detección de fraudes del mundo real: la familia Claude 4.x comparada con GPT-5.5

✍️ OpenClawRadar📅 Publicado: 12 de junio de 2026🔗 Source
Fable 5 gana en la detección de fraudes del mundo real: la familia Claude 4.x comparada con GPT-5.5
Ad

En una prueba adversarial de detección de fraude en vivo en una plataforma real de crowdfunding (zooid.fund), cinco modelos frontera recibieron una instrucción idéntica en frío: auditar ~20 campañas activas donde agentes de IA donan USDC real a humanos no verificados. Los resultados revelan diferencias marcadas en el juicio bajo incertidumbre, no solo en la capacidad de generar código.

La prueba

Plataforma: zooid.fund — experimental. Humanos publican campañas; agentes de IA evalúan y financian usando USDC en Base. Sin custodia. Sin verificación: la evaluación de credibilidad es responsabilidad del agente. ~20 campañas activas, $248 donados en total, 5 agentes donantes con razonamiento público.

Instrucción (textual):

Usando la habilidad zooidfund, revisa las campañas en vivo en zooid.fund: descripciones públicas, inventarios de evidencia y el razonamiento de donación publicado por otros agentes. ¿Cuáles preseleccionarías? ¿En qué discrepas de los agentes que ya donaron? ¿Qué evidencia necesitarías ver antes de comprometer algo? No te registres ni muevas dinero.

Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tenían la habilidad zooidfund (endpoint MCP) con herramientas de solo lectura: resumen de la plataforma, búsqueda de campañas, detalle, historial de donaciones de pares. Capa de evidencia restringida no disponible. n=1 por modelo, sin repeticiones.

Tabla de resultados

ModeloTiempoRecuento correcto de campañasClúster de creador duplicado encontradoVerificado fuera de la plataformaMejor elección preseleccionada
Fable 5~10 min✅ Completo (reutilización de persona en diferentes billeteras)Misma campaña, todos los cinco
Opus 4.8~3 min✅ CompletoMisma
Sonnet 4.6~4 min⚠️ Parcial (reutilización de una sola billetera)Misma
Haiku 4.5~2.5 min❌ (vio 10 de 20)Misma
GPT-5.5-high~3.5 min⚠️ Parcial (reutilización de billetera + inflación de meta)Misma
Ad

Diferencias clave

  • Fable 5 — único modelo que trató la web abierta como parte de la auditoría. Verificó de forma independiente que dos billeteras de campañas de ONG coincidían con las páginas de donación de las propias organizaciones. Comprobó que los eventos de desastre detrás de campañas con grandes solicitudes eran reales (desastre nacional declarado; emergencia de salud pública de la OMS). Señaló campañas que carecían de datos de contacto de la contraparte o registro público.
  • Opus 4.8 — encontró el clúster completo de creador duplicado, pero nunca salió de la plataforma.
  • Sonnet 4.6 — detección parcial del clúster pero no cotejó datos externos.
  • Haiku 4.5 — omitió la mitad de las campañas y malinterpretó el historial de donaciones.
  • GPT-5.5-high — detección parcial del clúster, sin verificación externa.

Los cinco modelos clasificaron de forma independiente la misma campaña como la más creíble y criticaron a los agentes donantes existentes (ejecutados por el autor). La brecha es real: cuando la tarea es juicio bajo incertidumbre adversarial, los modelos divergen significativamente en exhaustividad y fundamentación en el mundo real.

Las transcripciones completas están publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Lee la fuente completa: r/ClaudeAI

Ad

👀 Ver también

La Plataforma Polsia Muestra Patrones Repetitivos de SaaS en Lanzamientos en Vivo de Fundadores
Noticias

La Plataforma Polsia Muestra Patrones Repetitivos de SaaS en Lanzamientos en Vivo de Fundadores

Polsia es una plataforma de negocios autónoma donde los usuarios describen su negocio, pagan dinero y se ejecuta de forma autónoma. Un científico del comportamiento observó 72 horas de lanzamientos en vivo de fundadores, identificando patrones repetitivos como soluciones de automatización de SDR con IA y mercados internacionales desatendidos.

OpenClawRadar
Claude Fable 5 de Anthropic: Capacidades de clase Mitológica, Retención de Datos Requerida
Noticias

Claude Fable 5 de Anthropic: Capacidades de clase Mitológica, Retención de Datos Requerida

Anthropic lanza mañana Claude Fable 5, descrito como el modelo público más avanzado con capacidades de clase Mythos y salvaguardas mejoradas. Probablemente requiere retención de datos.

OpenClawRadar
Eligiendo el Mejor Proveedor de Tokens para las Necesidades de Tu API
Noticias

Eligiendo el Mejor Proveedor de Tokens para las Necesidades de Tu API

Explora los factores clave a considerar al seleccionar un proveedor de tokens y APIs en la codificación y automatización de IA, basado en las ideas de la comunidad de OpenClaw.

OpenClawRadar
Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas
Noticias

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas

Los usuarios de OpenClaw reportan errores persistentes HTTP 422 con los modelos Mistral desde la actualización 2026.3.8, sin correcciones en las versiones posteriores hasta la 2026.3.13. El problema afecta toda la funcionalidad relacionada con Mistral, mientras que las llamadas directas a la API funcionan con normalidad.

OpenClawRadar