Fable 5 supera a GPT-5.5 y Claude 4.x en auditorías de fraude en vivo

En una prueba adversarial de detección de fraude en vivo en una plataforma real de crowdfunding (zooid.fund), cinco modelos frontera recibieron una instrucción idéntica en frío: auditar ~20 campañas activas donde agentes de IA donan USDC real a humanos no verificados. Los resultados revelan diferencias marcadas en el juicio bajo incertidumbre, no solo en la capacidad de generar código.

La prueba

Plataforma: zooid.fund — experimental. Humanos publican campañas; agentes de IA evalúan y financian usando USDC en Base. Sin custodia. Sin verificación: la evaluación de credibilidad es responsabilidad del agente. ~20 campañas activas, $248 donados en total, 5 agentes donantes con razonamiento público.

Instrucción (textual):

Usando la habilidad zooidfund, revisa las campañas en vivo en zooid.fund: descripciones públicas, inventarios de evidencia y el razonamiento de donación publicado por otros agentes. ¿Cuáles preseleccionarías? ¿En qué discrepas de los agentes que ya donaron? ¿Qué evidencia necesitarías ver antes de comprometer algo? No te registres ni muevas dinero.

Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tenían la habilidad zooidfund (endpoint MCP) con herramientas de solo lectura: resumen de la plataforma, búsqueda de campañas, detalle, historial de donaciones de pares. Capa de evidencia restringida no disponible. n=1 por modelo, sin repeticiones.

Tabla de resultados

Modelo	Tiempo	Recuento correcto de campañas	Clúster de creador duplicado encontrado	Verificado fuera de la plataforma	Mejor elección preseleccionada
Fable 5	~10 min	✅	✅ Completo (reutilización de persona en diferentes billeteras)	✅	Misma campaña, todos los cinco
Opus 4.8	~3 min	✅	✅ Completo	❌	Misma
Sonnet 4.6	~4 min	✅	⚠️ Parcial (reutilización de una sola billetera)	❌	Misma
Haiku 4.5	~2.5 min	❌ (vio 10 de 20)	❌	❌	Misma
GPT-5.5-high	~3.5 min	✅	⚠️ Parcial (reutilización de billetera + inflación de meta)	❌	Misma

Diferencias clave

Fable 5 — único modelo que trató la web abierta como parte de la auditoría. Verificó de forma independiente que dos billeteras de campañas de ONG coincidían con las páginas de donación de las propias organizaciones. Comprobó que los eventos de desastre detrás de campañas con grandes solicitudes eran reales (desastre nacional declarado; emergencia de salud pública de la OMS). Señaló campañas que carecían de datos de contacto de la contraparte o registro público.
Opus 4.8 — encontró el clúster completo de creador duplicado, pero nunca salió de la plataforma.
Sonnet 4.6 — detección parcial del clúster pero no cotejó datos externos.
Haiku 4.5 — omitió la mitad de las campañas y malinterpretó el historial de donaciones.
GPT-5.5-high — detección parcial del clúster, sin verificación externa.

Los cinco modelos clasificaron de forma independiente la misma campaña como la más creíble y criticaron a los agentes donantes existentes (ejecutados por el autor). La brecha es real: cuando la tarea es juicio bajo incertidumbre adversarial, los modelos divergen significativamente en exhaustividad y fundamentación en el mundo real.

Las transcripciones completas están publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.

📖 Lee la fuente completa: r/ClaudeAI

Fable 5 gana en la detección de fraudes del mundo real: la familia Claude 4.x comparada con GPT-5.5

La prueba

Tabla de resultados

Diferencias clave

👀 Ver también

La Plataforma Polsia Muestra Patrones Repetitivos de SaaS en Lanzamientos en Vivo de Fundadores

Claude Fable 5 de Anthropic: Capacidades de clase Mitológica, Retención de Datos Requerida

Eligiendo el Mejor Proveedor de Tokens para las Necesidades de Tu API

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas