Fable 5 gana en la detección de fraudes del mundo real: la familia Claude 4.x comparada con GPT-5.5

En una prueba adversarial de detección de fraude en vivo en una plataforma real de crowdfunding (zooid.fund), cinco modelos frontera recibieron una instrucción idéntica en frío: auditar ~20 campañas activas donde agentes de IA donan USDC real a humanos no verificados. Los resultados revelan diferencias marcadas en el juicio bajo incertidumbre, no solo en la capacidad de generar código.
La prueba
Plataforma: zooid.fund — experimental. Humanos publican campañas; agentes de IA evalúan y financian usando USDC en Base. Sin custodia. Sin verificación: la evaluación de credibilidad es responsabilidad del agente. ~20 campañas activas, $248 donados en total, 5 agentes donantes con razonamiento público.
Instrucción (textual):
Usando la habilidad zooidfund, revisa las campañas en vivo en zooid.fund: descripciones públicas, inventarios de evidencia y el razonamiento de donación publicado por otros agentes. ¿Cuáles preseleccionarías? ¿En qué discrepas de los agentes que ya donaron? ¿Qué evidencia necesitarías ver antes de comprometer algo? No te registres ni muevas dinero.
Modelos: Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5, GPT-5.5-high. Todos tenían la habilidad zooidfund (endpoint MCP) con herramientas de solo lectura: resumen de la plataforma, búsqueda de campañas, detalle, historial de donaciones de pares. Capa de evidencia restringida no disponible. n=1 por modelo, sin repeticiones.
Tabla de resultados
| Modelo | Tiempo | Recuento correcto de campañas | Clúster de creador duplicado encontrado | Verificado fuera de la plataforma | Mejor elección preseleccionada |
|---|---|---|---|---|---|
| Fable 5 | ~10 min | ✅ | ✅ Completo (reutilización de persona en diferentes billeteras) | ✅ | Misma campaña, todos los cinco |
| Opus 4.8 | ~3 min | ✅ | ✅ Completo | ❌ | Misma |
| Sonnet 4.6 | ~4 min | ✅ | ⚠️ Parcial (reutilización de una sola billetera) | ❌ | Misma |
| Haiku 4.5 | ~2.5 min | ❌ (vio 10 de 20) | ❌ | ❌ | Misma |
| GPT-5.5-high | ~3.5 min | ✅ | ⚠️ Parcial (reutilización de billetera + inflación de meta) | ❌ | Misma |
Diferencias clave
- Fable 5 — único modelo que trató la web abierta como parte de la auditoría. Verificó de forma independiente que dos billeteras de campañas de ONG coincidían con las páginas de donación de las propias organizaciones. Comprobó que los eventos de desastre detrás de campañas con grandes solicitudes eran reales (desastre nacional declarado; emergencia de salud pública de la OMS). Señaló campañas que carecían de datos de contacto de la contraparte o registro público.
- Opus 4.8 — encontró el clúster completo de creador duplicado, pero nunca salió de la plataforma.
- Sonnet 4.6 — detección parcial del clúster pero no cotejó datos externos.
- Haiku 4.5 — omitió la mitad de las campañas y malinterpretó el historial de donaciones.
- GPT-5.5-high — detección parcial del clúster, sin verificación externa.
Los cinco modelos clasificaron de forma independiente la misma campaña como la más creíble y criticaron a los agentes donantes existentes (ejecutados por el autor). La brecha es real: cuando la tarea es juicio bajo incertidumbre adversarial, los modelos divergen significativamente en exhaustividad y fundamentación en el mundo real.
Las transcripciones completas están publicadas: https://gist.github.com/Ales375/bf5ccac6e057020d75684cd27b54567e.
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

La Plataforma Polsia Muestra Patrones Repetitivos de SaaS en Lanzamientos en Vivo de Fundadores
Polsia es una plataforma de negocios autónoma donde los usuarios describen su negocio, pagan dinero y se ejecuta de forma autónoma. Un científico del comportamiento observó 72 horas de lanzamientos en vivo de fundadores, identificando patrones repetitivos como soluciones de automatización de SDR con IA y mercados internacionales desatendidos.

Claude Fable 5 de Anthropic: Capacidades de clase Mitológica, Retención de Datos Requerida
Anthropic lanza mañana Claude Fable 5, descrito como el modelo público más avanzado con capacidades de clase Mythos y salvaguardas mejoradas. Probablemente requiere retención de datos.

Eligiendo el Mejor Proveedor de Tokens para las Necesidades de Tu API
Explora los factores clave a considerar al seleccionar un proveedor de tokens y APIs en la codificación y automatización de IA, basado en las ideas de la comunidad de OpenClaw.

Proveedor OpenClaw Mistral Roto Desde la Actualización 2026.3.8, la Comunidad Busca Alternativas
Los usuarios de OpenClaw reportan errores persistentes HTTP 422 con los modelos Mistral desde la actualización 2026.3.8, sin correcciones en las versiones posteriores hasta la 2026.3.13. El problema afecta toda la funcionalidad relacionada con Mistral, mientras que las llamadas directas a la API funcionan con normalidad.