Flujo de trabajo estructurado supera al modo de planificación y a los superpoderes en el benchmark AI DES

✍️ OpenClawRadar📅 Publicado: 1 de mayo de 2026🔗 Source
Flujo de trabajo estructurado supera al modo de planificación y a los superpoderes en el benchmark AI DES
Ad

Un post de Reddit comparte los resultados del nuevo benchmark de simulación de eventos discretos (DES) asistida por IA. El envío que utilizó el flujo de trabajo Ouroboros (ooo) dentro de Claude Code ocupó el primer lugar, superando tanto al modo plan integrado de Claude como a las pilas de superpoderes fat-skill.

Detalles del benchmark

El benchmark evalúa la comprensión completa de un sistema del mundo real: un sistema de acarreo minero con camiones, puntos de carga, puntos de descarga, rutas y colas. Los envíos se juzgan según:

  • Comprensión de la estructura del sistema
  • Abstracción en un modelo de simulación de eventos discretos
  • Diseño de eventos, cambios de estado y KPIs
  • Producción de código de simulación ejecutable
  • Interpretación de resultados (cuellos de botella, rendimiento, tiempos de espera)
  • Generación de artefactos legibles por humanos (diagramas de topología, animaciones)
Ad

Rendimiento de Ouroboros

El envío de Ouroboros incluyó código DES funcional, un diagrama de topología del sistema minero y una animación de camiones acarreando mineral. Notablemente, cuando el servidor MCP falló durante la ejecución, Ouroboros recurrió a una ruta basada en habilidades y completó la tarea, demostrando recuperación y redireccionamiento en despliegues reales.

Comparación

  • Modo plan (planificación ligera): línea base decente
  • Superpoderes / pilas fat-skill: peores que el modo plan en esta tarea
  • Ouroboros (estructurado: clarificar → planificar → ejecutar → evaluar → recuperar → iterar): el mejor

El resultado sugiere que estructurar el flujo de trabajo en torno a la definición del problema, planificación, ejecución, evaluación y recuperación es más efectivo que acumular más instrucciones y habilidades más grandes.

Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

Análisis de Problemas de Evaluación Comparativa de TB2 en la Tarea de Recuperación de WAL de la Base de Datos
Noticias

Análisis de Problemas de Evaluación Comparativa de TB2 en la Tarea de Recuperación de WAL de la Base de Datos

Un análisis de Reddit revela problemas con la tarea db-wal-recovery de Terminal Bench 2.0, donde los agentes pueden destruir accidentalmente evidencia al abrir bases de datos SQLite, y muestra cómo la inyección de prompts afecta los resultados del ranking.

OpenClawRadar
Reunión del Departamento de Defensa de Anthropic y laboratorios de IA chinos destilando a Claude
Noticias

Reunión del Departamento de Defensa de Anthropic y laboratorios de IA chinos destilando a Claude

El CEO de Anthropic se reúne con el Secretario de Defensa de EE.UU. en lo que los funcionarios describen como una situación de 'ponerse las pilas o largarse', mientras la empresa informa haber detectado a tres laboratorios chinos de IA realizando una destilación masiva de modelos de las capacidades de Claude.

OpenClawRadar
Patrones de gasto del agente OpenClaw y falta de límites de gasto
Noticias

Patrones de gasto del agente OpenClaw y falta de límites de gasto

Un desarrollador rastreó el gasto de agentes OpenClaw durante más de dos meses y descubrió que la mayoría de los agentes promedian entre $40 y $80 al mes en cargos por API y servicios cuando no se supervisan, con picos que ocurren los fines de semana y durante la noche. El comportamiento predeterminado es ilimitado, sin un límite de gasto incorporado.

OpenClawRadar
Claude Code v2.1.101 agrega incorporación de equipos, soporte TLS empresarial y corrige fugas de memoria.
Noticias

Claude Code v2.1.101 agrega incorporación de equipos, soporte TLS empresarial y corrige fugas de memoria.

Claude Code v2.1.101 introduce el comando /team-onboarding para generar guías de incorporación de compañeros de equipo, añade confianza en el almacén de certificados CA del sistema operativo por defecto para proxies TLS empresariales, y corrige una fuga de memoria en sesiones largas junto con más de 25 mejoras y correcciones de errores.

OpenClawRadar