Fluxo de trabalho estruturado supera modo de plano e superpoderes no benchmark AI DES

✍️ OpenClawRadar📅 Publicado: May 1, 2026🔗 Source
Fluxo de trabalho estruturado supera modo de plano e superpoderes no benchmark AI DES
Ad

Uma publicação no Reddit compartilha resultados do novo benchmark de Simulação de Eventos Discretos (SED) assistida por IA. A submissão que utilizou o fluxo de trabalho Ouroboros (ooo) dentro do Claude Code ficou em 1º lugar, superando tanto o modo de planejamento nativo do Claude quanto as pilhas de 'superpoderes' de skills grossas.

Detalhes do benchmark

O benchmark testa a compreensão completa de um sistema real — um sistema de transporte em mina com caminhões, pontos de carregamento, pontos de descarga, rotas e filas. As submissões são julgadas em:

  • Compreensão da estrutura do sistema
  • Abstração em um modelo de simulação de eventos discretos
  • Projeto de eventos, mudanças de estado e KPIs
  • Produção de código de simulação executável
  • Interpretação dos resultados (gargalos, throughput, tempos de espera)
  • Geração de artefatos legíveis por humanos (diagramas de topologia, animações)
Ad

Desempenho do Ouroboros

A submissão do Ouroboros incluiu código SED funcional, um diagrama de topologia do sistema de mineração e uma animação dos caminhões transportando minério. Notavelmente, quando o servidor MCP falhou durante a execução, o Ouroboros recorreu a um caminho baseado em skills e concluiu a tarefa — demonstrando recuperação e redirecionamento em implantações reais.

Comparação

  • Modo de planejamento (planejamento leve) — linha de base decente
  • Superpoderes / pilhas de skills grossas — pior que o modo de planejamento nesta tarefa
  • Ouroboros (estruturado: esclarecer → planejar → executar → avaliar → recuperar → iterar) — melhor

O resultado sugere que estruturar o fluxo de trabalho em torno da definição do problema, planejamento, execução, avaliação e recuperação é mais eficaz do que acumular mais instruções e skills maiores.

Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also