Fluxo Ouroboros supera Claude e superpoderes no benchmark DES

Uma publicação no Reddit compartilha resultados do novo benchmark de Simulação de Eventos Discretos (SED) assistida por IA. A submissão que utilizou o fluxo de trabalho Ouroboros (ooo) dentro do Claude Code ficou em 1º lugar, superando tanto o modo de planejamento nativo do Claude quanto as pilhas de 'superpoderes' de skills grossas.

Detalhes do benchmark

O benchmark testa a compreensão completa de um sistema real — um sistema de transporte em mina com caminhões, pontos de carregamento, pontos de descarga, rotas e filas. As submissões são julgadas em:

Compreensão da estrutura do sistema
Abstração em um modelo de simulação de eventos discretos
Projeto de eventos, mudanças de estado e KPIs
Produção de código de simulação executável
Interpretação dos resultados (gargalos, throughput, tempos de espera)
Geração de artefatos legíveis por humanos (diagramas de topologia, animações)

Desempenho do Ouroboros

A submissão do Ouroboros incluiu código SED funcional, um diagrama de topologia do sistema de mineração e uma animação dos caminhões transportando minério. Notavelmente, quando o servidor MCP falhou durante a execução, o Ouroboros recorreu a um caminho baseado em skills e concluiu a tarefa — demonstrando recuperação e redirecionamento em implantações reais.

Comparação

Modo de planejamento (planejamento leve) — linha de base decente
Superpoderes / pilhas de skills grossas — pior que o modo de planejamento nesta tarefa
Ouroboros (estruturado: esclarecer → planejar → executar → avaliar → recuperar → iterar) — melhor

O resultado sugere que estruturar o fluxo de trabalho em torno da definição do problema, planejamento, execução, avaliação e recuperação é mais eficaz do que acumular mais instruções e skills maiores.

Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/

📖 Leia a fonte completa: r/ClaudeAI

Fluxo de trabalho estruturado supera modo de plano e superpoderes no benchmark AI DES

Detalhes do benchmark

Desempenho do Ouroboros

Comparação

👀 See Also

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros

Claude Code v2.1.172: Sub-Agentes agora com 5 níveis de profundidade, correções na região Bedrock e ganhos de desempenho

Claude Code se torna aleatoriamente avesso a riscos, exigindo permissão para tarefas rotineiras

O ajuste fino do Phi-4-mini treinando apenas os parâmetros do LayerNorm não melhora o desempenho.