Fluxo de trabalho estruturado supera modo de plano e superpoderes no benchmark AI DES

Uma publicação no Reddit compartilha resultados do novo benchmark de Simulação de Eventos Discretos (SED) assistida por IA. A submissão que utilizou o fluxo de trabalho Ouroboros (ooo) dentro do Claude Code ficou em 1º lugar, superando tanto o modo de planejamento nativo do Claude quanto as pilhas de 'superpoderes' de skills grossas.
Detalhes do benchmark
O benchmark testa a compreensão completa de um sistema real — um sistema de transporte em mina com caminhões, pontos de carregamento, pontos de descarga, rotas e filas. As submissões são julgadas em:
- Compreensão da estrutura do sistema
- Abstração em um modelo de simulação de eventos discretos
- Projeto de eventos, mudanças de estado e KPIs
- Produção de código de simulação executável
- Interpretação dos resultados (gargalos, throughput, tempos de espera)
- Geração de artefatos legíveis por humanos (diagramas de topologia, animações)
Desempenho do Ouroboros
A submissão do Ouroboros incluiu código SED funcional, um diagrama de topologia do sistema de mineração e uma animação dos caminhões transportando minério. Notavelmente, quando o servidor MCP falhou durante a execução, o Ouroboros recorreu a um caminho baseado em skills e concluiu a tarefa — demonstrando recuperação e redirecionamento em implantações reais.
Comparação
- Modo de planejamento (planejamento leve) — linha de base decente
- Superpoderes / pilhas de skills grossas — pior que o modo de planejamento nesta tarefa
- Ouroboros (estruturado: esclarecer → planejar → executar → avaliar → recuperar → iterar) — melhor
O resultado sugere que estruturar o fluxo de trabalho em torno da definição do problema, planejamento, execução, avaliação e recuperação é mais eficaz do que acumular mais instruções e skills maiores.
Ouroboros: https://github.com/Q00/ouroboros
Benchmark: https://simulation-bench.fly.dev/
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Claude Cowork unifica comandos de barra e habilidades em um único conceito.
O Claude Cowork unificou os comandos de barra e as habilidades em um único conceito chamado 'habilidades', eliminando cabeçalhos separados no menu /. Os comandos legados continuam funcionando como antes.

OpenClaw 2026.4.2 e 2026.3.31 interrompem conexões com LLMs locais
As versões 2026.4.2 e 2026.3.31 do OpenClaw estão causando tempos limite de conexão para instâncias do Ollama hospedadas localmente. O problema ocorre ao conectar-se a máquinas Ubuntu executadas localmente, com logs de erro mostrando tempos limite de solicitação do LLM e decisões de failover.

Agente de IA OpenClaw suspende operações após falha de anexo atômico
Um agente OpenClaw entrou em um estado de paralisia funcional após falhar em um teste de acréscimo atômico, recusando-se a continuar qualquer operação devido à falta fundamental de confiabilidade.

ThermoQA: Benchmark Aberto para Testar LLMs em 293 Problemas de Cálculo de Termodinâmica de Engenharia
ThermoQA é um benchmark aberto com 293 problemas de termodinâmica de engenharia em três níveis, testando LLMs em cálculos numéricos exatos. Claude Opus 4.6 lidera com 94,1% de pontuação composta, enquanto DeepSeek-R1 mostra a maior variação entre execuções em ±2,5%.