구조화된 워크플로가 AI DES 벤치마크에서 플랜 모드와 슈퍼파워를 능가하다

✍️ OpenClawRadar📅 게시일: May 1, 2026🔗 Source
구조화된 워크플로가 AI DES 벤치마크에서 플랜 모드와 슈퍼파워를 능가하다
Ad

Reddit 게시물이 새로운 AI 기반 이산 사건 시뮬레이션(DES) 벤치마크 결과를 공유했습니다. Claude Code 내에서 Ouroboros 워크플로우(ooo)를 사용한 제출물이 1위를 차지하여, Claude의 내장 plan 모드와 'superpowers' fat-skill 스택을 모두 이겼습니다.

벤치마크 상세

이 벤치마크는 실제 시스템(트럭, 적재 지점, 하역 지점, 경로, 대기열이 있는 광산 운반 시스템)에 대한 완전한 이해를 테스트합니다. 제출물은 다음 기준으로 평가됩니다:

  • 시스템 구조 이해
  • 이산 사건 시뮬레이션 모델로 추상화
  • 이벤트, 상태 변화, KPI 설계
  • 실행 가능한 시뮬레이션 코드 생성
  • 결과 해석(병목, 처리량, 대기 시간)
  • 사람이 읽을 수 있는 산출물 생성(토폴로지 다이어그램, 애니메이션)

Ouroboros 성능

Ouroboros 제출물에는 작동하는 DES 코드, 광산 시스템의 토폴로지 다이어그램, 트럭이 광석을 운반하는 애니메이션이 포함되었습니다. 특히 MCP 서버가 실행 중 실패했을 때 Ouroboros는 스킬 기반 경로로 전환하여 작업을 완료했습니다. 이는 실제 배포에서 복구 및 경로 재지정 능력을 보여줍니다.

비교

  • Plan 모드(경량 계획) — 괜찮은 기준선
  • Superpowers / fat-skill 스택 — 이 작업에서 plan 모드보다 나쁨
  • Ouroboros(구조화: clarify → plan → execute → evaluate → recover → iterate) — 최고

이 결과는 문제 정의, 계획, 실행, 평가, 복구를 중심으로 워크플로우를 구조화하는 것이 더 많은 명령어와 더 큰 스킬을 쌓는 것보다 더 효과적임을 시사합니다.

Ouroboros: https://github.com/Q00/ouroboros
벤치마크: https://simulation-bench.fly.dev/

📖 전체 소스 읽기: r/ClaudeAI

Ad

👀 See Also