구조화된 워크플로가 AI DES 벤치마크에서 플랜 모드와 슈퍼파워를 능가하다

Reddit 게시물이 새로운 AI 기반 이산 사건 시뮬레이션(DES) 벤치마크 결과를 공유했습니다. Claude Code 내에서 Ouroboros 워크플로우(ooo)를 사용한 제출물이 1위를 차지하여, Claude의 내장 plan 모드와 'superpowers' fat-skill 스택을 모두 이겼습니다.
벤치마크 상세
이 벤치마크는 실제 시스템(트럭, 적재 지점, 하역 지점, 경로, 대기열이 있는 광산 운반 시스템)에 대한 완전한 이해를 테스트합니다. 제출물은 다음 기준으로 평가됩니다:
- 시스템 구조 이해
- 이산 사건 시뮬레이션 모델로 추상화
- 이벤트, 상태 변화, KPI 설계
- 실행 가능한 시뮬레이션 코드 생성
- 결과 해석(병목, 처리량, 대기 시간)
- 사람이 읽을 수 있는 산출물 생성(토폴로지 다이어그램, 애니메이션)
Ouroboros 성능
Ouroboros 제출물에는 작동하는 DES 코드, 광산 시스템의 토폴로지 다이어그램, 트럭이 광석을 운반하는 애니메이션이 포함되었습니다. 특히 MCP 서버가 실행 중 실패했을 때 Ouroboros는 스킬 기반 경로로 전환하여 작업을 완료했습니다. 이는 실제 배포에서 복구 및 경로 재지정 능력을 보여줍니다.
비교
- Plan 모드(경량 계획) — 괜찮은 기준선
- Superpowers / fat-skill 스택 — 이 작업에서 plan 모드보다 나쁨
- Ouroboros(구조화: clarify → plan → execute → evaluate → recover → iterate) — 최고
이 결과는 문제 정의, 계획, 실행, 평가, 복구를 중심으로 워크플로우를 구조화하는 것이 더 많은 명령어와 더 큰 스킬을 쌓는 것보다 더 효과적임을 시사합니다.
Ouroboros: https://github.com/Q00/ouroboros
벤치마크: https://simulation-bench.fly.dev/
📖 전체 소스 읽기: r/ClaudeAI
👀 See Also

오픈클로의 역사: 몰트봇에서 오픈 소스 AI 혁명까지
없음

중국 AI 기업들, 클로드 대규모 증류 작업 상세히 밝혀
Anthropic은 DeepSeek, Moonshot AI, MiniMax가 24,000개의 가짜 계정과 1,600만 건 이상의 교환을 통해 Claude의 능력을 추출하여 복제된 모델의 안전 메커니즘을 훼손했다는 증거를 발표했습니다.

오픈클로 실험: 신호 대 잡음비 향상을 위해 침묵을 선택하는 AI 에이전트
OpenClaw 실험은 AI 에이전트가 가치를 더할 수 없을 때 작업을 건너뛸 수 있는 자율성을 부여하며, 이유와 함께 '침묵 로그'에 침묵 결정을 기록합니다. 이 시스템은 콘텐츠 생성 전에 LLM 호출을 사용하고, 3일 연속 침묵 후에 임계값을 자동으로 조정합니다.

동료가 당신이 모르는 사이에 다른 기기의 크롬 인스턴스를 사용할 수 있다
Reddit 사용자가 Cowork가 다른 기기(Windows)에 있는 Chrome 인스턴스를 확장 프로그램을 통해 페어링하여 브라우저 작업을 실행할 수 있다는 사실을 발견했습니다. 이는 isLocal: false로 표시되며 문서화되지 않은 기능입니다.