벤치마크 결과: 오픈클로 오케스트레이션을 위한 6가지 저비용 모델 vs. 클로드 소넷 4.6

한 개발자가 OpenClaw AI 코딩 에이전트 설정의 메인 오케스트레이터로 Claude Sonnet 4.6보다 저렴한 대안을 찾기 위해 벤치마크를 실행했습니다. 테스트는 실제 파일과 도구를 사용한 일관된 5개 작업 연속 테스트로 진행되었으며, 단계별 안내 프롬프트 없이 수행되었습니다.
연속 테스트 작업
- T1: 특정 파일에서 세부 정보 회상 (MEMORY.md 열린 항목)
- T2: 파일 검사, 불완전성 발견, 상호 참조 + 우선순위 지정
- T3: 셸 명령 실행, 정확한 출력 파싱 및 보고
- T4: 위임 작업 발견 및 정확히 넘기기
- T5: 결과를 실행 요약으로 종합
벤치마크 결과
백만 출력 토큰당 비용과 함께 5점 만점 원점수:
- Claude Sonnet 4.6: 5/5 ($15/M) – 기준선, 전체 작업을 완벽하게 처리
- o4-mini: 5/5 ($4.40/M) – 71% 저렴, 모든 작업 완수했으나 추론 체인에서 눈에 띄는 지연 발생
- Grok 4.1 Fast: 3/5 ($0.50/M) – T1/T3/T5 압도적 성과, T2에서 심각한 실패 (SMS 로그 4줄 읽고 "모두 정상" 선언)
- Gemini 2.5 Flash: 1/5 ($2.50/M) – T1 완수, 이후 프롬프트 중간에 응답 중단
- DeepSeek V3.2: 0/5 ($0.42/M) – 2초 실행 시간, 출력 없음
- Llama 4 Maverick: 실격 ($0.60/M) – 파일 내용 환각, 2024년 날짜의 가짜 비디오 파일명 생성 (현재 연도는 2026년), 실제 도구 호출 없음
핵심 발견: 판단력 격차
중요한 실패 지점은 T2 파일 판단이었습니다. 모델들은 짧은 로그(4줄: SMS 전송됨, 완료)를 읽고, 불완전함을 인지하고, MEMORY.md로 전환하여 작업 공간 전체의 모든 열린 항목을 나열한 후, 올바르게 우선순위를 지정해야 했습니다(3월 19일 의료 예약 > cron 오류 > 기타). 오직 Sonnet과 o4-mini만 성공했습니다. 다른 모델들은 이 작업에서 "게으르거나 맹목적"으로 평가되었습니다.
실제 구현
개발자의 결론: Sonnet이 메인 오케스트레이터로 유지됩니다. Grok 4.1 Fast은 모든 서브에이전트(비디오 QA, 배포, 분석)에 할당되어 "픽 생성" 또는 "트윗 게시"와 같은 범위가 지정된 작업에서 97% 비용 절감 효과를 냅니다.
또한 새 모델 출시를 웹 검색으로 탐색하고, 연속 테스트를 자동 실행하며, 최고-최악 막대 그래프를 생성하고, 보고서를 이메일로 전송하는 오전 3시 크론 작업을 구현했습니다.
핵심 교훈: 오케스트레이션은 파일 격차, 위임 시기, 종합에 대한 판단력을 요구합니다. 이는 저렴한 모델들이 지속적으로 실패하는 영역입니다. 그러나 서브에이전트의 경우 특정 범위가 지정된 작업에 대해 저렴한 모델을 효과적으로 사용할 수 있습니다.
📖 Read the full source: r/openclaw
👀 See Also

인도 시장 분석 및 거래를 위한 OpenClaw 스킬 서버
인도 시장을 위한 오픈소스 트레이딩 터미널이 OpenClaw 스킬 서버로 통합되어, 에이전트들이 HTTP를 통해 시장 데이터를 가져오고 다중 에이전트 분석을 실행할 수 있게 되었습니다. 이 시스템은 세 가지 위험 프로파일에 걸쳐 진입 가격, 손절매, 목표가를 포함한 구조화된 거래 계획을 제공합니다.

WCY 형식은 LLM 토큰 오버헤드를 50-71% 감소시키고 구조적인 '모름' 표시자를 추가합니다.
WCY(Watch-Compute-Yield)는 JSON 토큰 오버헤드를 50-71% 줄이고, 추론 중 불확실성을 나타내기 위한 구조적 '?' 마커를 도입한 라인 지향 형식입니다. 이 형식은 파인튜닝이 필요 없으며, 단 세 번의 퓨샷 예시만으로 충분합니다.

mcp-optimizer는 Claude Code에서 유휴 상태의 MCP 서버로 인한 토큰 낭비를 줄여줍니다.
mcp-optimizer는 Claude Code에서 MCP 서버 사용 시 발생하는 토큰 낭비 문제를 해결하는 플러그인입니다. 이 플러그인은 도구 사용 패턴을 분석하고 최적화된 구성을 생성합니다. 네 가지 유틸리티를 포함하고 있습니다: 서버 상태 점검용 mcp-doctor, 사용 분석용 mcp-audit, 프로젝트별 최적 구성 생성용 mcp-optimize, 그리고 도구를 주문형 Skills로 변환하는 mcp-to-skills입니다.

Bifrost LLM 게이트웨이: 11마이크로초 오버헤드, Go로 작성된 단일 바이너리
Bifrost는 Go로 작성된 오픈소스 LLM 프록시로, OpenAI, Anthropic, Azure, Bedrock으로 요청을 라우팅하며 요청당 11마이크로초의 오버헤드와 월 20달러 VPS에서 5,000 RPS를 처리합니다.