ClawCodex /advisor 모드: 비용은 줄이고 품질은 유지하는 AI 에이전트

대부분의 에이전트 CLI는 단일 모델을 선택하도록 강제합니다. Opus는 훌륭한 결정을 내리지만 예산을 빠르게 소진하고, Haiku는 저렴하지만 중요한 아키텍처 판단을 놓칩니다. ClawCodex는 Claude Code의 오픈소스 Python 포트로, /advisor 모드를 통해 핵심 결정 지점에서 저렴한 워커 모델과 고가의 리뷰어 모델을 짝지어 이 문제를 해결합니다.

작동 방식

저렴한 워커(예: haiku-4-5, deepseek-v4-pro)는 파일 읽기, 편집, 테스트 실행 등 무거운 작업을 처리합니다. 결정 지점(해석 확정 전, 작업 완료 선언 전, 또는 막혔을 때)에서 워커는 중단하고 더 강력한 리뷰어(예: opus-4-7)와 상담합니다. 리뷰어는 전체 대화(모든 도구 호출, 모든 결과)를 확인하고 짧은 Gaps / Risks / Do-next 조언을 반환합니다. 그러면 워커가 계속 진행합니다.

두 가지 실행 모드

서버 측 (Anthropic 1P): 어드바이저 베타 헤더 사용 — 왕복 한 번, 프롬프트 캐시 친화적. 워커와 어드바이저 모두 Anthropic에서 실행됩니다.
클라이언트 측 (모든 제공자): 워커가 일반 tool_use를 내보내면 에이전트가 이를 가로채 구성된 어드바이저 모델에 별도 호출을 보냅니다. 왕복 두 번이지만 제공자를 혼합할 수 있습니다. 예: DeepSeek 워커 + Claude Opus 어드바이저, 또는 Gemini 워커 + GLM 어드바이저.

구성 및 모니터링

REPL에서 한 줄로 구성합니다:

/advisor anthropic:claude-opus-4-7
/advisor deepseek:deepseek-v4-pro

상태 표시줄에 워커 토큰, 어드바이저 토큰, USD 비용이 별도로 표시되어 지출 내역을 정확히 확인할 수 있습니다.

벤치마크 및 호환성

ClawCodex는 Anthropic, OpenAI, Gemini, DeepSeek, GLM, Minimax, OpenRouter를 기본 지원합니다. SWE-bench Verified에서 동일한 harness 기준 Gemini 2.5 Pro로 58.2%를 기록했으며, OpenClaude의 53%보다 높습니다.

까다로운 부분: 프롬프트

가장 까다로운 엔지니어링 과제는 리뷰어가 워커의 계획을 단순히 반복하지 않도록 하는 것이었습니다. 초기 버전에서는 그대로 반복되어 맥락이 낭비되었습니다. 해결책은 엄격한 '1인칭 금지, 반복 금지' 규칙과 Gaps / Risks / Do-next 템플릿을 결합하는 것이었습니다.