에이전트 비용 78% 절감: 저비용 모델로 라우팅하는 방법

r/ClaudeAI의 한 개발자가 에이전트 루프의 실용적인 비용 최적화 전략을 설명합니다: 일상적인 하위 작업은 저렴한 모델에, 복잡한 추론에만 고급 모델(Opus 4.7)을 사용하는 것입니다. CSS 변수 이름 변경, YAML 설정 업데이트, MCP를 통한 린트 실행을 처리하는 리팩토링 에이전트는 원래 모든 단계를 Opus 4.7에 보내 총 약 $18의 비용이 들었습니다. 라우팅 로직을 구현한 후, 212단계 중 178단계는 저렴한 모델로 보내져 비용이 약 $4로 줄었고, 일상적인 변경에서 품질 차이는 관찰되지 않았습니다.

라우팅 로직

어려운 하위 작업 → Opus 4.7: 컴포넌트 아키텍처, 새벽 2시 코드 디버깅, 긴 대화에 걸친 지속적 추론이 필요한 모든 작업. 작성자는 Opus가 그런 작업에서 확실히 타의 추종을 불허한다고 언급합니다. 이전에 인증 미들웨어 버그를 저렴한 모델로 라우팅하려다 세션 처리가 조용히 깨져 한 시간을 낭비한 적이 있습니다.
일상적인 하위 작업 → 저렴한 모델: 린트, 이름 변경, 설정 편집, 도구 오케스트레이션. 작성자는 일반 코딩 작업에 DeepSeek V4 Pro, 많은 도구 호출에 Tencent Hunyuan Hy3 프리뷰를 선택했습니다. 4월 말 기준 Hunyuan Hy3는 OpenRouter에서 도구 호출량 1위였으며, 스키마가 깔끔할 때 함수 호출을 거의 망치지 않습니다.

비용 비교

Opus 4.7: 입력 토큰 100만 개당 약 $0.18 (약 28배 저렴한 대안과의 비교에서 추정).
Tencent Hunyuan Hy3: 입력 토큰 100만 개당 $0.18, 출력 토큰 100만 개당 $0.59 — 입력 기준 Opus 4.7보다 약 28배 저렴.
동일한 212단계 리팩토리: 178단계는 저렴한 계층, 34단계는 Opus로. 비용이 $18에서 약 $4로 하락.

실패 모드

도구 호출 모델은 스키마가 엉성할 때 매개변수를 환각합니다 (작성자 인정: 스키마가 나빴음).
DeepSeek V4 Pro는 가끔 구문적으로 완벽하지만 요청과 반대되는 작업을 수행하는 코드를 작성하며, 빠른 훑어보기로는 발견하기 어렵습니다.
저렴한 모델 둘 다 깊은 문제 디버깅(예: 인증 흐름이 조용히 쿠키를 무시하는 경우)에서는 Opus를 따라잡지 못합니다.