NerfGuard: 코딩 요청을 저렴한 모델로 라우팅하여 비용을 3배 절감하는 분류기

속도와 제어성을 위해 Claude Code에서 Codex로 전환한 팀은 토큰당 과금에 큰 부담을 느꼈습니다. 일일 요금이 상당했고, 모든 작업에 최상위 모델과 최대 추론을 사용하고 있었기 때문입니다. 그래서 그들은 NerfGuard를 만들었습니다. 각 요청을 필요한 최소한의 모델과 추론 깊이로 라우팅하는 빠른 분류기입니다.
핵심은 주어진 코딩 요청에 필요한 최소 지능을 결정하는 분류기입니다. 여기에 자동 토큰 효율화 기술을 적용합니다. 결과적으로 동일한 품질을 유지하면서 토큰 소비는 대폭 줄이고, 지능과 추론이 적절히 배분되어 속도도 크게 향상됩니다. 팀은 최대 3배 절감과 하루에 한 사람당 도구 사용 및 에이전트 응답 대기 시간에서 몇 시간을 절약했습니다.
출처의 주요 내용:
- 분류기가 각 요청에 가장 저렴한 모델 + 추론 깊이로 라우팅
- 추가 자동 토큰 효율화 기술
- 결과: 동일 비용으로 3배 사용량
- 속도 향상: 하루에 한 사람당 몇 시간 절약
- 조절 한도에 도달하기 전에 더 많은 사용량
현재 여러 AI 회사의 엔지니어들이 사용 중입니다. 도구는 nerfguard.com에서 확인할 수 있습니다.
대상: 코딩 에이전트(Claude Code, Codex 등)를 사용하며 비용 대비 출력을 최대화하고 대기 시간을 줄이려는 팀.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

Codegraph: 사전 색인된 지식 그래프가 클로드/커서 도구 호출을 94% 줄임
Codegraph는 심볼 관계, 호출 그래프, 코드 구조에 대한 사전 색인된 지식 그래프를 사용하여 API 도구 호출을 최대 94%까지 줄이고, Claude, Cursor, Codex, OpenCode 에이전트의 사용 속도를 약 77% 향상시킵니다.

동료 MCP 서버가 협업을 위한 AI 코딩 세션을 연결합니다
Peers는 Claude Code와 Codex 세션을 연결하여 서로를 발견하고, 공유 스크래치패드를 통해 협업하며, diff와 테스트 리포트 같은 아티팩트를 공유하고, 세션 컨텍스트를 구조화된 마크다운으로 전달할 수 있게 해주는 로컬 MCP 서버입니다.

Marmy: 원격으로 AI 코딩 에이전트를 관리하는 자체 호스팅 프레임워크
Marmy는 Claude Code로 구축된 오픈 소스 MIT 라이선스 프레임워크로, 개발자가 모바일 앱에서 AI 코딩 에이전트와 tmux 세션을 관리할 수 있게 해줍니다. 개발 머신용 Rust 에이전트와 원격 제어용 React Native 앱을 포함합니다.

Visdiff: Claude의 프론트엔드 코드 생성을 위한 시각적 피드백 루프
Visdiff는 Claude의 프론트엔드 코드 생성에서 발생하는 시각적 정확도 격차를 해결합니다. 렌더링된 출력물을 Figma 디자인과 픽셀 단위로 비교하고, 차이점을 피드백 루프에 반영하여 일치할 때까지 반복합니다.