개발자가 공유하는 하이브리드 AI 코딩 워크플로우: 계획은 Claude, 실행은 로컬 모델

하이브리드 AI 코딩 워크플로우로 클라우드 비용 절감
r/LocalLLaMA의 한 개발자가 코딩 품질을 유지하면서 토큰 비용을 줄이기 위해 클라우드와 로컬 AI 모델을 결합한 상세한 워크플로우를 공유했습니다. 이 접근법은 많은 코딩 작업이 비싼 클라우드 모델을 필요로 하지 않는다는 인식에 대응합니다.
워크플로우 아키텍처
이 시스템은 "클라우드에서 추론, 로컬에서 실행" 논리를 따릅니다:
- 플래너 (Claude 3.5 Sonnet): 작업을 받아 지침, 파일 경로, 논리를 포함한 정확한
task_context.md파일을 생성합니다. 이는 약 300-500 토큰이 소요됩니다. - 코더 (Ollama를 통한 로컬 Qwen2.5-Coder 30B): 명세서와 실제 파일 내용을 받아 코드를 작성합니다. 이는 로컬에서 실행되어 비용이 발생하지 않습니다.
- 검증자: 간단한 Bash 스크립트가
tsc --noEmit또는mypy를 실행하여 타입 검사를 수행합니다. - 검토자 (로컬 Qwen2.5-Coder 7B): 명백한 논리적 결함을 확인하기 위해 병렬로 실행됩니다.
- 자동 수정: 빌드가 실패하면 오류 로그가 로컬 코더로 돌아가 2-3회 반복됩니다.
구현 세부사항
전체 파이프라인은 Ollama API와 통신하기 위해 jq와 curl만 사용하는 일련의 Bash 스크립트로 래핑되었습니다. 이 시스템은 플래너의 출력을 기반으로 언어 표준(TypeScript, Python, C++ 등)을 자동 감지하며 무거운 Python/Node 런타임이 필요하지 않습니다.
해당 개발자는 로컬 모델(30B 규모도)이 복잡한 아키텍처 추론에서는 종종 실패하지만, 명확한 명세서가 주어지면 실행 측면에서 놀라울 정도로 뛰어나다고 언급했습니다.
결과 및 절감 효과
12개 파일이 변경된 최근 TypeScript 프로젝트에서:
- Claude 사용은 초기 계획 단계로만 제한되었습니다
- 로컬 모델이 나머지 모든 작업(12개 파일 작성, 린팅, 검토)을 처리했습니다
- 총 절감액: Claude Code CLI 내에서 모든 작업을 수행하는 것과 비교해 약 85%의 토큰 감소
해당 개발자는 구현 세부사항에 관심 있는 사람들을 위해 GitHub의 ai-orchestrator라는 저장소(사용자명: Mybono)에서 스크립트를 공개했습니다.
📖 Read the full source: r/LocalLLaMA
👀 See Also

OpenTrace: 75개 이상의 MCP 도구를 갖춘 셀프 호스팅 관찰 가능성 서버
OpenTrace는 75개 이상의 MCP 도구를 통해 로그, 사용자 분석 및 데이터베이스 인트로스펙션을 제공하는 셀프 호스팅 관찰 가능성 서버로, SQLite 저장소와 읽기 전용 Postgres 연결을 사용하는 $4 VPS에서 실행됩니다.

Claude-context-lint 도구는 Claude Code 프로젝트의 토큰 오버헤드를 감사합니다.
claude-context-lint라는 새로운 도구가 Claude Code 프로젝트를 스캔하여 사용자 입력 전에 CLAUDE.md 파일, 스킬, MCP 서버 및 시스템 프롬프트가 얼마나 많은 컨텍스트 윈도우를 소비하는지 보여줍니다. 이 도구는 토큰 사용량을 줄이기 위한 구체적인 권장 사항을 제공합니다.

워치타워: 클로드 코드 API 트래픽 모니터링을 위한 로컬 프록시
Watchtower는 Claude Code(또는 Codex CLI)와 해당 API 간의 모든 트래픽을 가로채고 표시하는 로컬 HTTP 프록시 및 실시간 웹 대시보드 역할을 하는 무료 오픈소스 도구입니다. 요청, SSE 스트림, 도구 정의, 시스템 프롬프트, 토큰 사용량, 속도 제한 등을 보여줍니다.

오픈클로 스마트 라우터, 자동 모델 선택 기능 오픈소스 공개
한 개발자가 OpenClaw용 스마트 라우터를 오픈소스로 공개했습니다. 이 도구는 쿼리를 복잡도에 따라 자동으로 분류하고 최적의 모델로 라우팅하여, Claude나 GPT-4o 같은 프리미엄 모델을 항상 사용하는 것에 비해 API 비용을 60-80% 절감할 수 있습니다.