Claude 3.5 Sonnet + 로컬 Qwen2.5-Coder: 토큰 85% 감소하는 하이브리드 AI 워크플로우

하이브리드 AI 코딩 워크플로우로 클라우드 비용 절감

r/LocalLLaMA의 한 개발자가 코딩 품질을 유지하면서 토큰 비용을 줄이기 위해 클라우드와 로컬 AI 모델을 결합한 상세한 워크플로우를 공유했습니다. 이 접근법은 많은 코딩 작업이 비싼 클라우드 모델을 필요로 하지 않는다는 인식에 대응합니다.

워크플로우 아키텍처

이 시스템은 "클라우드에서 추론, 로컬에서 실행" 논리를 따릅니다:

플래너 (Claude 3.5 Sonnet): 작업을 받아 지침, 파일 경로, 논리를 포함한 정확한 task_context.md 파일을 생성합니다. 이는 약 300-500 토큰이 소요됩니다.
코더 (Ollama를 통한 로컬 Qwen2.5-Coder 30B): 명세서와 실제 파일 내용을 받아 코드를 작성합니다. 이는 로컬에서 실행되어 비용이 발생하지 않습니다.
검증자: 간단한 Bash 스크립트가 tsc --noEmit 또는 mypy를 실행하여 타입 검사를 수행합니다.
검토자 (로컬 Qwen2.5-Coder 7B): 명백한 논리적 결함을 확인하기 위해 병렬로 실행됩니다.
자동 수정: 빌드가 실패하면 오류 로그가 로컬 코더로 돌아가 2-3회 반복됩니다.

구현 세부사항

전체 파이프라인은 Ollama API와 통신하기 위해 jq와 curl만 사용하는 일련의 Bash 스크립트로 래핑되었습니다. 이 시스템은 플래너의 출력을 기반으로 언어 표준(TypeScript, Python, C++ 등)을 자동 감지하며 무거운 Python/Node 런타임이 필요하지 않습니다.

해당 개발자는 로컬 모델(30B 규모도)이 복잡한 아키텍처 추론에서는 종종 실패하지만, 명확한 명세서가 주어지면 실행 측면에서 놀라울 정도로 뛰어나다고 언급했습니다.