로컬 LLM을 Claude 코드 서브에이전트로 사용해 컨텍스트 사용량 줄이는 방법

Claude Code는 Claude 하위 에이전트를 사용하는 방식과 유사하게, 로컬 머신에서 실행되는 LLM에 작업을 위임함으로써 작업을 조율할 수 있습니다. 이 접근 방식은 파일 내용을 Claude의 컨텍스트 밖으로 유지합니다—로컬 모델의 요약과 통찰만이 다시 전달됩니다.

작동 방식

작은 Python 스크립트(약 120줄, 표준 라이브러리만 사용)가 에이전트 루프를 실행합니다:

파일 내용 없이 작업 설명을 Claude에 전달합니다
스크립트는 read_file 및 list_dir 도구 정의와 함께 LM Studio의 /v1/chat/completions 엔드포인트로 이를 전송합니다
로컬 모델은 필요한 파일을 읽기 위해 해당 도구를 직접 호출합니다
루프는 최종 답변을 생성할 때까지 계속됩니다
Claude는 결과만 확인합니다

예시 명령:

python3 agent_lm.py --dir /path/to/project "solar-system.html 요약"

결과:

[턴 1] → read_file({'path': 'solar-system.html'})
[턴 2] → 이 HTML 파일은 인터랙티브 애니메이션 태양계를 생성합니다...

파일 내용은 Claude의 컨텍스트가 아닌 로컬 모델의 컨텍스트(Qwen의 컨텍스트로 테스트됨)로 들어갑니다.

사용 사례 및 제한 사항

Apple Silicon에서 MLX를 통해 Qwen3.5 35B 4-bit로 테스트한 결과, 이 접근 방식은 다음에 적합합니다:

코드 요약 및 설명
버그 찾기
보일러플레이트 / 초안 생성
텍스트 변환 및 번역(히브리어로 테스트됨)
논리 작업 및 추론(더 어려운 문제는 --think 플래그 사용)

다음에는 적합하지 않습니다:

Claude의 전체 컨텍스트가 필요한 작업
관계가 중요한 다중 파일 이해
현재 대화 기록이 필요한 작업
정확성이 중요한 모든 작업

Claude의 대체품이 아닌 하이쿠 등급의 보조 도구로 생각하세요.

설정 요구사항

API 서버가 활성화된 상태로 로컬에서 실행 중인 LM Studio
에이전트 루프용 Python 스크립트 하나, 간단한 프롬프트 전용 쿼리용 스크립트 하나
둘 다 전역 ~/.claude/CLAUDE.md에 연결되어 Claude Code가 관련 시 위임을 제공할 수 있도록 함
MCP 서버, pip 종속성, 플러그인 인프라 불필요

구성 팁: Jinja 템플릿 상단에 {%- set enable_thinking = false %}를 추가하세요. 대부분의 작업에서는 로컬 모델이 추론할 필요가 없으며, 이렇게 하면 시간과 토큰을 절약하면서 속도를 높이고, 이러한 작업에 대한 품질 저하 없이 성능을 유지할 수 있습니다.

📖 전체 소스 읽기: r/ClaudeAI

로컬 LLM을 Claude 코드 서브에이전트로 사용하여 컨텍스트 사용량 줄이기

작동 방식

사용 사례 및 제한 사항

설정 요구사항

👀 See Also

ToolLoop: 모든 LLM에 적용 가능한 Claude 스타일 도구를 위한 오픈소스 프레임워크

브라우저 CLI: AI 코딩 에이전트를 위한 토큰 효율적인 브라우저 자동화 도구

OnUI: Claude Code에 정확한 UI 피드백을 제공하는 브라우저 확장 프로그램

'Don't Make Me Think' 원칙을 적용한 클로드 코드 스킬의 리액트 컴포넌트 리팩토링