MCP로 Claude 비용 60배 절감: DeepSeek V4 Flash 오프로드 방법

한 Reddit 사용자가 자신의 Claude 사용 내역을 분석한 결과, 대부분이 기계적인 작업에 사용되고 있음을 발견했습니다: 파일 분류, JSON 재포맷, 텍스트에서 필드 추출, 대충 훑어볼 문서 요약 등이었습니다. 이런 작업에 Sonnet이 필요하지 않았습니다. 해결책은 MCP를 통해 사이드 워커로 실행되는 작고 저렴한 모델과 CLAUDE.md에 해당 작업을 수행하지 말라고 지시하는 단일 규칙을 추가하는 것이었습니다.

설정: MCP 도구 + CLAUDE.md 거부 목록

설정은 텍스트를 보내고 텍스트를 받는 단일 MCP 도구를 사용합니다. 기본 모델은 DeepSeek V4 Flash(저렴, 100만 토큰 컨텍스트)입니다. 엔드포인트는 한 줄의 설정으로, OpenAI 호환 공급자(로컬 ollama, vllm, lm studio)와 작동합니다. 저장소는 github.com/arizen-dev/deepseek-mcp (MIT, Python 3.10 이상)입니다.

핵심 요소: CLAUDE.md 규칙은 부정적 프레이밍을 사용합니다 — 허용 목록이 아닌 거부 목록입니다. 사용자는 긍정적 프레이밍("X에는 DeepSeek 사용")이 약 30%의 경우 무시되었다고 보고합니다. 거부 목록 접근 방식은 확실하게 작동합니다.

# CLAUDE.md:
# Claude를 사용하지 마세요:
# - json 포맷팅
# - 필드 추출
# - 파일 분류
# - 검토할 요약

결과: 비용 60배 감소

3주간의 실제 사용 결과: 217개의 기계적 호출이 DeepSeek V4 Flash로 오프로드되어 총 비용 $0.41. 동일한 작업을 Sonnet으로 처리했다면 약 $7이었을 것입니다. 이는 해당 작업만으로 약 17배 차이이며, 사용자는 여전히 Sonnet을 사용하는 더 복잡한 작업을 고려할 때 전체 비용이 60배 감소했다고 말합니다.