로컬 Claude 코드 설정: Qwen3.5 27B를 llama.cpp로 실행하기

로컬 Claude Code 구성
한 개발자가 llama.cpp를 사용한 로컬 LLM으로 Claude Code를 완전히 오프라인에서 실행하기 위한 설정을 문서화했습니다. 이 시스템은 Arch Linux와 Strix Halo 하드웨어에서 unsloth/UD-Q4_K_XL로 양자화된 Qwen3.5 27B를 사용합니다.
환경 구성
원격 측정을 비활성화하고 Claude Code를 완전히 오프라인으로 만들기 위해 ~/.bashrc에 다음 환경 변수를 설정했습니다:
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001" export ANTHROPIC_API_KEY="not-set" export ANTHROPIC_AUTH_TOKEN="not-set" export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 export CLAUDE_CODE_ENABLE_TELEMETRY=0 export DISABLE_AUTOUPDATER=1 export DISABLE_TELEMETRY=1 export CLAUDE_CODE_DISABLE_1M_CONTEXT=1 export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096 export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768
개발자는 환경 변수보다 claude/settings.json을 사용하는 것이 더 안정적이고 제어 가능하다고 언급했습니다.
llama.cpp 서버 구성
llama.cpp 서버는 다음 매개변수로 시작되었습니다:
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \ --model models/Qwen3.5-27B-Q4_K_M.gguf \ --alias "qwen3.5-27b" \ --port 8001 --ctx-size 65536 --n-gpu-layers 999 \ --flash-attn on --jinja --threads 8 \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \ --cache-type-k q8_0 --cache-type-v q8_0
ROCBLAS_USE_HIPBLASLT=1 플래그는 Strix Halo 하드웨어에 필요했으며, 개발자는 llama.cpp 설정을 특화시키기 위해 특정 하드웨어를 연구하는 것이 중요하다고 강조했습니다.
성능 벤치마크
다음 결과와 함께 7번의 실행이 수행되었습니다:
- 실행 1 (파일 작업): 1분 44초, 초당 9.71 토큰, 23K 컨텍스트, 올바른 출력
- 실행 2 (Git 클론 + 코드 읽기): 2분 31초, 초당 9.56 토큰, 32.5K 컨텍스트, 우수한 품질
- 실행 3 (7일 계획 + 가이드): 4분 57초, 초당 8.37 토큰, 37.9K 컨텍스트, 우수한 품질
- 실행 4 (기술 평가): 4분 36초, 초당 8.46 토큰, 40K 컨텍스트, 매우 좋은 품질 (웹 검색 오작동)
- 실행 5 (Python 스크립트 작성): 10분 25초, 초당 7.54 토큰, 60.4K 컨텍스트, 좋은 품질 (7/10)
- 실행 6 (코드 검토 + 수정): 9분 29초, 초당 7.42 토큰, 65,535 컨텍스트 (충돌), 매우 좋은 품질 (8.5/10)
- 실행 7 (/compact 명령): 약 10분, 약 초당 8.07 토큰, 66,680 컨텍스트 (실패), 품질 N/A
주요 발견 사항
- 생성 속도는 컨텍스트 범위에서 약 24% 저하됨: 23K 컨텍스트에서 초당 9.71 토큰에서 65K 컨텍스트에서 초당 7.42 토큰으로
- Claude Code 시스템 프롬프트는 22,870 토큰을 소비함 (65K 예산의 35%)
- 자동 압축이 완전히 오작동: Claude Code는 200K 컨텍스트를 가정했으므로 95% 임계값은 190K였지만, 65K 제한은 Claude Code가 생각한 창의 33%에서 도달함
- /compact 명령은 출력 여유 공간이 필요함: 최대 4096 출력 토큰으로는 압축 요약이 맞지 않아 16K+ 토큰이 필요함
- 웹 검색 기능은 Anthropic 연결 없이 오작동함; 잠재적 해결책으로 SearXNG via MCP가 포함됨
📖 Read the full source: r/LocalLLaMA
👀 See Also

일반적인 OpenClaw 설치 오류 및 해결 방법
레딧 게시물이 PATH 구성, 권한 오류, Node.js 버전 요구사항, TTY 문제, 플러그인 상태 문제 등 OpenClaw 설치 시 발생하는 여러 일반적인 문제에 대한 해결책을 정리합니다.

Claude Code를 Ollama로 라우팅하여 비용 약 90% 절감
Claude Desktop를 Ollama 기반 Claude Code와 페어링: 전략적 작업은 Anthropic에 남기고, 무거운 작업은 Gemma, Qwen, DeepSeek 같은 무료 오픈소스 모델로 실행합니다. 설정의 약 98%를 자동화하는 복사-붙여넣기 프롬프트를 포함합니다.

클로드 코드 스킬 vs 커스텀 에이전트: 작업 일관성에 기반한 멘탈 모델
레딧 사용자가 Claude Code의 스킬과 커스텀 에이전트 간 차이를 명확히 설명합니다: 스킬은 매번 동일한 단계를 실행하는 반면, 커스텀 에이전트는 추론과 적응이 필요합니다. 이 게시물은 병렬 서브에이전트, 위임, 훅, 빌딩 블록에 대해서도 다룹니다.

Claude Code v2.1.36: Opus 4.6에 빠른 모드가 추가되었습니다
Anthropic이 Claude Code v2.1.36을 출시하며 최신 Opus 4.6 모델에 Fast Mode 지원을 추가해 코드 생성 및 분석 속도를 크게 향상시켰습니다.