로컬 Claude 코드 설정: Qwen3.5 27B를 llama.cpp로 실행하기

✍️ OpenClawRadar📅 게시일: April 14, 2026🔗 Source
로컬 Claude 코드 설정: Qwen3.5 27B를 llama.cpp로 실행하기
Ad

로컬 Claude Code 구성

한 개발자가 llama.cpp를 사용한 로컬 LLM으로 Claude Code를 완전히 오프라인에서 실행하기 위한 설정을 문서화했습니다. 이 시스템은 Arch Linux와 Strix Halo 하드웨어에서 unsloth/UD-Q4_K_XL로 양자화된 Qwen3.5 27B를 사용합니다.

환경 구성

원격 측정을 비활성화하고 Claude Code를 완전히 오프라인으로 만들기 위해 ~/.bashrc에 다음 환경 변수를 설정했습니다:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

개발자는 환경 변수보다 claude/settings.json을 사용하는 것이 더 안정적이고 제어 가능하다고 언급했습니다.

llama.cpp 서버 구성

llama.cpp 서버는 다음 매개변수로 시작되었습니다:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

ROCBLAS_USE_HIPBLASLT=1 플래그는 Strix Halo 하드웨어에 필요했으며, 개발자는 llama.cpp 설정을 특화시키기 위해 특정 하드웨어를 연구하는 것이 중요하다고 강조했습니다.

Ad

성능 벤치마크

다음 결과와 함께 7번의 실행이 수행되었습니다:

  • 실행 1 (파일 작업): 1분 44초, 초당 9.71 토큰, 23K 컨텍스트, 올바른 출력
  • 실행 2 (Git 클론 + 코드 읽기): 2분 31초, 초당 9.56 토큰, 32.5K 컨텍스트, 우수한 품질
  • 실행 3 (7일 계획 + 가이드): 4분 57초, 초당 8.37 토큰, 37.9K 컨텍스트, 우수한 품질
  • 실행 4 (기술 평가): 4분 36초, 초당 8.46 토큰, 40K 컨텍스트, 매우 좋은 품질 (웹 검색 오작동)
  • 실행 5 (Python 스크립트 작성): 10분 25초, 초당 7.54 토큰, 60.4K 컨텍스트, 좋은 품질 (7/10)
  • 실행 6 (코드 검토 + 수정): 9분 29초, 초당 7.42 토큰, 65,535 컨텍스트 (충돌), 매우 좋은 품질 (8.5/10)
  • 실행 7 (/compact 명령): 약 10분, 약 초당 8.07 토큰, 66,680 컨텍스트 (실패), 품질 N/A

주요 발견 사항

  • 생성 속도는 컨텍스트 범위에서 약 24% 저하됨: 23K 컨텍스트에서 초당 9.71 토큰에서 65K 컨텍스트에서 초당 7.42 토큰으로
  • Claude Code 시스템 프롬프트는 22,870 토큰을 소비함 (65K 예산의 35%)
  • 자동 압축이 완전히 오작동: Claude Code는 200K 컨텍스트를 가정했으므로 95% 임계값은 190K였지만, 65K 제한은 Claude Code가 생각한 창의 33%에서 도달함
  • /compact 명령은 출력 여유 공간이 필요함: 최대 4096 출력 토큰으로는 압축 요약이 맞지 않아 16K+ 토큰이 필요함
  • 웹 검색 기능은 Anthropic 연결 없이 오작동함; 잠재적 해결책으로 SearXNG via MCP가 포함됨

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also