Qwen3.6 27B 35B 6GB VRAM ik_llama 실행 설정 및 벤치마크

한 Reddit 사용자가 오래된 게이밍 노트북(RTX 2060 Mobile, 6GB VRAM, 32GB RAM)에서 ik_llama와 llama.cpp를 사용하여 Qwen3.6 27B 및 35B A3B 모델을 성공적으로 실행했다고 보고했습니다. 주요 최적화로는 MTP 및 ngram을 사용한 이중 추측 디코딩, --fit 및 --mtp-requantize-output-tensor, 출력 텐서 재패킹이 포함됩니다. 아래는 정확한 설정과 관측된 속도입니다.

Qwen3.6 27B (Q3_K_XL) 설정

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill) 설정

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

성능 수치

27B: 프리필 ~100 t/s, 첫 토큰 최대 4 t/s, 10k 컨텍스트에서 ~1 t/s
35B A3B: 프리필 ~40 t/s, 첫 토큰 최대 15 t/s, 10k 컨텍스트에서 일정 ~11 t/s

사용자는 27B가 최대 1000줄의 파일 추론에 사용 가능했고(몇 분 소요되지만 유용), 35B Opus 증류 모델이 꾸준히 11 t/s 출력 속도를 냈다고 언급했습니다. little-coder 또는 에이전트 코딩 워크플로우를 통해 머메이드 차트, 이미지, 마크다운, PDF를 생성하는 데 사용하고 있습니다.

📖 전체 출처 읽기: r/LocalLLaMA

6GB VRAM에서 Qwen3.6 27B 및 35B를 ik_llama로 실행하기: 실용 설정 및 벤치마크

Qwen3.6 27B (Q3_K_XL) 설정

Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill) 설정

성능 수치

👀 See Also

iOS 개발자, 여러 앱 출시 후 Claude 코드 모범 사례 공유

클로드와 OpenAI 사용을 위한 모델 라우팅 기준선

OpenClaw 프롬프트 팽창 및 느린 응답 루프 수정

첫 번째 LLM 셀프 호스팅 실용 가이드