6GB VRAM에서 Qwen3.6 27B 및 35B를 ik_llama로 실행하기: 실용 설정 및 벤치마크

한 Reddit 사용자가 오래된 게이밍 노트북(RTX 2060 Mobile, 6GB VRAM, 32GB RAM)에서 ik_llama와 llama.cpp를 사용하여 Qwen3.6 27B 및 35B A3B 모델을 성공적으로 실행했다고 보고했습니다. 주요 최적화로는 MTP 및 ngram을 사용한 이중 추측 디코딩, --fit 및 --mtp-requantize-output-tensor, 출력 텐서 재패킹이 포함됩니다. 아래는 정확한 설정과 관측된 속도입니다.
Qwen3.6 27B (Q3_K_XL) 설정
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
-c 16000 \
-b 512 -ub 512 \
--fit --fit-margin 3076 \
-fa on \
-np 1 \
-ctk q4_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=1,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Qwen3.6 35B A3B (IQ4_XS, Claude Opus Distill) 설정
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
-c 80000 \
-b 1024 -ub 1024 \
--fit --fit-margin 2048 \
-fa on \
-np 1 \
-ctk q8_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--mlock --no-mmap \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=3,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
성능 수치
- 27B: 프리필 ~100 t/s, 첫 토큰 최대 4 t/s, 10k 컨텍스트에서 ~1 t/s
- 35B A3B: 프리필 ~40 t/s, 첫 토큰 최대 15 t/s, 10k 컨텍스트에서 일정 ~11 t/s
사용자는 27B가 최대 1000줄의 파일 추론에 사용 가능했고(몇 분 소요되지만 유용), 35B Opus 증류 모델이 꾸준히 11 t/s 출력 속도를 냈다고 언급했습니다. little-coder 또는 에이전트 코딩 워크플로우를 통해 머메이드 차트, 이미지, 마크다운, PDF를 생성하는 데 사용하고 있습니다.
📖 전체 출처 읽기: r/LocalLLaMA
👀 See Also

OpenClaw의 기본 메모리를 프로덕션 다중 에이전트 시스템을 위해 Redis와 Qdrant로 교체하기
한 개발자가 멀티 에이전트 설정에서 발생하는 확장성 문제를 해결하기 위해 OpenClaw의 기본 SQLite 메모리를 임시 상태용 Redis와 지속적 벡터 메모리용 Qdrant로 교체했습니다. 이로써 시맨틱 검색, 에이전트 간 공유, 동시 쓰기 기능을 구현했습니다.

작은 로컬 모델에서 코딩 에이전트를 실행할 때 발생하는 문제점
7B 미만 모델로 다중 파일 작업을 테스트하면서 발견한 실제 실패 지점: 마크다운 펜스, 구조화된 출력 신뢰성, 파일 편집 오류, 읽기/쓰기 작업 분류.

OpenClaw + Ollama 로컬 모델 타임아웃 디버깅: 침묵하는 실패를 해결하는 다섯 가지 방법
개발자가 OpenClaw 에이전트가 Gemma 4 26B와 같은 로컬 Ollama 모델에서 자동 타임아웃되는 5가지 근본 원인을 파악했습니다. 여기에는 블로킹 슬러그 생성기, 38K 문자 시스템 프롬프트, 숨겨진 타임아웃 등이 포함됩니다. 해결 방법은 훅 비활성화, 설정 수정, Ollama 설정 조정을 포함합니다.

프록시 계층으로 클로드 코워크를 보호하는 방법: 실용 가이드
Claude Cowork의 행동을 관찰하고 보호하기 위한 프록시 계층 설정 가이드(General Analysis 팀 게시)