8GB VRAM 32GB RAM에서 Qwen3.6-35B-A3B 192k 컨텍스트 실행

한 Reddit 사용자가 8GB VRAM(RTX 4060)과 32GB DDR5 RAM을 장착한 노트북에서 Qwen3.6-35B-A3B GGUF 모델을 약 190k 컨텍스트로 실행하기 위한 상세 설정을 게시했습니다. 기본으로 37-43 tok/s를 보고했으며, 약간의 조정으로 ~51 tok/s까지 올렸습니다.

하드웨어 및 모델

GPU: RTX 4060 8GB VRAM
RAM: 32GB DDR5 5600MHz
OS: Linux (Windows보다 성능이 좋은 것으로 알려짐)
테스트된 모델(Q5 양자화):
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – 약 40 tok/s에서 37 tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – 약 43 tok/s에서 37 tok/s

주요 구성

TurboQuant를 지원하는 llama.cpp 포크(turboquant_plus)를 사용하여 사용자는 다음 플래그로 llama-server를 실행합니다:

--model "" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

속도를 ~51 tok/s로 높이려면 세 가지 플래그를 조정하세요: --ctx-size 192640, --n-gpu-layers 430, --n-cpu-moe 35 (안정성/메모리에 따라 약간 조정).