Qwen3.6-35B-A3Bを192kコンテキストで実行する方法

Redditユーザーが、8GB VRAM（RTX 4060）と32GB DDR5 RAMを搭載したノートPCで、Qwen3.6-35B-A3B GGUFモデルを約190kコンテキストで実行する詳細な設定を投稿。デフォルトで37～43tok/sを報告し、調整により約51tok/sまで向上。

ハードウェアとモデル

GPU: RTX 4060 8GB VRAM
RAM: 32GB DDR5 5600MHz
OS: Linux（Windowsよりパフォーマンスが良いとされる）
テスト済みモデル（Q5量子化）:
- mudler/Qwen3.6-35B-A3B-APEX-GGUF – 約40tok/sから37tok/s
- hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF – 約43tok/sから37tok/s

主要な設定

TurboQuantをサポートするllama.cppのフォーク（turboquant_plus）を使用し、ユーザーは以下のフラグでllama-serverを実行：

--model "<path>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'

速度を約51tok/sに引き上げるには、3つのフラグを調整：--ctx-size 192640、--n-gpu-layers 430、--n-cpu-moe 35（安定性/メモリに応じて微調整）。