6GB VRAMでQwen3.6 27Bと35Bをik_llamaで実行:実用的な設定とベンチマーク

Redditユーザーが、RTX 2060 Mobile(6 GB VRAM)と32 GB RAMを搭載した旧型ゲーミングノートPCで、ik_llamaとllama.cppを使用してQwen3.6 27Bおよび35B A3Bモデルの実行に成功したと報告。主な最適化として、MTPとngramによる二重投機的デコード、--fitと--mtp-requantize-output-tensor、さらに出力テンソルの再パッキングが含まれます。以下が正確な設定と観測された速度です。
Qwen3.6 27B(Q3_K_XL)の設定
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
-c 16000 \
-b 512 -ub 512 \
--fit --fit-margin 3076 \
-fa on \
-np 1 \
-ctk q4_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=1,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
Qwen3.6 35B A3B(IQ4_XS、Claude Opus蒸留)の設定
export GGML_CUDA_GRAPHS=1
./llama-server \
-m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
-c 80000 \
-b 1024 -ub 1024 \
--fit --fit-margin 2048 \
-fa on \
-np 1 \
-ctk q8_0 -ctv q4_0 \
--mtp-requantize-output-tensor q4_0 \
-khad -vhad -rtr \
--threads 6 --threads-batch 8 \
--slot-save-path ./slots \
--prompt-cache "prompt.cache" \
--mlock --no-mmap \
--port 8888 --host 0.0.0.0 \
--spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
--spec-stage mtp:n_max=3,draft-p-min=0.0 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
--jinja \
--chat-template-kwargs '{"preserve_thinking": true}' \
--reasoning on
パフォーマンス数値
- 27B: プリフィル約100 t/s、最初のトークン最大4 t/s、10kコンテキストで約1 t/s
- 35B A3B: プリフィル約40 t/s、最初のトークン最大15 t/s、10kコンテキストで常に約11 t/s
ユーザーによると、27Bでは最大1000行のファイルの推論が実用的になり(数分かかるが有用)、35B Opus蒸留モデルは安定した11 t/sの出力速度を維持。これを使用して、little-coderやエージェント的なコーディングワークフローで、mermaid図、画像、マークダウン、PDFを生成しているとのこと。
📖 出典全文: r/LocalLLaMA
👀 See Also

VPSと専用サーバー:OpenClawをどこで実行するか
新規ユーザーが最初に尋ねる質問の一つ:OpenClawはどこで実行すべきか?決断を助ける比較をご紹介します。

Qwen3.5-397B MoE、M1 Ultraでページ化エキスパートローディングにより14GB RAMで動作
Paged MoEエンジンは常時20のエキスパートのみをRAMに保持し、残りをSSDからレイジーロードすることで、209GBの397Bモデルを64GB Mac Studio上で1.59 tok/s、ピークRAM14GBで動作させる。小型モデルのベンチマークも含む。

OpenClawの起動費用:ハードウェア、API、月次予算
なし

非開発者向けのWindows 11におけるOpenClawインストールの障壁
趣味の改造者が、Windows 11を搭載した200ドルのミニPCにOpenClawをインストールする際に直面した3つの具体的な障害について詳述しています。これには、PowerShellの実行ポリシー、Windows Defenderによるブロック、Node.jsやGitなどの依存関係の不足が含まれます。