6GB VRAMでQwen3.6 27Bと35Bをik_llamaで実行する実用的設定とベンチマーク

Redditユーザーが、RTX 2060 Mobile（6 GB VRAM）と32 GB RAMを搭載した旧型ゲーミングノートPCで、ik_llamaとllama.cppを使用してQwen3.6 27Bおよび35B A3Bモデルの実行に成功したと報告。主な最適化として、MTPとngramによる二重投機的デコード、--fitと--mtp-requantize-output-tensor、さらに出力テンソルの再パッキングが含まれます。以下が正確な設定と観測された速度です。

Qwen3.6 27B（Q3_K_XL）の設定

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/Qwen3.6-27B-MTP-UD-Q3_K_XL.gguf \
  -c 16000 \
  -b 512 -ub 512 \
  --fit --fit-margin 3076 \
  -fa on \
  -np 1 \
  -ctk q4_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=1,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

Qwen3.6 35B A3B（IQ4_XS、Claude Opus蒸留）の設定

export GGML_CUDA_GRAPHS=1
./llama-server \
  -m /mnt/second-ssd/lib/llama.cpp/models/lordx64-Claude-4.7-Opus-Reasoning-Distilled-Qwen3.6-35B-A3B-MTP-IQ4_XS.gguf \
  -c 80000 \
  -b 1024 -ub 1024 \
  --fit --fit-margin 2048 \
  -fa on \
  -np 1 \
  -ctk q8_0 -ctv q4_0 \
  --mtp-requantize-output-tensor q4_0 \
  -khad -vhad -rtr \
  --threads 6 --threads-batch 8 \
  --slot-save-path ./slots \
  --prompt-cache "prompt.cache" \
  --mlock --no-mmap \
  --port 8888 --host 0.0.0.0 \
  --spec-stage ngram-mod:n_max=64,n_min=2,spec-ngram-size-n=16 \
  --spec-stage mtp:n_max=3,draft-p-min=0.0 \
  --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.0 \
  --jinja \
  --chat-template-kwargs '{"preserve_thinking": true}' \
  --reasoning on

パフォーマンス数値

27B: プリフィル約100 t/s、最初のトークン最大4 t/s、10kコンテキストで約1 t/s
35B A3B: プリフィル約40 t/s、最初のトークン最大15 t/s、10kコンテキストで常に約11 t/s

ユーザーによると、27Bでは最大1000行のファイルの推論が実用的になり（数分かかるが有用）、35B Opus蒸留モデルは安定した11 t/sの出力速度を維持。これを使用して、little-coderやエージェント的なコーディングワークフローで、mermaid図、画像、マークダウン、PDFを生成しているとのこと。

📖 出典全文: r/LocalLLaMA

6GB VRAMでQwen3.6 27Bと35Bをik_llamaで実行：実用的な設定とベンチマーク

Qwen3.6 27B（Q3_K_XL）の設定

Qwen3.6 35B A3B（IQ4_XS、Claude Opus蒸留）の設定

パフォーマンス数値

👀 See Also

OpenClawワークスペース設定：2ヶ月間の使用から得た教訓

Cron Jobs vs Heartbeat: OpenClawトークンの使用と実行の一貫性を最適化する

Claude Desktop ワークスペース VM サービス問題の修正（Windows 11 Home向け）

サブスクリプションモデルを活用したコスト効率の良いOpenClawマルチエージェントセットアップ