Qwen 3.6 vs Gemma 4：RTX 4070 Super 12GBでllama.cppベンチマーク

Redditユーザーが、12GBのRTX 4070 Super（+10% OC）とAMD 9800X3D CPU、64GB DDR5-6000 RAMを搭載したシステムで、複数の大規模MoEモデルを実行する速度ベンチマークを公開しました。ユーザーはVRAM節約のためディスプレイをiGPUにオフロードしており、そうしないと約10%のパフォーマンス低下があると述べています。セットアップはCUDA 13.1と最新のllama.cppを使用し、以下のハードウェア構成です。

n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true

ベンチマーク結果

ユーザーはVS CodeのClineとKiloCodeを用いて、Unsloth GGUF量子化で4つのモデルをテストしました（ツール呼び出しの問題なし）。すべての測定値はトークン/秒（tgs）と処理/秒（pps）です。

Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps

注目すべき構成詳細

ユーザーは個々のモデル構成と特定のチューニングを共有しました。主なハイライト：

Qwen3.6-35B-A3Bの場合：n-cpu-moe = 35（35個のMoEエキスパートをCPUにオフロード）、cache-type-k = q8_0、cache-type-v = q8_0、swa-full = true、cache-reuse = 512、コンテキストサイズ131072、推論有効、予算8096。
Gemma 4 26Bの場合：n-cpu-moe = 27、コンテキスト102400、fit = on、fit-target = 256、fit-ctx = 32768。
Gemma 4 31Bの場合：ngram-modによる投機的デコード（spec-type = ngram-mod）、n-gpu-layers = 58（部分的なGPUオフロード）、cache-type-k = q4_0、no-kv-offload = true。
すべてのモデルでflash-attn = true、no-mmproj-offload = true。

ユーザーがWeb開発に好むモデルはQwen3.6-35B-A3Bで、VS Code拡張機能でツール呼び出しの問題がない品質を称賛しています。

📖 ソース全文を読む： r/LocalLLaMA

RTX 4070 SuperでQwen 3.6とGemma 4モデルを実行する：12GB VRAMベンチマーク

ベンチマーク結果

注目すべき構成詳細

👀 See Also

アンソピックがClaude AIの無料公式学習プラットフォームをリリース

OpenClaw：究極のクイックリファレンス・チートシート

OpenClawの7つの最適化手法でトークンコストを95%削減

オープンソースのOSS LLMおよびローカルAIプロジェクトのためのローンチプレイブック