RTX 4070 SuperでQwen 3.6とGemma 4モデルを実行する:12GB VRAMベンチマーク

Redditユーザーが、12GBのRTX 4070 Super(+10% OC)とAMD 9800X3D CPU、64GB DDR5-6000 RAMを搭載したシステムで、複数の大規模MoEモデルを実行する速度ベンチマークを公開しました。ユーザーはVRAM節約のためディスプレイをiGPUにオフロードしており、そうしないと約10%のパフォーマンス低下があると述べています。セットアップはCUDA 13.1と最新のllama.cppを使用し、以下のハードウェア構成です。
n-gpu-layers = 999
threads = 8
threads-batch = 16
batch-size = 4096
ubatch-size = 4096
ctx-size = 65536
flash-attn = true
ベンチマーク結果
ユーザーはVS CodeのClineとKiloCodeを用いて、Unsloth GGUF量子化で4つのモデルをテストしました(ツール呼び出しの問題なし)。すべての測定値はトークン/秒(tgs)と処理/秒(pps)です。
- Qwen3.6-35B-A3B-GGUF Q6_K_XL: 40 tgs, 2100 pps
- Qwen3.6-27B-IQ3_XXS: 16 tgs, 1000 pps
- Gemma 4 26B-A4B-it-UD-Q8: 26 tgs, 2150 pps
- Gemma-4-31B-it-IQ3_XXS: 13-16 tgs, 650 pps
注目すべき構成詳細
ユーザーは個々のモデル構成と特定のチューニングを共有しました。主なハイライト:
- Qwen3.6-35B-A3Bの場合:
n-cpu-moe = 35(35個のMoEエキスパートをCPUにオフロード)、cache-type-k = q8_0、cache-type-v = q8_0、swa-full = true、cache-reuse = 512、コンテキストサイズ131072、推論有効、予算8096。 - Gemma 4 26Bの場合:
n-cpu-moe = 27、コンテキスト102400、fit = on、fit-target = 256、fit-ctx = 32768。 - Gemma 4 31Bの場合:
ngram-modによる投機的デコード(spec-type = ngram-mod)、n-gpu-layers = 58(部分的なGPUオフロード)、cache-type-k = q4_0、no-kv-offload = true。 - すべてのモデルで
flash-attn = true、no-mmproj-offload = true。
ユーザーがWeb開発に好むモデルはQwen3.6-35B-A3Bで、VS Code拡張機能でツール呼び出しの問題がない品質を称賛しています。
📖 ソース全文を読む: r/LocalLLaMA
👀 See Also

OpenClawでGoogle MeetとTeamsの文字起こしを簡単にキャプチャ — スキルとセットアップガイド
OpenClawをGoogle MeetとMicrosoft Teamsに統合することで、シームレスな文字起こし機能を提供します。ワークフローの効率を向上させるための設定と最適化の方法を学びましょう。

AIエージェントアーキテクチャの理解:決定論的層と確率論的層
Redditユーザーが、決定論的レイヤー(スクリプト、コマンド、API)と確率論的レイヤー(LLMの推論と意思決定)を分離したAIエージェントシステムのメンタルモデルを共有しました。重要な洞察:できるだけ多くの作業を決定論的側に押し込むことです。

フリーランスビジネスのためのClaude30日間:効果的な5つのプロンプト
フリーランサーがClaudeを30日間毎日テストし、提案書作成時間を45分から5分に短縮、料金を30%値上げしても反対ゼロ、コールドピッチの返信率を3倍にした5つのプロンプトを共有。

OpenClawのアップデート後に発生する「Cannot find module」エラーの修正方法
OpenClawをバージョン2026.3.24から2026.4.5に更新した後、ユーザーは「Cannot find module @buape/carbon」エラーに遭遇しています。解決策は、パッケージをグローバルにインストールする代わりに、手動でインストール後のスクリプトを実行することです。