Qwen 3.5 35B Q4_K_M GGUFを8GB VRAMで実行：設定と速度

限られたVRAMでのローカルQwen 3.5 35Bセットアップ

r/LocalLLaMAの開発者が、8GB VRAMのハードウェアでQwen 3.5 35Bモデルをローカル実行する設定を詳細に説明。クラウドサービスの制限に直面した後、Antigravity（Google AI Proプラン使用）からローカルLLMへ移行しました。

ハードウェアとモデル仕様

このセットアップは、i9-14900HX CPU（BIOSでEコア無効化、32GB DDR5 RAM）と8GB VRAMのRTX 4060m GPUを搭載したLenovo Legionノートパソコンを使用。具体的なモデルはQwen 3.5 35B A3B Heretic Opus (Q4_K_M GGUF)です。

パフォーマンスとllama.cpp設定

開発者はこのセットアップで、プロンプト処理で約700トークン/秒、トークン生成で42トークン/秒を達成したと報告。テスト後のllama.cppコマンドライン引数を提供：

-ngl 99 ^
--n-cpu-moe 40 ^
-c 192000 ^
-t 12 ^
-tb 16 ^
-b 4096 ^
--ubatch-size 2048 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--mlock

ワークフロー統合

エージェントワークフローでは、Antigravityに最も近い代替としてVSCodeのClineを見つけました。このセットアップ内で、Planモードにはkat-coder-proを、Actモードにはqwen3.5を使用。開発者は、プライバシー懸念よりもスムーズなワークフローを優先し、このローカル設定がGoogle Gemini 3 FlashをAntigravityで使い続けるよりも優れているかについてフィードバックを求めています。

📖 Read the full source: r/LocalLLaMA