8GB VRAM + 32GB RAMでQwen3.6-35B-A3Bを~190kコンテキストで実行 – セットアップとベンチマーク

Redditユーザーが、8GB VRAM(RTX 4060)と32GB DDR5 RAMを搭載したノートPCで、Qwen3.6-35B-A3B GGUFモデルを約190kコンテキストで実行する詳細な設定を投稿。デフォルトで37~43tok/sを報告し、調整により約51tok/sまで向上。
ハードウェアとモデル
- GPU: RTX 4060 8GB VRAM
- RAM: 32GB DDR5 5600MHz
- OS: Linux(Windowsよりパフォーマンスが良いとされる)
- テスト済みモデル(Q5量子化):
mudler/Qwen3.6-35B-A3B-APEX-GGUF– 約40tok/sから37tok/shesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF– 約43tok/sから37tok/s
主要な設定
TurboQuantをサポートするllama.cppのフォーク(turboquant_plus)を使用し、ユーザーは以下のフラグでllama-serverを実行:
--model "<path>" \
--host 0.0.0.0 \
--port 8085 \
--ctx-size 192640 \
--n-gpu-layers 430 \
--n-cpu-moe 35 \
--cache-type-k "turbo4" \
--cache-type-v "turbo4" \
--flash-attn on \
--batch-size 2048 \
--parallel 1 \
--no-mmap \
--mlock \
--ubatch-size 512 \
--threads 6 \
--cont-batching \
--timeout 300 \
--temp 0.2 \
--top-p 0.95 \
--min-p 0.05 \
--top-k 20 \
--metrics \
--chat-template-kwargs '{"preserve_thinking": true}'
速度を約51tok/sに引き上げるには、3つのフラグを調整:--ctx-size 192640、--n-gpu-layers 430、--n-cpu-moe 35(安定性/メモリに応じて微調整)。
注意点
- Q4量子化は、長コンテキストの推論においてQ5に比べて明らかに劣る。
--no-mmap+--mlockで、スタッタリングによる速度低下を軽減。- TurboQuant KVキャッシュは、高コンテキストサイズで重要。
- 高速なRAM帯域幅(DDR5)は、これらの速度に重要。
- このワークロードでは、LinuxがWindowsを大幅に上回る。
対象ユーザー
コンシューマー向けハードウェア(特に8~12GB VRAMと高速システムRAM)で、非常に長いコンテキスト(17万トークン以上)のローカルLLMを実行する開発者向け。
📖 原文を読む: r/LocalLLaMA
👀 See Also

Windows 11でのOpenClawインストールの課題とその解決方法
ユーザーは、新規のWindows 11マシンにOpenClawをインストールする際の3つの具体的な障害を詳細に説明しています:PowerShell実行ポリシー、Windows Defenderによるブロック、Node.jsやGitなどの依存関係の不足です。

ChatGPTの履歴をOpenClawメモリシステムにエクスポート
Redditユーザーが、ai-chat-md-exportツールを使用してChatGPTの数年にわたる会話履歴をエクスポートし、OpenClawのメモリシステムにインポートするプロセスを共有しています。これにより、ローカルのAIエージェントが過去のコンテキストにアクセスできるようになります。

OpenClaw:究極のクイックリファレンス・チートシート
OpenClawの詳細を、便利なリファレンスチートシートで探求しましょう。AIコーディング体験を効率化するための重要な機能と特徴を抽出します。

ホスティンガーVPSでのOpenClawセットアップガイド
Hostinger VPSでのOpenClawのデプロイ、OpenAIとEntropicsのAI API接続、24時間稼働のためのTelegram連携に関するステップバイステップガイド