RTX 3090におけるQwen 3.6 27B/35Bの最適化：フラグ、量子化、自動ルーティング

✍️ OpenClawRadar📅 公開日: May 5, 2026🔗 Source

RTX 3090（24GB VRAM）、Ryzen 5700X、64GB RAM、Windows 11でQwen 3.6モデルをローカル実行している開発者が、パフォーマンスと信頼性の問題に直面しています。カスタムフラグを設定してllama-serverを使用しており、量子化の選択、スループット、モデルの自動ルーティングについてアドバイスを求めています。

コマンドと量子化

35B（UD Q4_K_M）：

llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

27B（UD Q4_K_XL）：

llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0

報告されている問題

35Bが遅すぎる – 単純な反復タスクでも使い物にならない。
27Bは速いが信頼性が低い – コード出力が壊れる。簡単なタスクに20～30分かかることも。
手動でのモデル切り替え – サーバーを停止し、新しいコマンドを貼り付け、モデルを再読み込みする必要がある。

具体的な質問

フラグは最適ではないか？（例：コンテキストサイズ、バッチサイズ、キャッシュタイプ）
24GB VRAMで速度とコーディング精度の最良のバランスを提供する量子化/モデルは？
リクエストごとにモデルを自動切り替えするか、複数のモデルをウォーム状態で保持してルーティングするには？

背景

ユーザーは、スクレイピングと自動化のためにRaspberry Pi 5でHermesエージェントを実行し、OpenCode/QwenCodeでローカルコーディングを行っています。手動でサーバーを再起動する必要のない設定を求めています。

📖 完全なソースを読む： r/LocalLLaMA

👀 See Also

Guides

OpenClaw + Ollama ローカルモデルのタイムアウトをデバッグ：サイレント障害に対する5つの修正方法

開発者が、OpenClawエージェントがGemma 4 26BなどのローカルOllamaモデルで暗黙的にタイムアウトする5つの根本原因を特定しました。これには、ブロッキングスラッグジェネレーター、38K文字のシステムプロンプト、隠れたタイムアウトが含まれます。修正には、フックの無効化、設定の変更、Ollama設定の調整が含まれます。

Apr 15, 2026, 09:02 PM UTC

OpenClawRadar

Guides

Claude Codeの使用から得た実践的なプロンプトエンジニアリングの教訓

プロジェクトマネージャーがClaude Codeの結果を改善した具体的なテクニックを共有：2段階プロンプト、単一目的プロンプト、高度に具体的な役割定義。

Mar 16, 2026, 06:45 PM UTC

OpenClawRadar

Guides

Claude Codeワークフロービジュアル: メモリ階層、スキル、フック、ループ

Redditの投稿で、Claude Codeのワークフロービジュアルが紹介されています。CLAUDE.mdのメモリ階層（グローバル→リポジトリ→スコープ）、.claude/skills/内の再利用可能なパターンとしてのスキル、推奨されるワークフローループ（計画→記述→承認→コミット）をカバーしています。

May 1, 2026, 06:19 AM UTC

OpenClawRadar

Guides

Qwen 3.5 122B MoEが一つの3090上で35 t/s、ik_llama.cpp MTPを使用

単一の3090でQwen 3.5 122B MoEを35 t/sで動作させるローカル推論スタック。ik_llama.cppの融合MoE演算によりMTPが+20%向上。

Jun 6, 2026, 12:17 AM UTC

OpenClawRadar