RTX 3090におけるQwen 3.6 27B/35Bの最適化:フラグ、量子化、自動ルーティング

RTX 3090(24GB VRAM)、Ryzen 5700X、64GB RAM、Windows 11でQwen 3.6モデルをローカル実行している開発者が、パフォーマンスと信頼性の問題に直面しています。カスタムフラグを設定してllama-serverを使用しており、量子化の選択、スループット、モデルの自動ルーティングについてアドバイスを求めています。
コマンドと量子化
35B(UD Q4_K_M):
llama-server.exe -m "path\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" -ngl 99 -c 131072 -np 2 -fa on -ctk f16 -ctv f16 -b 2048 -ub 512 -t 8 --mlock -rea on --reasoning-budget 2048 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.027B(UD Q4_K_XL):
llama-server.exe -m "path\Qwen3.6-27B-UD-Q4_K_XL.gguf" -ngl 99 -c 196608 -np 1 -fa on -ctk q8_0 -ctv q8_0 -b 2048 -ub 512 -t 8 --no-mmap -rea on --reasoning-budget -1 --reasoning-format deepseek --jinja --metrics --slots --port 8081 --host 0.0.0.0報告されている問題
- 35Bが遅すぎる – 単純な反復タスクでも使い物にならない。
- 27Bは速いが信頼性が低い – コード出力が壊れる。簡単なタスクに20~30分かかることも。
- 手動でのモデル切り替え – サーバーを停止し、新しいコマンドを貼り付け、モデルを再読み込みする必要がある。
具体的な質問
- フラグは最適ではないか?(例:コンテキストサイズ、バッチサイズ、キャッシュタイプ)
- 24GB VRAMで速度とコーディング精度の最良のバランスを提供する量子化/モデルは?
- リクエストごとにモデルを自動切り替えするか、複数のモデルをウォーム状態で保持してルーティングするには?
背景
ユーザーは、スクレイピングと自動化のためにRaspberry Pi 5でHermesエージェントを実行し、OpenCode/QwenCodeでローカルコーディングを行っています。手動でサーバーを再起動する必要のない設定を求めています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

OpenClawのデフォルトメモリをRedisとQdrantに置き換えて、本番環境向けマルチエージェントシステムを構築
ある開発者が、マルチエージェント環境でのスケーリング問題を解決するため、OpenClawのデフォルトのSQLiteメモリを、一時的な状態管理にRedis、永続的なベクトルメモリにQdrantに置き換え、セマンティック検索、エージェント間共有、並行書き込みを実装しました。

サードパーティ製ハーネスの非推奨化に伴うOpenClawエージェントのClaude Codeへの移行
Anthropicがサードパーティ製ハーネスのサポートを終了したため、ユーザーはOpenClawエージェントをClaude Codeに移行する必要がありました。ある開発者は、Maxサブスクリプションで稼働していた17のエージェント(10のプラットフォームプロモーションエージェントと7のコンテンツパイプラインcron)を約4時間で移行することに成功しました。

ディスパッチャーパターンを使用してClaude APIコストを95%削減
ある開発者は、Claude Maxサブスクリプションで利用できるClaude Code CLIに重い作業を委譲するディスパッチャーパターンを実装することで、Claude APIのコストを月800〜2,000ドルから約215ドルに削減しました。オーケストレーションには最小限のAPIトークンのみを使用しています。

小型本地模型运行编码代理时会出现什么问题
7B未満のモデルでマルチファイルタスクをテストした際の実際の障害ポイント:マークダウンフェンス、構造化出力の信頼性、ファイル編集エラー、読み取り/書き込みアクションの分類。