RTX 3090でQwen3投機的デコード：HVACボットが236%高速化

ハードウェアとセットアップ

開発者は、RTX 3090 24GB、Ryzen 7600X、32GB RAM、WSL2 Ubuntuを使用しました。Windows上のOllamaから、顧客検索、見積書フォーマット、機器調査、乱雑な作業メモの解析を処理する内部AIプラットフォーム向けに、投機的デコードを備えたWSL Linux上のllama.cppに移行しました。

テスト方法

Qwen2.5、Qwen3、Qwen3.5ファミリーの16のGGUFモデルをテストし、24GB VRAMに収まるすべてのターゲット+ドラフトの組み合わせ、クロス世代のドラフトペアリング（Qwen2.5ドラフトをQwen3ターゲットで、その逆も）、そしてすべての組み合わせでVRAMを監視してCPUオフロードを検出しました。品質評価では、SQL生成、見積書フォーマット、乱雑なフィールドメモの解析、機器互換性の推論のための実際のHVAC事業用プロンプトを使用しました。速度スイープにはdraftbenchとllama-throughput-labを使用し、Claude Codeでプロセスを自動化して一晩中実行しました。

最高速度結果

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 tok/s (+236% 高速化, 13.6 GB VRAM)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 tok/s (+50% 高速化, ~6 GB VRAM)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 tok/s (+129% 高速化, 12.9 GB VRAM)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 tok/s (+115% 高速化, 13.5 GB VRAM)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 tok/s (+186% 高速化, ~16 GB VRAM)
Qwen3.5-35B-A3B Q4_K_M (ベースライン, ドラフトなし): 133.6 tok/s (22 GB VRAM)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 tok/s (+156% 高速化, ~20 GB VRAM)

Qwen3-8B + 1.7Bドラフトの組み合わせは100%の受け入れ率を達成しました—1.7Bが8Bが生成するであろうものを正確に予測する完璧なドラフト一致です。

Qwen3.5思考モードの問題

Qwen3.5モデルは、llama.cpp上でデフォルトで思考モードに入り、応答前に隠れた推論トークンを生成します。これにより、ベンチマーク結果が不安定になりました：0 tok/sと700 tok/sが交互に現れ、TTFTが1秒と28秒の間で跳ね上がりました。これを無効にするには、以下の3つの方法のみが有効でした：

--jinja + enable_thinking=falseをハードコードしたパッチ適用済みチャットテンプレート ✅
生の/completionエンドポイント（チャットテンプレートを完全にバイパス） ✅
その他すべて（システムプロンプト、/no_thinkサフィックス、温度トリック） ❌

llama.cppでQwen3.5を実行する場合、パッチ適用済みテンプレートが必要です。そうしないと、ベンチマーク結果が無意味になります。

品質評価の結果

曖昧な顧客リクエスト、複雑な見積書、タイプミスを含む乱雑なメモ、機器互換性の推論をテストする4つの難しいHVAC固有のプロンプトを実行しました。主な結果は以下の通りです：

すべてのモデルが価格計算式の数学に失敗しました：8B、14B、32B、35B—どれも$4,811 / (1 - 0.47) = $9,077を正しく計算できませんでした。LLMはビジネス数学を確実に処理できません—計算式はコードに組み込んでください。
8Bは4つの難しいプロンプトのうち3つを処理しました—曖昧なリクエスト、乱雑なメモ、日常業務に優れていましたが、技術的な機器推論では失敗しました。
35B-A3Bは、実際のHVAC分野の知識を持つ唯一のモデルでした—断熱されていないシカゴのガレージに適したミニスプリットのサイズを正しく決定し、寒冷気候向けにHyper-Heatシリーズを推奨することを知っており、単一ゾーンではブランチボックスが不要であると正しく述べました—しかし、乱雑なメモでモデル番号を見逃し、計算も失敗しました。
大きいことが必ずしも良いとは限りません：Qwen3-14B Q4_K_M (159 tok/s)は、ほとんどのプロンプトで8Bよりも性能が劣りました。32Bは400平方フィートのガレージに5トンのユニットを推奨しました。
Qwen2.5-7Bは、すべてのメモ解析テストで幻覚を起こしました—一貫して詳細をでっち上げました。

📖 Read the full source: r/LocalLLaMA