RTX 3090におけるQwenモデルのHVACビジネス用途向け推論的デコードベンチマーク

ハードウェアとセットアップ
開発者は、RTX 3090 24GB、Ryzen 7600X、32GB RAM、WSL2 Ubuntuを使用しました。Windows上のOllamaから、顧客検索、見積書フォーマット、機器調査、乱雑な作業メモの解析を処理する内部AIプラットフォーム向けに、投機的デコードを備えたWSL Linux上のllama.cppに移行しました。
テスト方法
Qwen2.5、Qwen3、Qwen3.5ファミリーの16のGGUFモデルをテストし、24GB VRAMに収まるすべてのターゲット+ドラフトの組み合わせ、クロス世代のドラフトペアリング(Qwen2.5ドラフトをQwen3ターゲットで、その逆も)、そしてすべての組み合わせでVRAMを監視してCPUオフロードを検出しました。品質評価では、SQL生成、見積書フォーマット、乱雑なフィールドメモの解析、機器互換性の推論のための実際のHVAC事業用プロンプトを使用しました。速度スイープにはdraftbenchとllama-throughput-labを使用し、Claude Codeでプロセスを自動化して一晩中実行しました。
最高速度結果
- Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279.9 tok/s (+236% 高速化, 13.6 GB VRAM)
- Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205.4 tok/s (+50% 高速化, ~6 GB VRAM)
- Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190.5 tok/s (+129% 高速化, 12.9 GB VRAM)
- Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159.1 tok/s (+115% 高速化, 13.5 GB VRAM)
- Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137.5 tok/s (+186% 高速化, ~16 GB VRAM)
- Qwen3.5-35B-A3B Q4_K_M (ベースライン, ドラフトなし): 133.6 tok/s (22 GB VRAM)
- Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91.0 tok/s (+156% 高速化, ~20 GB VRAM)
Qwen3-8B + 1.7Bドラフトの組み合わせは100%の受け入れ率を達成しました—1.7Bが8Bが生成するであろうものを正確に予測する完璧なドラフト一致です。
Qwen3.5思考モードの問題
Qwen3.5モデルは、llama.cpp上でデフォルトで思考モードに入り、応答前に隠れた推論トークンを生成します。これにより、ベンチマーク結果が不安定になりました:0 tok/sと700 tok/sが交互に現れ、TTFTが1秒と28秒の間で跳ね上がりました。これを無効にするには、以下の3つの方法のみが有効でした:
--jinja+enable_thinking=falseをハードコードしたパッチ適用済みチャットテンプレート ✅- 生の
/completionエンドポイント(チャットテンプレートを完全にバイパス) ✅ - その他すべて(システムプロンプト、
/no_thinkサフィックス、温度トリック) ❌
llama.cppでQwen3.5を実行する場合、パッチ適用済みテンプレートが必要です。そうしないと、ベンチマーク結果が無意味になります。
品質評価の結果
曖昧な顧客リクエスト、複雑な見積書、タイプミスを含む乱雑なメモ、機器互換性の推論をテストする4つの難しいHVAC固有のプロンプトを実行しました。主な結果は以下の通りです:
- すべてのモデルが価格計算式の数学に失敗しました:8B、14B、32B、35B—どれも$4,811 / (1 - 0.47) = $9,077を正しく計算できませんでした。LLMはビジネス数学を確実に処理できません—計算式はコードに組み込んでください。
- 8Bは4つの難しいプロンプトのうち3つを処理しました—曖昧なリクエスト、乱雑なメモ、日常業務に優れていましたが、技術的な機器推論では失敗しました。
- 35B-A3Bは、実際のHVAC分野の知識を持つ唯一のモデルでした—断熱されていないシカゴのガレージに適したミニスプリットのサイズを正しく決定し、寒冷気候向けにHyper-Heatシリーズを推奨することを知っており、単一ゾーンではブランチボックスが不要であると正しく述べました—しかし、乱雑なメモでモデル番号を見逃し、計算も失敗しました。
- 大きいことが必ずしも良いとは限りません:Qwen3-14B Q4_K_M (159 tok/s)は、ほとんどのプロンプトで8Bよりも性能が劣りました。32Bは400平方フィートのガレージに5トンのユニットを推奨しました。
- Qwen2.5-7Bは、すべてのメモ解析テストで幻覚を起こしました—一貫して詳細をでっち上げました。
📖 Read the full source: r/LocalLLaMA
👀 See Also

開発者が並列Claudeコードセッションのために仕様書から提案書へ切り替え
開発者が、5〜10のClaude Codeセッションを並行して実行する際に仕様書ではなく提案書を使用するワークフローを共有しています。詳細な仕様書からAIが生成する、技術的には正しいが文脈的に間違ったコードという問題に対処しています。

開発者がXanoとBoltを使用したClaude AIでHIPAA準拠の医療アプリを構築
ある開発者が、HIPAA準拠の内部医療管理システムを、バックエンドにXano、フロントエンドにBoltというノーコードツールとClaude 4.6を使用して構築しました。フィールドレベルの暗号化、RBACミドルウェア、監査ログを実装しています。

OpenClawエージェントが、関係性に基づくナッジを備えた文脈的リマインダーを実装
OpenClawユーザーが、固定スケジュールではなくカレンダーの負荷、現在のタスク、時間帯に基づいてトリガーされるコンテキストリマインダーを備えたパーソナルエージェントシステムを構築しました。このシステムにはリマインダーのエスカレーションラダーが含まれており、関係性の履歴に基づいて人々に連絡することを提案するためにメモリ追跡を使用しています。

非エンジニアがClaude Codeで完全構築したiOSアプリ、App Storeにリリース
iOS開発経験のないプロダクトマネージャーが、Claude Codeだけで構築した写真ソートアプリ「SpectraSort」をリリースしました。このアプリは、オンデバイスAIを使用して品質ランキングと個人の好みを学習し、Neural Engineで約10枚/秒の処理を実現しています。