Qwen3.5-27B ローカル構築：vLLM vs llama.cpp 比較とベンチマーク

Qwen3.5-27Bの性能と能力

Qwen3.5-27Bモデルは、ソースによると様々なベンチマークで強力な性能を示しています：MMLU-Pro: 85.3、MMLU-Redux: 93.3、C-Eval: 90.2、総合知能スコア: 42.1（比較モデルの91%を上回る）、コーディング指数: 34.9（コーディング能力で88%をトップ）。このモデルは、ネイティブ262kコンテキストで1M+トークンまで拡張可能な密なアーキテクチャを特徴としています。

バックエンド比較：llama.cpp vs vLLM

ソースでは、ローカルデプロイメントの2つの主要なアプローチを比較しています：

オプション1：llama.cpp

利点：フットプリントが小さい、セットアップが簡単、合理的なVRAM使用量のためのq4 KVキャッシュをサポート
欠点：KVキャッシュがランダムに消去される重大な問題があり、セッション中に完全なプロンプトの再処理を強制される。MTPによる推測デコードは機能しない。確固たる修正策のない既知のバグ。

オプション2：vLLM

利点：安定したセッション、KV消去なし、より高速な生成のためのMTPによる推測デコードをサポート
欠点：q4 KVサポートがないため、256kコンテキストでVRAMが急増する。v0.17.1ではQwen3.5のツールコール解析がバグっており、修正はGitHubのオープンプルリクエストにあるがまだマージされていない。これにより、不正なJSON出力でエージェント型コーディングフローが壊れる。

推奨されるvLLM設定

ソースでは、HFのモデルosoleve/Qwen3.5-27B-Text-NVFP4-MTPを使用した安定した高速実行のための具体的な設定推奨事項を提供しています：

最適化されたパフォーマンスのためにflashinfer cutlassバックエンドを使用
コンテキストウィンドウを128kに設定（VRAMと使いやすさのバランス；ハードウェアがあれば256kに引き上げ）
OOMクラッシュを避けるためにGPU使用率を0.82に制限
max-num-seqを2に設定（過剰コミットせずに単一セッションを適切に処理）
速度向上のためにMTP推測デコードを有効化
オープンプルリクエストからQwenツールコール解析修正でvLLMにパッチを適用
Claudeコードcliを使用 - オープンコードにはパッチ適用後もツールコール解析の問題が残るが、Claudeコードでは発生しない

性能結果

ソースによると、性能はハードウェアによって異なります：

RTX 5090（32GB VRAM）上：約50 TPS
RTX Pro 6000（96GB VRAM）上：完全な256kコンテキストで70 TPS

📖 完全なソースを読む： r/LocalLLaMA

Qwen3.5-27Bのローカル環境構築：vLLMとllama.cppの比較

Qwen3.5-27Bの性能と能力

バックエンド比較：llama.cpp vs vLLM

オプション1：llama.cpp

オプション2：vLLM

推奨されるvLLM設定

性能結果

👀 See Also

OpenClawにおけるGemini CLI write_file未検出問題：二つの修正が必要

Claude VS Code拡張機能のエラー修正：「command claude-vscode.editor.openLast not found」

AIエージェントのためのCLIデザインパターン：誤解と実践的アプローチ

OpenClaw Project Operating System：マルチプロジェクト管理フレームワーク