Qwen3.5-27Bのローカル環境構築:vLLMとllama.cppの比較

Qwen3.5-27Bの性能と能力
Qwen3.5-27Bモデルは、ソースによると様々なベンチマークで強力な性能を示しています:MMLU-Pro: 85.3、MMLU-Redux: 93.3、C-Eval: 90.2、総合知能スコア: 42.1(比較モデルの91%を上回る)、コーディング指数: 34.9(コーディング能力で88%をトップ)。このモデルは、ネイティブ262kコンテキストで1M+トークンまで拡張可能な密なアーキテクチャを特徴としています。
バックエンド比較:llama.cpp vs vLLM
ソースでは、ローカルデプロイメントの2つの主要なアプローチを比較しています:
オプション1:llama.cpp
- 利点:フットプリントが小さい、セットアップが簡単、合理的なVRAM使用量のためのq4 KVキャッシュをサポート
- 欠点:KVキャッシュがランダムに消去される重大な問題があり、セッション中に完全なプロンプトの再処理を強制される。MTPによる推測デコードは機能しない。確固たる修正策のない既知のバグ。
オプション2:vLLM
- 利点:安定したセッション、KV消去なし、より高速な生成のためのMTPによる推測デコードをサポート
- 欠点:q4 KVサポートがないため、256kコンテキストでVRAMが急増する。v0.17.1ではQwen3.5のツールコール解析がバグっており、修正はGitHubのオープンプルリクエストにあるがまだマージされていない。これにより、不正なJSON出力でエージェント型コーディングフローが壊れる。
推奨されるvLLM設定
ソースでは、HFのモデルosoleve/Qwen3.5-27B-Text-NVFP4-MTPを使用した安定した高速実行のための具体的な設定推奨事項を提供しています:
- 最適化されたパフォーマンスのためにflashinfer cutlassバックエンドを使用
- コンテキストウィンドウを128kに設定(VRAMと使いやすさのバランス;ハードウェアがあれば256kに引き上げ)
- OOMクラッシュを避けるためにGPU使用率を0.82に制限
- max-num-seqを2に設定(過剰コミットせずに単一セッションを適切に処理)
- 速度向上のためにMTP推測デコードを有効化
- オープンプルリクエストからQwenツールコール解析修正でvLLMにパッチを適用
- Claudeコードcliを使用 - オープンコードにはパッチ適用後もツールコール解析の問題が残るが、Claudeコードでは発生しない
性能結果
ソースによると、性能はハードウェアによって異なります:
- RTX 5090(32GB VRAM)上:約50 TPS
- RTX Pro 6000(96GB VRAM)上:完全な256kコンテキストで70 TPS
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

ホスティンガーVPSでのOpenClawセットアップガイド
Hostinger VPSでのOpenClawのデプロイ、OpenAIとEntropicsのAI API接続、24時間稼働のためのTelegram連携に関するステップバイステップガイド

OmniCoder-9Bをローカルで実行するためのllama.cpp設定詳細
開発者が、中程度のハードウェルで特定のllama.cppフラグ(--reasoning-budget 0を含む)を使用して、OmniCoder-9Bで平均96.7%のHumanEvalスコアを達成しました。この設定では、Q6_K量子化モデルをRTX 3080(10GB VRAM)で実行しました。

ローカルLLMとクラウドLLMの一貫したベンチマーク手法
開発者が、llama.cpp、vLLM、Ollamaなどのローカルモデルと、GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 ProなどのクラウドAPIを、ZenMuxのような統一エンドポイントを通じて比較するために、順次リクエストとルールベースのスコアリングを使用した測定セットアップを共有しています。

複数の実プロジェクトを生き抜いたClaudeのコード構造
開発者が、複数のスキル、MCPサーバー、エージェントを備えたClaude Codeのセットアップを共有。2〜3件の実際のプロジェクトで安定して機能した。主な発見は、CLAUDE MDの使用による一貫性の確保、意図によるスキルの分割、フックの実装、コンテキスト使用率を60%以下に抑えること。