Qwen3.5-122B on Blackwell SM120: fp8 KVキャッシュの破損問題と性能調査結果

✍️ OpenClawRadar📅 公開日: March 1, 2026🔗 Source
Qwen3.5-122B on Blackwell SM120: fp8 KVキャッシュの破損問題と性能調査結果
Ad

Blackwell SM120でのQwen3.5-122Bテストの主要な発見

8x RTX PRO 6000 Blackwellハードウェア(AWS g7e.48xlarge、SM120)とSGLangを使用したQwen3.5-122Bの詳細なテストにより、重要な設定問題とパフォーマンス特性が明らかになりました。最も重要な発見:fp8_e4m3 KVキャッシュはクラッシュせず、エラーや警告なしに壊れた出力を静かに生成します - 適切な回答の代わりに感嘆符や繰り返しが発生します。唯一の修正方法は、代わりにbf16 KVキャッシュを使用することです。

設定要件

Qwen3.5-122BのDeltaNet層は、標準的なMoEモデルにはない制約を追加します。SM120ハードウェアでは、6つの特定のTritonバックエンドフラグが必要でした:

  • AttentionバックエンドをTritonに強制(DeltaNet層用)
  • KVキャッシュをbf16に強制(fp8は出力を破損)
  • CUDAグラフなし(Triton SMEMオーバーフローのため)
  • HiCacheなし(DeltaNet非互換)

これは、同じハードウェアでのM2.5テストとは対照的で、M2.5ではTritonバックエンドフラグが2つしか必要ありませんでした。

Ad

パフォーマンスベンチマーク

すべてのテストは、同じハードウェアと方法論でSGLang nightly(cu13 20260219)、TP=8を使用:

  • バーストtok/s:1,985 vs 1,818(Qwen3.5-122B vs M2.5)
  • オンライン4 rps:310 vs 404
  • オンライン8 rps:514 vs 744
  • 単一リクエストtok/s:〜25(MTP使用時)vs 72
  • Arena-Hard品質:6.99/10 vs 4.94/10(Claude Opus 4.6による判定、リーダーボード結果と比較不可)

最適化結果

テストされた最適化パスのうち、MTP(マルチトークン予測)のみが実質的にパフォーマンスを向上させ、単一リクエストの速度を2.75倍向上させました(〜9から〜25 tok/s)。SM120ハードウェアで利用可能な他の最適化 - FP8 KVキャッシュ、CUDAグラフ、HiCache - は、Qwen3.5-122BのDeltaNet制約によってブロックされました。

Qwen3.5-122Bはバーストスループットと品質指標で優れていますが、M2.5はQwen3.5-122BのDeltaNetがブロックする最適化を利用できるため、すべての持続的サービング指標で依然として優れています。

完全な結果、互換性マトリックス、正確な再現コマンド、およびすべてのJSONL成果物は、以下のGitHubイシューリンクで利用可能です。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also