Qwen3.5-122B on Blackwell SM120: FP8 KV Cache Corruption & Performance

Blackwell SM120でのQwen3.5-122Bテストの主要な発見

8x RTX PRO 6000 Blackwellハードウェア（AWS g7e.48xlarge、SM120）とSGLangを使用したQwen3.5-122Bの詳細なテストにより、重要な設定問題とパフォーマンス特性が明らかになりました。最も重要な発見：fp8_e4m3 KVキャッシュはクラッシュせず、エラーや警告なしに壊れた出力を静かに生成します - 適切な回答の代わりに感嘆符や繰り返しが発生します。唯一の修正方法は、代わりにbf16 KVキャッシュを使用することです。

設定要件

Qwen3.5-122BのDeltaNet層は、標準的なMoEモデルにはない制約を追加します。SM120ハードウェアでは、6つの特定のTritonバックエンドフラグが必要でした：

AttentionバックエンドをTritonに強制（DeltaNet層用）
KVキャッシュをbf16に強制（fp8は出力を破損）
CUDAグラフなし（Triton SMEMオーバーフローのため）
HiCacheなし（DeltaNet非互換）

これは、同じハードウェアでのM2.5テストとは対照的で、M2.5ではTritonバックエンドフラグが2つしか必要ありませんでした。

パフォーマンスベンチマーク

すべてのテストは、同じハードウェアと方法論でSGLang nightly（cu13 20260219）、TP=8を使用：

バーストtok/s：1,985 vs 1,818（Qwen3.5-122B vs M2.5）
オンライン4 rps：310 vs 404
オンライン8 rps：514 vs 744
単一リクエストtok/s：〜25（MTP使用時）vs 72
Arena-Hard品質：6.99/10 vs 4.94/10（Claude Opus 4.6による判定、リーダーボード結果と比較不可）

最適化結果

テストされた最適化パスのうち、MTP（マルチトークン予測）のみが実質的にパフォーマンスを向上させ、単一リクエストの速度を2.75倍向上させました（〜9から〜25 tok/s）。SM120ハードウェアで利用可能な他の最適化 - FP8 KVキャッシュ、CUDAグラフ、HiCache - は、Qwen3.5-122BのDeltaNet制約によってブロックされました。

Qwen3.5-122Bはバーストスループットと品質指標で優れていますが、M2.5はQwen3.5-122BのDeltaNetがブロックする最適化を利用できるため、すべての持続的サービング指標で依然として優れています。

完全な結果、互換性マトリックス、正確な再現コマンド、およびすべてのJSONL成果物は、以下のGitHubイシューリンクで利用可能です。

📖 完全なソースを読む： r/LocalLLaMA