Qwen3.5-122B on Blackwell SM120: fp8 KVキャッシュの破損問題と性能調査結果

Blackwell SM120でのQwen3.5-122Bテストの主要な発見
8x RTX PRO 6000 Blackwellハードウェア(AWS g7e.48xlarge、SM120)とSGLangを使用したQwen3.5-122Bの詳細なテストにより、重要な設定問題とパフォーマンス特性が明らかになりました。最も重要な発見:fp8_e4m3 KVキャッシュはクラッシュせず、エラーや警告なしに壊れた出力を静かに生成します - 適切な回答の代わりに感嘆符や繰り返しが発生します。唯一の修正方法は、代わりにbf16 KVキャッシュを使用することです。
設定要件
Qwen3.5-122BのDeltaNet層は、標準的なMoEモデルにはない制約を追加します。SM120ハードウェアでは、6つの特定のTritonバックエンドフラグが必要でした:
- AttentionバックエンドをTritonに強制(DeltaNet層用)
- KVキャッシュをbf16に強制(fp8は出力を破損)
- CUDAグラフなし(Triton SMEMオーバーフローのため)
- HiCacheなし(DeltaNet非互換)
これは、同じハードウェアでのM2.5テストとは対照的で、M2.5ではTritonバックエンドフラグが2つしか必要ありませんでした。
パフォーマンスベンチマーク
すべてのテストは、同じハードウェアと方法論でSGLang nightly(cu13 20260219)、TP=8を使用:
- バーストtok/s:1,985 vs 1,818(Qwen3.5-122B vs M2.5)
- オンライン4 rps:310 vs 404
- オンライン8 rps:514 vs 744
- 単一リクエストtok/s:〜25(MTP使用時)vs 72
- Arena-Hard品質:6.99/10 vs 4.94/10(Claude Opus 4.6による判定、リーダーボード結果と比較不可)
最適化結果
テストされた最適化パスのうち、MTP(マルチトークン予測)のみが実質的にパフォーマンスを向上させ、単一リクエストの速度を2.75倍向上させました(〜9から〜25 tok/s)。SM120ハードウェアで利用可能な他の最適化 - FP8 KVキャッシュ、CUDAグラフ、HiCache - は、Qwen3.5-122BのDeltaNet制約によってブロックされました。
Qwen3.5-122Bはバーストスループットと品質指標で優れていますが、M2.5はQwen3.5-122BのDeltaNetがブロックする最適化を利用できるため、すべての持続的サービング指標で依然として優れています。
完全な結果、互換性マトリックス、正確な再現コマンド、およびすべてのJSONL成果物は、以下のGitHubイシューリンクで利用可能です。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

アップルのAI戦略と知性の商品化
この記事は、知性が商品化される中で、Appleの保守的なAIへのアプローチが有利になる可能性があると論じています。例えば、Gemma4のようなモデルはスマートフォン上で動作しながらMMLU Proで85.2%を達成し、OpenAIのSoraは1日あたり210万ドルの収益に対して1500万ドルのコストがかかっています。

Claude Code OAuthログインのWindowsでのタイムアウトバグ
Claude Codeバージョン2.1.92には、WindowsユーザーがOAuthログイン時に15000msのタイムアウトエラーが発生し、AIコーディングアシスタントへのアクセスを完全にブロックするバグがあります。

Claude.ai 現在ダウン中、APIエラー増加 — 2026年4月28日
Claudeの公式ステータスページからトリガーされた自動ステータス更新により、2026-04-28T17:51:36.000Z時点でClaude.aiが利用不可、APIでエラー率が上昇していることが報告されています。

中国のDeepSeek、Qwen、Moonshot:手頃なAIモデルが米国の支配を脅かす
ブルームバーグは、中国のAIモデルDeepSeek、Qwen、Moonshotが低コストにより注目を集め、米国のAIリーダーに挑戦していると報じている。