Qwen3.5-122B auf Blackwell: fp8-KV-Cache-Korruptionsfix

Wichtigste Erkenntnisse aus Qwen3.5-122B-Tests auf Blackwell SM120

Ein detaillierter Test von Qwen3.5-122B auf 8x RTX PRO 6000 Blackwell-Hardware (AWS g7e.48xlarge, SM120) mit SGLang offenbarte kritische Konfigurationsprobleme und Leistungsmerkmale. Die bedeutendste Erkenntnis: fp8_e4m3 KV cache stürzt nicht ab, erzeugt aber stillschweigend fehlerhafte Ausgaben ohne Fehler oder Warnungen – stattdessen Ausrufezeichen und Wiederholungen anstelle korrekter Antworten. Die einzige Lösung ist die Verwendung von bf16 KV cache.

Konfigurationsanforderungen

DeltaNet-Schichten in Qwen3.5-122B fügen Einschränkungen hinzu, die Standard-MoE-Modelle nicht haben. Das Setup erforderte 6 spezifische Triton-Backend-Flags auf SM120-Hardware:

Attention-Backend auf Triton erzwungen (für DeltaNet-Schichten)
KV-Cache auf bf16 erzwungen (fp8 beschädigt Ausgaben)
Keine CUDA-Graphs (aufgrund von Triton-SMEM-Überlauf)
Kein HiCache (mit DeltaNet inkompatibel)

Dies steht im Gegensatz zu M2.5-Tests auf derselben Hardware, die nur 2 Triton-Backend-Flags benötigten.

Leistungsbenchmarks

Alle Tests verwendeten dieselbe Hardware und Methodik mit SGLang Nightly (cu13 20260219), TP=8:

Burst-Tokens/s: 1.985 vs. 1.818 (Qwen3.5-122B vs. M2.5)
Online 4 rps: 310 vs. 404
Online 8 rps: 514 vs. 744
Einzelanfrage-Tokens/s: ~25 (mit MTP) vs. 72
Arena-Hard-Qualität: 6,99/10 vs. 4,94/10 (bewertet von Claude Opus 4.6, nicht vergleichbar mit Leaderboard-Ergebnissen)

Optimierungsergebnisse

Von den getesteten Optimierungspfaden war MTP (Multi-Token Prediction) der einzige, der die Leistung spürbar verbesserte, mit einer 2,75-fachen Beschleunigung bei Einzelanfragen (~9 auf ~25 Tokens/s). Andere auf SM120-Hardware verfügbare Optimierungen – FP8-KV-Cache, CUDA-Graphs und HiCache – wurden durch DeltaNet-Einschränkungen in Qwen3.5-122B blockiert.

Qwen3.5-122B gewinnt bei Burst-Durchsatz und Qualitätsmetriken, während M2.5 aufgrund der Nutzbarkeit der Optimierungen, die Qwen3.5-122Bs DeltaNet blockiert, weiterhin bei jedem nachhaltigen Serving-Metrik führt.

Vollständige Ergebnisse, Kompatibilitätsmatrix, exakte Reproduktionsbefehle und alle JSONL-Artefakte sind im unten verlinkten GitHub-Issue verfügbar.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-122B auf Blackwell SM120: fp8-KV-Cache-Korruptionsproblem und Leistungsbefunde

Wichtigste Erkenntnisse aus Qwen3.5-122B-Tests auf Blackwell SM120

Konfigurationsanforderungen

Leistungsbenchmarks

Optimierungsergebnisse

👀 Siehe auch

Cambridge-Forscher entwickeln Hafniumoxid-Memristor für energieeffiziente KI-Chips

"Untersuchen, welche Dateien im Kontextfenster eines Telegram-Chats enthalten sind"

ChatGPT Workspace Agents kostenlose Vorschau endet heute — Vergleich mit OpenClaw und Hermes

Drei inverse Gesetze der Robotik: Menschliche Leitlinien für die KI-Nutzung