Qwen3.5-122B auf Blackwell SM120: fp8-KV-Cache-Korruptionsproblem und Leistungsbefunde

Wichtigste Erkenntnisse aus Qwen3.5-122B-Tests auf Blackwell SM120
Ein detaillierter Test von Qwen3.5-122B auf 8x RTX PRO 6000 Blackwell-Hardware (AWS g7e.48xlarge, SM120) mit SGLang offenbarte kritische Konfigurationsprobleme und Leistungsmerkmale. Die bedeutendste Erkenntnis: fp8_e4m3 KV cache stürzt nicht ab, erzeugt aber stillschweigend fehlerhafte Ausgaben ohne Fehler oder Warnungen – stattdessen Ausrufezeichen und Wiederholungen anstelle korrekter Antworten. Die einzige Lösung ist die Verwendung von bf16 KV cache.
Konfigurationsanforderungen
DeltaNet-Schichten in Qwen3.5-122B fügen Einschränkungen hinzu, die Standard-MoE-Modelle nicht haben. Das Setup erforderte 6 spezifische Triton-Backend-Flags auf SM120-Hardware:
- Attention-Backend auf Triton erzwungen (für DeltaNet-Schichten)
- KV-Cache auf bf16 erzwungen (fp8 beschädigt Ausgaben)
- Keine CUDA-Graphs (aufgrund von Triton-SMEM-Überlauf)
- Kein HiCache (mit DeltaNet inkompatibel)
Dies steht im Gegensatz zu M2.5-Tests auf derselben Hardware, die nur 2 Triton-Backend-Flags benötigten.
Leistungsbenchmarks
Alle Tests verwendeten dieselbe Hardware und Methodik mit SGLang Nightly (cu13 20260219), TP=8:
- Burst-Tokens/s: 1.985 vs. 1.818 (Qwen3.5-122B vs. M2.5)
- Online 4 rps: 310 vs. 404
- Online 8 rps: 514 vs. 744
- Einzelanfrage-Tokens/s: ~25 (mit MTP) vs. 72
- Arena-Hard-Qualität: 6,99/10 vs. 4,94/10 (bewertet von Claude Opus 4.6, nicht vergleichbar mit Leaderboard-Ergebnissen)
Optimierungsergebnisse
Von den getesteten Optimierungspfaden war MTP (Multi-Token Prediction) der einzige, der die Leistung spürbar verbesserte, mit einer 2,75-fachen Beschleunigung bei Einzelanfragen (~9 auf ~25 Tokens/s). Andere auf SM120-Hardware verfügbare Optimierungen – FP8-KV-Cache, CUDA-Graphs und HiCache – wurden durch DeltaNet-Einschränkungen in Qwen3.5-122B blockiert.
Qwen3.5-122B gewinnt bei Burst-Durchsatz und Qualitätsmetriken, während M2.5 aufgrund der Nutzbarkeit der Optimierungen, die Qwen3.5-122Bs DeltaNet blockiert, weiterhin bei jedem nachhaltigen Serving-Metrik führt.
Vollständige Ergebnisse, Kompatibilitätsmatrix, exakte Reproduktionsbefehle und alle JSONL-Artefakte sind im unten verlinkten GitHub-Issue verfügbar.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Cambridge-Forscher entwickeln Hafniumoxid-Memristor für energieeffiziente KI-Chips
Forscher der Universität Cambridge haben einen auf Hafniumoxid basierenden Memristor entwickelt, der Ströme eine Million Mal niedriger schaltet als herkömmliche Oxidgeräte, was den Energieverbrauch von KI-Hardware potenziell um bis zu 70 % reduzieren könnte.

"Untersuchen, welche Dateien im Kontextfenster eines Telegram-Chats enthalten sind"
Begleiten Sie uns, während wir das Verständnis dafür vertiefen, welche Dateien Teil des Kontextfensters eines Telegram-Chats sind und Ihr operatives Wissen erweitern.

ChatGPT Workspace Agents kostenlose Vorschau endet heute — Vergleich mit OpenClaw und Hermes
Die kostenlose Vorschau von OpenAIs ChatGPT Workspace Agents endet am 6. Mai, danach gilt eine kreditbasierte Preisgestaltung. Der Reddit-Beitrag vergleicht sie mit OpenClaw, Hermes und verwalteten Plattformen wie BetterClaw für Team- vs. persönliche Nutzung.

Drei inverse Gesetze der Robotik: Menschliche Leitlinien für die KI-Nutzung
Susam Pal schlägt drei inverse Gesetze der Robotik für Menschen vor: KI nicht vermenschlichen, ihre Ausgaben nicht blind vertrauen und vollständig verantwortlich bleiben. Praktische Warnungen vor übermäßigem Vertrauen in generative KI.