Qwen3.5-122B Blackwell SM120 : Cache KV fp8 corrompu, perf MTP 2.75x

Principales découvertes des tests Qwen3.5-122B sur Blackwell SM120

Un test détaillé de Qwen3.5-122B sur du matériel 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) avec SGLang a révélé des problèmes de configuration critiques et des caractéristiques de performance. La découverte la plus significative : le cache KV fp8_e4m3 ne plante pas, mais produit silencieusement des sorties corrompues sans erreurs ni avertissements - juste des points d'exclamation et des répétitions au lieu de réponses correctes. La seule solution est d'utiliser plutôt le cache KV bf16.

Exigences de configuration

Les couches DeltaNet dans Qwen3.5-122B ajoutent des contraintes que les modèles MoE standard n'ont pas. La configuration a nécessité 6 drapeaux spécifiques du backend Triton sur le matériel SM120 :

Backend d'attention forcé à Triton (pour les couches DeltaNet)
Cache KV forcé en bf16 (le fp8 corrompt la sortie)
Pas de graphes CUDA (en raison du dépassement de mémoire partagée Triton)
Pas de HiCache (incompatible avec DeltaNet)

Cela contraste avec les tests M2.5 sur le même matériel, qui n'avaient besoin que de 2 drapeaux du backend Triton.

Benchmarks de performance

Tous les tests ont utilisé le même matériel et la même méthodologie avec SGLang nightly (cu13 20260219), TP=8 :

Tok/s en rafale : 1 985 vs 1 818 (Qwen3.5-122B vs M2.5)
En ligne 4 rps : 310 vs 404
En ligne 8 rps : 514 vs 744
Tok/s par requête unique : ~25 (avec MTP) vs 72
Qualité Arena-Hard : 6,99/10 vs 4,94/10 (évaluée par Claude Opus 4.6, non comparable aux résultats du classement)

Résultats d'optimisation

Parmi les voies d'optimisation testées, MTP (Multi-Token Prediction) était la seule à améliorer significativement les performances, offrant une accélération de 2,75x pour les requêtes uniques (~9 à ~25 tok/s). Les autres optimisations disponibles sur le matériel SM120 - cache KV FP8, graphes CUDA et HiCache - ont été bloquées par les contraintes de DeltaNet dans Qwen3.5-122B.

Qwen3.5-122B l'emporte sur le débit en rafale et les métriques de qualité, tandis que M2.5 reste supérieur sur toutes les métriques de service soutenu grâce à sa capacité à utiliser les optimisations que le DeltaNet de Qwen3.5-122B bloque.

Les résultats complets, la matrice de compatibilité, les commandes de reproduction exactes et tous les artefacts JSONL sont disponibles dans l'issue GitHub liée ci-dessous.

📖 Lire la source complète : r/LocalLLaMA

Qwen3.5-122B sur Blackwell SM120 : Problème de corruption du cache KV en fp8 et résultats de performance

Principales découvertes des tests Qwen3.5-122B sur Blackwell SM120

Exigences de configuration

Benchmarks de performance

Résultats d'optimisation

👀 See Also

Opus 4.6 excelle dans la recherche, Gemini 3.1 Pro a un meilleur jugement dans le benchmark de prévision

Claude Code v2.1.145 : liste des agents JSON, corrections de spans OTEL, correctif de sécurité et plus

Évaluation des compétences de Claude et tests de régression avec l'agent Snowflake Cortex

Kimi 19$/mo Mise à jour : Amélioration d'OpenClaw avec des modèles structurés