Qwen3.5-122B sur Blackwell SM120 : Problème de corruption du cache KV en fp8 et résultats de performance

Principales découvertes des tests Qwen3.5-122B sur Blackwell SM120
Un test détaillé de Qwen3.5-122B sur du matériel 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) avec SGLang a révélé des problèmes de configuration critiques et des caractéristiques de performance. La découverte la plus significative : le cache KV fp8_e4m3 ne plante pas, mais produit silencieusement des sorties corrompues sans erreurs ni avertissements - juste des points d'exclamation et des répétitions au lieu de réponses correctes. La seule solution est d'utiliser plutôt le cache KV bf16.
Exigences de configuration
Les couches DeltaNet dans Qwen3.5-122B ajoutent des contraintes que les modèles MoE standard n'ont pas. La configuration a nécessité 6 drapeaux spécifiques du backend Triton sur le matériel SM120 :
- Backend d'attention forcé à Triton (pour les couches DeltaNet)
- Cache KV forcé en bf16 (le fp8 corrompt la sortie)
- Pas de graphes CUDA (en raison du dépassement de mémoire partagée Triton)
- Pas de HiCache (incompatible avec DeltaNet)
Cela contraste avec les tests M2.5 sur le même matériel, qui n'avaient besoin que de 2 drapeaux du backend Triton.
Benchmarks de performance
Tous les tests ont utilisé le même matériel et la même méthodologie avec SGLang nightly (cu13 20260219), TP=8 :
- Tok/s en rafale : 1 985 vs 1 818 (Qwen3.5-122B vs M2.5)
- En ligne 4 rps : 310 vs 404
- En ligne 8 rps : 514 vs 744
- Tok/s par requête unique : ~25 (avec MTP) vs 72
- Qualité Arena-Hard : 6,99/10 vs 4,94/10 (évaluée par Claude Opus 4.6, non comparable aux résultats du classement)
Résultats d'optimisation
Parmi les voies d'optimisation testées, MTP (Multi-Token Prediction) était la seule à améliorer significativement les performances, offrant une accélération de 2,75x pour les requêtes uniques (~9 à ~25 tok/s). Les autres optimisations disponibles sur le matériel SM120 - cache KV FP8, graphes CUDA et HiCache - ont été bloquées par les contraintes de DeltaNet dans Qwen3.5-122B.
Qwen3.5-122B l'emporte sur le débit en rafale et les métriques de qualité, tandis que M2.5 reste supérieur sur toutes les métriques de service soutenu grâce à sa capacité à utiliser les optimisations que le DeltaNet de Qwen3.5-122B bloque.
Les résultats complets, la matrice de compatibilité, les commandes de reproduction exactes et tous les artefacts JSONL sont disponibles dans l'issue GitHub liée ci-dessous.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Les ventes de cartes mères s'effondrent de plus de 25 % alors que la production de puces IA évince les composants PC grand public
Asus, Gigabyte, MSI et ASRock réduisent tous leurs objectifs d'expédition de cartes mères pour 2026 de 22 à 37 %, alors que les fabricants de puces privilégient la production de processeurs IA, entraînant des pénuries de composants et des hausses de prix.

Claude.ai actuellement hors service, erreurs API en hausse — 28 avril 2026
Une mise à jour automatique déclenchée depuis la page de statut officielle de Claude signale que Claude.ai est indisponible et que l'API connaît des taux d'erreur élevés depuis le 28 avril 2026 à 17:51:36 UTC.

Un pote refuse un poste à plus de 300 000 $ qui remplacerait 70 % du personnel par des agents Claude — Reddit débat de la réalité morale et technique
Un post Reddit décrit un ami qui a refusé un poste de « Responsable de la transition IA » pour cartographier les flux de travail, construire des pipelines d'agents Claude/GPT et licencier 70 % du personnel. L'auteur soutient que les 300 000 $ et plus valent la peine de perdre du temps et de regarder la direction se planter dans son délire.

Préoccupations concernant la visibilité des coûts de l'API Claude pour les développeurs indépendants
Une discussion sur Reddit souligne que l'absence de suivi granulaire des coûts de l'API Claude Sonnet pourrait pousser les développeurs indépendants à l'abandonner malgré sa qualité, avec des factures de 400 à 900 dollars les prenant au dépourvu en raison d'une observabilité insuffisante comparée au monitoring de type AWS.