Qwen3.5-122B Blackwell SM120: Corrupción Caché KV fp8 y 2.75x Aceleración

Hallazgos clave de las pruebas de Qwen3.5-122B en Blackwell SM120

Una prueba detallada de Qwen3.5-122B en hardware 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) con SGLang reveló problemas críticos de configuración y características de rendimiento. El hallazgo más significativo: fp8_e4m3 KV cache no falla, pero produce silenciosamente salidas corruptas sin errores ni advertencias, solo signos de exclamación y repetición en lugar de respuestas adecuadas. La única solución es usar bf16 KV cache en su lugar.

Requisitos de configuración

Las capas DeltaNet en Qwen3.5-122B añaden restricciones que los modelos MoE estándar no tienen. La configuración requirió 6 banderas específicas del backend Triton en hardware SM120:

Atención forzada a Triton (para capas DeltaNet)
Caché KV forzada a bf16 (fp8 corrompe la salida)
Sin gráficos CUDA (debido a desbordamiento SMEM de Triton)
Sin HiCache (incompatible con DeltaNet)

Esto contrasta con las pruebas de M2.5 en el mismo hardware, que solo necesitaron 2 banderas del backend Triton.

Puntos de referencia de rendimiento

Todas las pruebas utilizaron el mismo hardware y metodología con SGLang nightly (cu13 20260219), TP=8:

Tok/s en ráfaga: 1,985 vs 1,818 (Qwen3.5-122B vs M2.5)
En línea 4 rps: 310 vs 404
En línea 8 rps: 514 vs 744
Tok/s por solicitud única: ~25 (con MTP) vs 72
Calidad Arena-Hard: 6.99/10 vs 4.94/10 (evaluado por Claude Opus 4.6, no comparable con resultados del ranking)

Resultados de optimización

De las rutas de optimización probadas, MTP (Predicción Multi-Token) fue la única que mejoró materialmente el rendimiento, proporcionando una aceleración de 2.75x en solicitudes únicas (~9 a ~25 tok/s). Otras optimizaciones disponibles en hardware SM120 - caché KV FP8, gráficos CUDA y HiCache - fueron bloqueadas por las restricciones de DeltaNet en Qwen3.5-122B.

Qwen3.5-122B gana en rendimiento de ráfaga y métricas de calidad, mientras que M2.5 aún gana en cada métrica de servicio sostenido debido a poder usar las optimizaciones que el DeltaNet de Qwen3.5-122B bloquea.

Los resultados completos, la matriz de compatibilidad, los comandos exactos de reproducción y todos los artefactos JSONL están disponibles en el problema de GitHub enlazado a continuación.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-122B en Blackwell SM120: Problema de Corrupción de Caché KV fp8 y Hallazgos de Rendimiento

Hallazgos clave de las pruebas de Qwen3.5-122B en Blackwell SM120

Requisitos de configuración

Puntos de referencia de rendimiento

Resultados de optimización

👀 Ver también

xAI pierde desafío legal contra la ley de divulgación de datos de IA en California

Actualizaciones de abril de OpenClaw: Un mes de cambios radicales y confianza erosionada

OpenClaw 5.4 Agrega Comandos /steer y /side: Redirige al Agente a Mitad de Tarea Sin Perder Contexto

El Curso de Transformadores CS25 de Stanford se Abre al Público con Transmisión en Vivo