Qwen3.5-122B en Blackwell SM120: Problema de Corrupción de Caché KV fp8 y Hallazgos de Rendimiento

Hallazgos clave de las pruebas de Qwen3.5-122B en Blackwell SM120
Una prueba detallada de Qwen3.5-122B en hardware 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) con SGLang reveló problemas críticos de configuración y características de rendimiento. El hallazgo más significativo: fp8_e4m3 KV cache no falla, pero produce silenciosamente salidas corruptas sin errores ni advertencias, solo signos de exclamación y repetición en lugar de respuestas adecuadas. La única solución es usar bf16 KV cache en su lugar.
Requisitos de configuración
Las capas DeltaNet en Qwen3.5-122B añaden restricciones que los modelos MoE estándar no tienen. La configuración requirió 6 banderas específicas del backend Triton en hardware SM120:
- Atención forzada a Triton (para capas DeltaNet)
- Caché KV forzada a bf16 (fp8 corrompe la salida)
- Sin gráficos CUDA (debido a desbordamiento SMEM de Triton)
- Sin HiCache (incompatible con DeltaNet)
Esto contrasta con las pruebas de M2.5 en el mismo hardware, que solo necesitaron 2 banderas del backend Triton.
Puntos de referencia de rendimiento
Todas las pruebas utilizaron el mismo hardware y metodología con SGLang nightly (cu13 20260219), TP=8:
- Tok/s en ráfaga: 1,985 vs 1,818 (Qwen3.5-122B vs M2.5)
- En línea 4 rps: 310 vs 404
- En línea 8 rps: 514 vs 744
- Tok/s por solicitud única: ~25 (con MTP) vs 72
- Calidad Arena-Hard: 6.99/10 vs 4.94/10 (evaluado por Claude Opus 4.6, no comparable con resultados del ranking)
Resultados de optimización
De las rutas de optimización probadas, MTP (Predicción Multi-Token) fue la única que mejoró materialmente el rendimiento, proporcionando una aceleración de 2.75x en solicitudes únicas (~9 a ~25 tok/s). Otras optimizaciones disponibles en hardware SM120 - caché KV FP8, gráficos CUDA y HiCache - fueron bloqueadas por las restricciones de DeltaNet en Qwen3.5-122B.
Qwen3.5-122B gana en rendimiento de ráfaga y métricas de calidad, mientras que M2.5 aún gana en cada métrica de servicio sostenido debido a poder usar las optimizaciones que el DeltaNet de Qwen3.5-122B bloquea.
Los resultados completos, la matriz de compatibilidad, los comandos exactos de reproducción y todos los artefactos JSONL están disponibles en el problema de GitHub enlazado a continuación.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

xAI pierde desafío legal contra la ley de divulgación de datos de IA en California
xAI ha perdido su intento de bloquear la ley de divulgación de datos de IA de California, que requiere que las empresas revelen las fuentes de datos de entrenamiento y otros detalles sobre sus sistemas de IA. La decisión judicial significa que la ley procederá según lo programado.

Actualizaciones de abril de OpenClaw: Un mes de cambios radicales y confianza erosionada
Las actualizaciones de abril de OpenClaw muestran un patrón: nuevas funciones y correcciones publicadas junto con errores críticos. Los scripts posteriores a la instalación que eliminan archivos, los agujeros de seguridad y las habilidades rotas erosionan la confianza.

OpenClaw 5.4 Agrega Comandos /steer y /side: Redirige al Agente a Mitad de Tarea Sin Perder Contexto
OpenClaw 5.4 introduce los comandos /steer y /side que permiten redirigir la dirección de la tarea actual de un agente o iniciar una conversación lateral sin perder el contexto de la sesión.

El Curso de Transformadores CS25 de Stanford se Abre al Público con Transmisión en Vivo
El seminario CS 25 Transformers de Stanford ahora está abierto al público, con conferencias que comienzan el 23 de enero de 2025, de 4:30 a 5:50 p. m. PDT, disponibles en persona en el Auditorio Skilling o a través de Zoom, y las grabaciones se publicarán en línea.