MLX Inference Speed: 71.8 t/s on Qwen3.5 & 5.5x Speedups

Puntos de Referencia de Rendimiento en M2 Ultra

Los puntos de referencia evalúan la inferencia de MLX en un Mac Studio M2 Ultra con 128GB de memoria unificada, ejecutando modelos grandes localmente para cargas de trabajo de agentes de programación. La velocidad de generación se midió en cuatro modelos con rendimiento de decodificación en tokens/segundo en varias profundidades de caché KV (256 tokens de salida por ejecución).

Datos de Rendimiento del Modelo

Qwen3.5-27B (denso, 8-bit): 20.2 tok/s a 4K, 16.4 tok/s a 64K, 13.1 tok/s a 128K
Qwen3.5-35B-A3B (MoE, 8-bit): 71.8 tok/s a 4K, 53.5 tok/s a 64K, 41.9 tok/s a 128K
Nemotron Super 120B (5-bit): 36.4 tok/s a 4K, 31.2 tok/s a 64K, 28.4 tok/s a 128K
Qwen3.5-122B-A10B (MoE, 5-bit): 40.6 tok/s a 4K, 29.4 tok/s a 64K, 23.1 tok/s a 128K

El MoE de 35B logra un alto rendimiento porque solo 3B de sus 35B parámetros están activos por token. Nemotron Super 120B muestra una degradación mínima con el contexto (caída del 14% de 4K a 64K) porque 80 de sus 88 capas usan Mamba-2, que tiene un costo constante por token.

Aceleraciones de Características

Predicción Multi-Token (MTP): Los modelos Qwen 3.5 tienen una cabeza de borrador integrada que predice el siguiente token en paralelo. Con una aceptación probabilística al 90%, el 122B pasa de ~17 tok/s a 38.8 tok/s (aceleración de 2.3x). La sobrecarga del servidor es mínima: una solicitud de prompt corto a través de vllm-mlx genera a 39 tok/s, igualando la línea base.

SpecPrefill: Para prompts largos, un modelo de borrador de 2B puntúa la importancia de los tokens mediante atención, luego el objetivo solo prellena el 20% superior. En el 122B a contexto de 128K, el Tiempo al Primer Token (TTFT) cae de 19.3 minutos a 3.5 minutos (aceleración de 5.5x). Esta característica solo se activa para prompts por encima de 8K tokens.

Comparación MLX vs. llama.cpp

Evaluación comparativa de Qwen3.5-35B-A3B en ambos stacks (512 tokens generados después de llenar la caché KV):

Contexto 32K: MLX 8-bit: 60.8 tok/s, llama.cpp FA ON (5-bit): 54.85 tok/s, llama.cpp FA OFF: 36.45 tok/s
Contexto 64K: MLX 8-bit: 53.2 tok/s, llama.cpp FA ON (5-bit): 45.84 tok/s, llama.cpp FA OFF: 24.47 tok/s
Contexto 128K: MLX 8-bit: 42.7 tok/s, llama.cpp FA ON (5-bit): 34.48 tok/s, llama.cpp FA OFF: 13.73 tok/s

MLX usa un kernel de decodificación split-K de 2 pasos (sdpa_vector_2pass) que despacha hasta 1024 grupos de hilos en contexto de 128K. La comparación muestra que MLX es competitivo con llama.cpp en longitudes de contexto largas.

Impacto de la Arquitectura Híbrida

Los modelos probados usan arquitecturas híbridas con menos capas de atención:

Qwen3.5-35B-A3B: 25% capas de atención (10 de 40), 71.8 tok/s a 4K, caída del -25% a 64K
Nemotron Super 120B: 9% capas de atención (8 de 88), 36.4 tok/s a 4K, caída del -14% a 64K

Qwen 3.5 usa capas GatedDeltaNet (recurrencia lineal) para la mayor parte de la red con atención estándar solo para el 25% de las capas. Menos capas de atención significa menos caché KV para escanear por token y menos degradación en contexto largo.

Mejoras Recientes

El ecosistema MLX tiene tres capas que han experimentado un desarrollo rápido. El núcleo de MLX recibió una revisión de seguridad de hilos (M por hilo... [texto fuente truncado]. Combinado con procesamiento por lotes continuo y caché de prefijos, el 122B ahora sirve a agentes de programación de manera interactiva en longitudes de contexto que antes eran impracticables.

📖 Lea la fuente completa: r/LocalLLaMA

Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026

Puntos de Referencia de Rendimiento en M2 Ultra

Datos de Rendimiento del Modelo

Aceleraciones de Características

Comparación MLX vs. llama.cpp

Impacto de la Arquitectura Híbrida

Mejoras Recientes

👀 Ver también

Resultados de Evaluación de los Modelos Qwen3.5 con Contexto de 2K a 400K en RTX 4090

Gemini 3.1 Flash Live: el último modelo de audio de Google con mejoras en los puntos de referencia y marca de agua.

ClawCast Ep.3: Revisión de la incorporación, demo cancelada y OpenClaw vs Codex para flujos de trabajo a largo plazo

NIST Solicita Comentarios Públicos sobre Estándares de Seguridad para Agentes de IA