Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026

Puntos de Referencia de Rendimiento en M2 Ultra
Los puntos de referencia evalúan la inferencia de MLX en un Mac Studio M2 Ultra con 128GB de memoria unificada, ejecutando modelos grandes localmente para cargas de trabajo de agentes de programación. La velocidad de generación se midió en cuatro modelos con rendimiento de decodificación en tokens/segundo en varias profundidades de caché KV (256 tokens de salida por ejecución).
Datos de Rendimiento del Modelo
- Qwen3.5-27B (denso, 8-bit): 20.2 tok/s a 4K, 16.4 tok/s a 64K, 13.1 tok/s a 128K
- Qwen3.5-35B-A3B (MoE, 8-bit): 71.8 tok/s a 4K, 53.5 tok/s a 64K, 41.9 tok/s a 128K
- Nemotron Super 120B (5-bit): 36.4 tok/s a 4K, 31.2 tok/s a 64K, 28.4 tok/s a 128K
- Qwen3.5-122B-A10B (MoE, 5-bit): 40.6 tok/s a 4K, 29.4 tok/s a 64K, 23.1 tok/s a 128K
El MoE de 35B logra un alto rendimiento porque solo 3B de sus 35B parámetros están activos por token. Nemotron Super 120B muestra una degradación mínima con el contexto (caída del 14% de 4K a 64K) porque 80 de sus 88 capas usan Mamba-2, que tiene un costo constante por token.
Aceleraciones de Características
Predicción Multi-Token (MTP): Los modelos Qwen 3.5 tienen una cabeza de borrador integrada que predice el siguiente token en paralelo. Con una aceptación probabilística al 90%, el 122B pasa de ~17 tok/s a 38.8 tok/s (aceleración de 2.3x). La sobrecarga del servidor es mínima: una solicitud de prompt corto a través de vllm-mlx genera a 39 tok/s, igualando la línea base.
SpecPrefill: Para prompts largos, un modelo de borrador de 2B puntúa la importancia de los tokens mediante atención, luego el objetivo solo prellena el 20% superior. En el 122B a contexto de 128K, el Tiempo al Primer Token (TTFT) cae de 19.3 minutos a 3.5 minutos (aceleración de 5.5x). Esta característica solo se activa para prompts por encima de 8K tokens.
Comparación MLX vs. llama.cpp
Evaluación comparativa de Qwen3.5-35B-A3B en ambos stacks (512 tokens generados después de llenar la caché KV):
- Contexto 32K: MLX 8-bit: 60.8 tok/s, llama.cpp FA ON (5-bit): 54.85 tok/s, llama.cpp FA OFF: 36.45 tok/s
- Contexto 64K: MLX 8-bit: 53.2 tok/s, llama.cpp FA ON (5-bit): 45.84 tok/s, llama.cpp FA OFF: 24.47 tok/s
- Contexto 128K: MLX 8-bit: 42.7 tok/s, llama.cpp FA ON (5-bit): 34.48 tok/s, llama.cpp FA OFF: 13.73 tok/s
MLX usa un kernel de decodificación split-K de 2 pasos (sdpa_vector_2pass) que despacha hasta 1024 grupos de hilos en contexto de 128K. La comparación muestra que MLX es competitivo con llama.cpp en longitudes de contexto largas.
Impacto de la Arquitectura Híbrida
Los modelos probados usan arquitecturas híbridas con menos capas de atención:
- Qwen3.5-35B-A3B: 25% capas de atención (10 de 40), 71.8 tok/s a 4K, caída del -25% a 64K
- Nemotron Super 120B: 9% capas de atención (8 de 88), 36.4 tok/s a 4K, caída del -14% a 64K
Qwen 3.5 usa capas GatedDeltaNet (recurrencia lineal) para la mayor parte de la red con atención estándar solo para el 25% de las capas. Menos capas de atención significa menos caché KV para escanear por token y menos degradación en contexto largo.
Mejoras Recientes
El ecosistema MLX tiene tres capas que han experimentado un desarrollo rápido. El núcleo de MLX recibió una revisión de seguridad de hilos (M por hilo... [texto fuente truncado]. Combinado con procesamiento por lotes continuo y caché de prefijos, el 122B ahora sirve a agentes de programación de manera interactiva en longitudes de contexto que antes eran impracticables.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

GLM-5.1 Lanzado con Rendimiento de Codificación Igualando a Claude Opus 4.5
El modelo GLM-5.1 de Zhipu AI ya está disponible para todos los usuarios del Plan de Codificación, logrando 77.8 puntos en SWE-bench-Verified y 56.2 puntos en Terminal Bench 2.0. El modelo cuenta con una ventana de contexto de 200K, una salida máxima de 128K y 744B parámetros con 40B activados.

Plataforma Claude en AWS ahora disponible de forma general: experiencia nativa de Anthropic a través de IAM, CloudTrail y facturación de AWS
AWS anunció la disponibilidad general de Claude Platform en AWS, lo que brinda a los desarrolladores acceso directo a la experiencia nativa de Claude de Anthropic a través de sus cuentas AWS existentes con autenticación IAM, facturación AWS y registro CloudTrail, pero los datos del cliente se procesan fuera del perímetro de seguridad de AWS.

Richard Dawkins cree que su chatbot de IA Claude es consciente: El engaño de Claude en HN
Según informes, Richard Dawkins cree que su chatbot de IA femenino (Claude) es consciente, lo que desató una discusión en HN con 57 puntos y 66 comentarios.

Sistema de mascotas oculto descubierto en filtración de código de Claude: mecánicas gacha con animaciones ASCII
El análisis del código filtrado de Claude revela un sistema oculto de mascotas compañeras con 18 especies, niveles de rareza y animaciones ASCII. El sistema utiliza hashing determinista a partir de IDs de usuario para generar mascotas únicas sin almacenar datos de especies.