Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026

Puntos de Referencia de Rendimiento en M2 Ultra
Los puntos de referencia evalúan la inferencia de MLX en un Mac Studio M2 Ultra con 128GB de memoria unificada, ejecutando modelos grandes localmente para cargas de trabajo de agentes de programación. La velocidad de generación se midió en cuatro modelos con rendimiento de decodificación en tokens/segundo en varias profundidades de caché KV (256 tokens de salida por ejecución).
Datos de Rendimiento del Modelo
- Qwen3.5-27B (denso, 8-bit): 20.2 tok/s a 4K, 16.4 tok/s a 64K, 13.1 tok/s a 128K
- Qwen3.5-35B-A3B (MoE, 8-bit): 71.8 tok/s a 4K, 53.5 tok/s a 64K, 41.9 tok/s a 128K
- Nemotron Super 120B (5-bit): 36.4 tok/s a 4K, 31.2 tok/s a 64K, 28.4 tok/s a 128K
- Qwen3.5-122B-A10B (MoE, 5-bit): 40.6 tok/s a 4K, 29.4 tok/s a 64K, 23.1 tok/s a 128K
El MoE de 35B logra un alto rendimiento porque solo 3B de sus 35B parámetros están activos por token. Nemotron Super 120B muestra una degradación mínima con el contexto (caída del 14% de 4K a 64K) porque 80 de sus 88 capas usan Mamba-2, que tiene un costo constante por token.
Aceleraciones de Características
Predicción Multi-Token (MTP): Los modelos Qwen 3.5 tienen una cabeza de borrador integrada que predice el siguiente token en paralelo. Con una aceptación probabilística al 90%, el 122B pasa de ~17 tok/s a 38.8 tok/s (aceleración de 2.3x). La sobrecarga del servidor es mínima: una solicitud de prompt corto a través de vllm-mlx genera a 39 tok/s, igualando la línea base.
SpecPrefill: Para prompts largos, un modelo de borrador de 2B puntúa la importancia de los tokens mediante atención, luego el objetivo solo prellena el 20% superior. En el 122B a contexto de 128K, el Tiempo al Primer Token (TTFT) cae de 19.3 minutos a 3.5 minutos (aceleración de 5.5x). Esta característica solo se activa para prompts por encima de 8K tokens.
Comparación MLX vs. llama.cpp
Evaluación comparativa de Qwen3.5-35B-A3B en ambos stacks (512 tokens generados después de llenar la caché KV):
- Contexto 32K: MLX 8-bit: 60.8 tok/s, llama.cpp FA ON (5-bit): 54.85 tok/s, llama.cpp FA OFF: 36.45 tok/s
- Contexto 64K: MLX 8-bit: 53.2 tok/s, llama.cpp FA ON (5-bit): 45.84 tok/s, llama.cpp FA OFF: 24.47 tok/s
- Contexto 128K: MLX 8-bit: 42.7 tok/s, llama.cpp FA ON (5-bit): 34.48 tok/s, llama.cpp FA OFF: 13.73 tok/s
MLX usa un kernel de decodificación split-K de 2 pasos (sdpa_vector_2pass) que despacha hasta 1024 grupos de hilos en contexto de 128K. La comparación muestra que MLX es competitivo con llama.cpp en longitudes de contexto largas.
Impacto de la Arquitectura Híbrida
Los modelos probados usan arquitecturas híbridas con menos capas de atención:
- Qwen3.5-35B-A3B: 25% capas de atención (10 de 40), 71.8 tok/s a 4K, caída del -25% a 64K
- Nemotron Super 120B: 9% capas de atención (8 de 88), 36.4 tok/s a 4K, caída del -14% a 64K
Qwen 3.5 usa capas GatedDeltaNet (recurrencia lineal) para la mayor parte de la red con atención estándar solo para el 25% de las capas. Menos capas de atención significa menos caché KV para escanear por token y menos degradación en contexto largo.
Mejoras Recientes
El ecosistema MLX tiene tres capas que han experimentado un desarrollo rápido. El núcleo de MLX recibió una revisión de seguridad de hilos (M por hilo... [texto fuente truncado]. Combinado con procesamiento por lotes continuo y caché de prefijos, el 122B ahora sirve a agentes de programación de manera interactiva en longitudes de contexto que antes eran impracticables.
📖 Lea la fuente completa: r/LocalLLaMA
👀 Ver también

Anthropic Lanza Claude Code Channels para Integración de Mensajería
Anthropic ha lanzado Claude Code Channels, permitiendo a los desarrolladores enviar mensajes directos a sesiones de Claude Code desde Telegram o Discord con acceso completo a herramientas, incluyendo edición de archivos, ejecución de pruebas y operaciones de git. La función requiere un plan de pago de Anthropic y admite dos plataformas en comparación con las 20+ de OpenClaw.

El ruido de fondo del vibe-coding: Cómo la bazofia de IA está asfixiando a las comunidades de desarrolladores
rmoff critica el constante flujo de contenido generado por IA de baja calidad en comunidades de desarrolladores, desde repositorios de GitHub sin sentido hasta publicaciones fantasma en blogs, y explica por qué está alejando la participación orgánica.

Rankings de la Tienda de Aplicaciones de Claude en 7 Países
Claude ocupó el puesto #1 en Estados Unidos y Canadá, #3 en Francia y Alemania, #4 en el Reino Unido, #8 en Italia y #22 en Japón en las clasificaciones de aplicaciones gratuitas de App Store capturadas simultáneamente el 1 de marzo de 2026 a las 09:00 UTC.

Datos de Uso de la API de Claude Muestran el Impacto de los Nuevos Límites en Usuarios del Plan Máximo
Un usuario de Claude Max 20x informa que el uso diario equivalente a la API ha disminuido de aproximadamente $210/día a aproximadamente $52/día después de que se implementaron nuevos límites, lo que requiere cambios significativos en el flujo de trabajo, incluido el uso de Sonnet y Codex.