MTPLX: 2.24x tokens más rápidos en Apple Silicon

MTPLX es un motor de inferencia para Apple Silicon que explota las cabezales de Predicción Multi-Token (MTP) integradas del modelo como redactores especulativos. El resultado clave: Qwen 3.6 27B 4-bit MLX pasa de 28 tok/s a 63 tok/s (2,24× más rápido) en una MacBook Pro M5 Max con temperatura 0.6, top_p 0.95, top_k 20, los mismos ajustes que Qwen recomienda para codificación.

Cómo funciona

A diferencia de DFlash o DDTree (que requieren un modelo redactor externo y son exclusivamente voraces), MTPLX utiliza las cabezales MTP del propio modelo. Cada cabeza MTP redacta secuencialmente, produciendo distribuciones de probabilidad por token. Esto permite un muestreo de rechazo exacto con temperatura y corrección residual. Sin redactor externo significa sin uso adicional de memoria.

Para Qwen 3.6 27B (que incluye cabezales MTP hasta profundidad 5), la profundidad óptima resultó ser D3 tras evaluar D2–D5. Las profundidades mayores (D4/D5) tenían buena aceptación temprana, pero las posiciones más profundas costaban más tiempo de verificación que los tokens ahorrados.

Estado frente a DFlash / DDTree

DFlash MLX alcanza mayor velocidad bruta pero está restringido a muestreo voraz (temperatura 0) exclusivamente, limitando severamente el uso real. DDTree hereda las mismas limitaciones. Ambos requieren un redactor externo. MTPLX funciona con cualquier modelo que conserve sus cabezales MTP y soporte inferencia completa con muestreo por temperatura.

Instalación y uso

MTPLX se distribuye como una CLI completa con los siguientes comandos:

mtplx start wizard — configuración guiada
Descarga e inspección de modelos con detección de compatibilidad MTP de cuatro niveles
Profundidad configurable 2–7+
Servidor API compatible con OpenAI/Anthropic, interfaz de chat en navegador, chat en terminal
Suite de benchmarks, diagnósticos de salud, control de ventilador a prueba de fallos con restauración automática consciente de inactividad
Incluye una suite de 562 pruebas

El motor está construido sobre un fork parcheado de MLX con kernels Metal personalizados, gráficos de verificación compilados, reversión GDN con cinta de innovación y una cabeza LM re-cuantizada solo para redacción.

Para quién es

Desarrolladores que ejecutan LLMs locales en Apple Silicon y necesitan inferencia de alto rendimiento con muestreo por temperatura para codificación o escritura creativa sin sacrificar la calidad de salida.

📖 Lee la fuente completa: r/LocalLLaMA

MTPLX: Tokens 2.24x más rápidos en Apple Silicon usando cabezales MTP nativos

Cómo funciona

Estado frente a DFlash / DDTree

Instalación y uso

Para quién es

👀 Ver también

Títulos de artículos de Pokémon Showdown: Agentes de IA creados con APIs de LLM gratuitas y llamadas a herramientas

Agente de IA Integrado en Shell: Extensión de Buffer y Superposición de Terminal

Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.

La aplicación móvil QCAI incorpora el control de puerta de enlace OpenClaw con VPN nativa de Tailscale.