MTPLX: Tokens 2.24x más rápidos en Apple Silicon usando cabezales MTP nativos

✍️ OpenClawRadar📅 Publicado: 5 de mayo de 2026🔗 Source
MTPLX: Tokens 2.24x más rápidos en Apple Silicon usando cabezales MTP nativos
Ad

MTPLX es un motor de inferencia para Apple Silicon que explota las cabezales de Predicción Multi-Token (MTP) integradas del modelo como redactores especulativos. El resultado clave: Qwen 3.6 27B 4-bit MLX pasa de 28 tok/s a 63 tok/s (2,24× más rápido) en una MacBook Pro M5 Max con temperatura 0.6, top_p 0.95, top_k 20, los mismos ajustes que Qwen recomienda para codificación.

Cómo funciona

A diferencia de DFlash o DDTree (que requieren un modelo redactor externo y son exclusivamente voraces), MTPLX utiliza las cabezales MTP del propio modelo. Cada cabeza MTP redacta secuencialmente, produciendo distribuciones de probabilidad por token. Esto permite un muestreo de rechazo exacto con temperatura y corrección residual. Sin redactor externo significa sin uso adicional de memoria.

Para Qwen 3.6 27B (que incluye cabezales MTP hasta profundidad 5), la profundidad óptima resultó ser D3 tras evaluar D2–D5. Las profundidades mayores (D4/D5) tenían buena aceptación temprana, pero las posiciones más profundas costaban más tiempo de verificación que los tokens ahorrados.

Estado frente a DFlash / DDTree

DFlash MLX alcanza mayor velocidad bruta pero está restringido a muestreo voraz (temperatura 0) exclusivamente, limitando severamente el uso real. DDTree hereda las mismas limitaciones. Ambos requieren un redactor externo. MTPLX funciona con cualquier modelo que conserve sus cabezales MTP y soporte inferencia completa con muestreo por temperatura.

Ad

Instalación y uso

MTPLX se distribuye como una CLI completa con los siguientes comandos:

  • mtplx start wizard — configuración guiada
  • Descarga e inspección de modelos con detección de compatibilidad MTP de cuatro niveles
  • Profundidad configurable 2–7+
  • Servidor API compatible con OpenAI/Anthropic, interfaz de chat en navegador, chat en terminal
  • Suite de benchmarks, diagnósticos de salud, control de ventilador a prueba de fallos con restauración automática consciente de inactividad
  • Incluye una suite de 562 pruebas

El motor está construido sobre un fork parcheado de MLX con kernels Metal personalizados, gráficos de verificación compilados, reversión GDN con cinta de innovación y una cabeza LM re-cuantizada solo para redacción.

Para quién es

Desarrolladores que ejecutan LLMs locales en Apple Silicon y necesitan inferencia de alto rendimiento con muestreo por temperatura para codificación o escritura creativa sin sacrificar la calidad de salida.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también