MTPLX: Tokens 2.24x más rápidos en Apple Silicon usando cabezales MTP nativos

MTPLX es un motor de inferencia para Apple Silicon que explota las cabezales de Predicción Multi-Token (MTP) integradas del modelo como redactores especulativos. El resultado clave: Qwen 3.6 27B 4-bit MLX pasa de 28 tok/s a 63 tok/s (2,24× más rápido) en una MacBook Pro M5 Max con temperatura 0.6, top_p 0.95, top_k 20, los mismos ajustes que Qwen recomienda para codificación.
Cómo funciona
A diferencia de DFlash o DDTree (que requieren un modelo redactor externo y son exclusivamente voraces), MTPLX utiliza las cabezales MTP del propio modelo. Cada cabeza MTP redacta secuencialmente, produciendo distribuciones de probabilidad por token. Esto permite un muestreo de rechazo exacto con temperatura y corrección residual. Sin redactor externo significa sin uso adicional de memoria.
Para Qwen 3.6 27B (que incluye cabezales MTP hasta profundidad 5), la profundidad óptima resultó ser D3 tras evaluar D2–D5. Las profundidades mayores (D4/D5) tenían buena aceptación temprana, pero las posiciones más profundas costaban más tiempo de verificación que los tokens ahorrados.
Estado frente a DFlash / DDTree
DFlash MLX alcanza mayor velocidad bruta pero está restringido a muestreo voraz (temperatura 0) exclusivamente, limitando severamente el uso real. DDTree hereda las mismas limitaciones. Ambos requieren un redactor externo. MTPLX funciona con cualquier modelo que conserve sus cabezales MTP y soporte inferencia completa con muestreo por temperatura.
Instalación y uso
MTPLX se distribuye como una CLI completa con los siguientes comandos:
mtplx start wizard— configuración guiada- Descarga e inspección de modelos con detección de compatibilidad MTP de cuatro niveles
- Profundidad configurable 2–7+
- Servidor API compatible con OpenAI/Anthropic, interfaz de chat en navegador, chat en terminal
- Suite de benchmarks, diagnósticos de salud, control de ventilador a prueba de fallos con restauración automática consciente de inactividad
- Incluye una suite de 562 pruebas
El motor está construido sobre un fork parcheado de MLX con kernels Metal personalizados, gráficos de verificación compilados, reversión GDN con cinta de innovación y una cabeza LM re-cuantizada solo para redacción.
Para quién es
Desarrolladores que ejecutan LLMs locales en Apple Silicon y necesitan inferencia de alto rendimiento con muestreo por temperatura para codificación o escritura creativa sin sacrificar la calidad de salida.
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Títulos de artículos de Pokémon Showdown: Agentes de IA creados con APIs de LLM gratuitas y llamadas a herramientas
Un sistema que usa Llama 3, Qwen, Gemma a través de niveles gratuitos de API para jugar de forma autónoma batallas de Pokémon Showdown con llamadas a herramientas estructuradas, compatible con modos humano vs IA e IA vs IA.

Agente de IA Integrado en Shell: Extensión de Buffer y Superposición de Terminal
Shell de código abierto con agente de IA integrado que lee la salida del terminal y escribe comandos mediante una superposición flotante. Compatible con modelos locales y en la nube.

Resumen comparativo de la inferencia rápida de LLM por Anthropic y OpenAI.
Anthropic y OpenAI han lanzado características distintas de 'modo rápido' para una inferencia más rápida de LLM, aprovechando OpenAI los chips de Cerebras para mayor velocidad.

La aplicación móvil QCAI incorpora el control de puerta de enlace OpenClaw con VPN nativa de Tailscale.
QCAI para iOS y Android ahora se integra con OpenClaw Control Center, permitiendo la gestión directa de puertas de enlace desde dispositivos móviles a través de túneles VPN seguros de Tailscale sin puertos abiertos.