MTPLX Tokens 2,24x Mais Rápidos em Apple Silicon

MTPLX é um motor de inferência para Apple Silicon que aproveita as heads nativas de Predição Multi-Token (MTP) do modelo como rascunhadores especulativos. O resultado principal: Qwen 3.6 27B 4-bit MLX passa de 28 tok/s para 63 tok/s (2,24× mais rápido) em um MacBook Pro M5 Max com temperatura 0,6, top_p 0,95, top_k 20 — as configurações exatas que a Qwen recomenda para programação.

Como Funciona

Diferente do DFlash ou DDTree (que exigem um modelo rascunhador externo e são apenas greedy), o MTPLX usa as próprias heads MTP do modelo. Cada head MTP rascunha sequencialmente, produzindo distribuições de probabilidade por token. Isso permite amostragem exata de rejeição com temperatura e correção residual. Sem rascunhador externo significa sem uso extra de memória.

Para o Qwen 3.6 27B (que vem com heads MTP até profundidade 5), a profundidade ótima encontrada foi D3 após varredura de D2 a D5. Profundidades maiores (D4/D5) tiveram boa aceitação inicial, mas posições mais profundas custaram mais tempo de verificação do que tokens economizados.

Status vs. DFlash / DDTree

O DFlash MLX atinge maior velocidade bruta, mas é restrito à amostragem greedy (temperatura 0), limitando severamente o uso no mundo real. O DDTree herda as mesmas limitações. Ambos exigem um rascunhador externo. O MTPLX funciona com qualquer modelo que mantenha suas heads MTP e suporte inferência completa com amostragem por temperatura.

Instalação e Uso

O MTPLX é distribuído como um CLI completo com os seguintes comandos:

mtplx start wizard — configuração guiada
Download e inspeção de modelos com detecção de compatibilidade MTP em quatro níveis
Profundidade configurável de 2 a 7+
Servidor de API compatível com OpenAI/Anthropic, interface de chat no navegador, chat no terminal
Suite de benchmarks, diagnóstico de saúde, controle de ventoinha com segurança contra falhas e restauração automática com detecção de inatividade
Uma suíte de 562 testes incluída

O motor é construído sobre um fork modificado do MLX com kernels Metal personalizados, gráficos de verificação compilados, rollback GDN com fita de inovação e uma cabeça LM requantizada apenas para rascunho.

Para Quem É

Desenvolvedores que executam LLMs locais em Apple Silicon e precisam de inferência de alta taxa, com amostragem por temperatura para programação ou escrita criativa, sem sacrificar a qualidade da saída.

📖 Leia a fonte completa: r/LocalLLaMA

MTPLX: Tokens 2,24x Mais Rápidos no Apple Silicon Usando Cabeças MTP Nativas

Como Funciona

Status vs. DFlash / DDTree

Instalação e Uso

Para Quem É

👀 See Also

Compactador de Garras: motor de compressão de tokens em 14 estágios para pipelines de LLM

Resultados do Teste A/B: Ganchos do oh-my-claudecode Apresentam Impacto Mínimo no Desempenho do Claude Code

Backend Personalizado do llama.cpp Descarrega Multiplicação de Matrizes LLM para NPU AMD XDNA2 no Ryzen AI MAX 385

Apresentando o Lean Collab: Um Orquestrador Multiagente para Tarefas de LLM de Longa Duração