MTPLX: Tokens 2,24x Mais Rápidos no Apple Silicon Usando Cabeças MTP Nativas

✍️ OpenClawRadar📅 Publicado: May 5, 2026🔗 Source
MTPLX: Tokens 2,24x Mais Rápidos no Apple Silicon Usando Cabeças MTP Nativas
Ad

MTPLX é um motor de inferência para Apple Silicon que aproveita as heads nativas de Predição Multi-Token (MTP) do modelo como rascunhadores especulativos. O resultado principal: Qwen 3.6 27B 4-bit MLX passa de 28 tok/s para 63 tok/s (2,24× mais rápido) em um MacBook Pro M5 Max com temperatura 0,6, top_p 0,95, top_k 20 — as configurações exatas que a Qwen recomenda para programação.

Como Funciona

Diferente do DFlash ou DDTree (que exigem um modelo rascunhador externo e são apenas greedy), o MTPLX usa as próprias heads MTP do modelo. Cada head MTP rascunha sequencialmente, produzindo distribuições de probabilidade por token. Isso permite amostragem exata de rejeição com temperatura e correção residual. Sem rascunhador externo significa sem uso extra de memória.

Para o Qwen 3.6 27B (que vem com heads MTP até profundidade 5), a profundidade ótima encontrada foi D3 após varredura de D2 a D5. Profundidades maiores (D4/D5) tiveram boa aceitação inicial, mas posições mais profundas custaram mais tempo de verificação do que tokens economizados.

Status vs. DFlash / DDTree

O DFlash MLX atinge maior velocidade bruta, mas é restrito à amostragem greedy (temperatura 0), limitando severamente o uso no mundo real. O DDTree herda as mesmas limitações. Ambos exigem um rascunhador externo. O MTPLX funciona com qualquer modelo que mantenha suas heads MTP e suporte inferência completa com amostragem por temperatura.

Ad

Instalação e Uso

O MTPLX é distribuído como um CLI completo com os seguintes comandos:

  • mtplx start wizard — configuração guiada
  • Download e inspeção de modelos com detecção de compatibilidade MTP em quatro níveis
  • Profundidade configurável de 2 a 7+
  • Servidor de API compatível com OpenAI/Anthropic, interface de chat no navegador, chat no terminal
  • Suite de benchmarks, diagnóstico de saúde, controle de ventoinha com segurança contra falhas e restauração automática com detecção de inatividade
  • Uma suíte de 562 testes incluída

O motor é construído sobre um fork modificado do MLX com kernels Metal personalizados, gráficos de verificação compilados, rollback GDN com fita de inovação e uma cabeça LM requantizada apenas para rascunho.

Para Quem É

Desenvolvedores que executam LLMs locais em Apple Silicon e precisam de inferência de alta taxa, com amostragem por temperatura para programação ou escrita criativa, sem sacrificar a qualidade da saída.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Assistência de Configuração do OpenClaw Oferecida pela ClawSet
Tools

Assistência de Configuração do OpenClaw Oferecida pela ClawSet

A ClawSet oferece serviços de configuração para o OpenClaw, com foco em entender as necessidades do cliente. O serviço inclui uma chamada de configuração por US$ 99 e um mês de suporte para solução de problemas.

OpenClawRadar
Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude
Tools

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude

Um usuário do Reddit testou várias alternativas de agentes de IA para programação após a descontinuação do plano de programação do Claude, incluindo Kimi (US$ 20/mês), Minimax (US$ 10/mês), Z.AI GLM (US$ 10/mês), Stepfun (US$ 6-10/mês), Mistral (US$ 15/mês) e Arcee Trinity (baseado em API).

OpenClawRadar
Kit de Gerenciamento de Contexto Cowork Resolve o Problema de Sobrecarga de Arquivos do Claude
Tools

Kit de Gerenciamento de Contexto Cowork Resolve o Problema de Sobrecarga de Arquivos do Claude

Um desenvolvedor criou um kit de gerenciamento de contexto para Cowork depois que a Claude AI estava lendo todos os 462 arquivos na pasta do projeto, causando problemas de desempenho e contradições. A solução inclui instruções globais, um sistema de arquivo manifesto e uma habilidade do Cowork para priorizar documentos relevantes.

OpenClawRadar
Fullerenos: Camada de memória persistente de código aberto para agentes de codificação reduz tokens em 64% no SWE-bench
Tools

Fullerenos: Camada de memória persistente de código aberto para agentes de codificação reduz tokens em 64% no SWE-bench

Fullerenes usa um grafo de conhecimento SQLite local construído via Tree-sitter para dar a agentes de codificação como Claude Code memória persistente, reduzindo o uso de tokens em 64% no SWE-bench e até 96,6% em benchmarks internos.

OpenClawRadar