Fork vllm-mlx: Cache de Prompt e Chamada de Ferramentas no Qwen3-Coder

Um desenvolvedor publicou uma versão modificada do vllm-mlx que corrige vários problemas para executar agentes de IA de codificação como o OpenClaw localmente no Mac. O fork adiciona chamada de ferramentas funcional e cache de prompt ao servidor compatível com OpenAI para Apple Silicon.

Principais correções e recursos

O desenvolvedor fez 37 commits em cima do vllm-mlx upstream para resolver problemas específicos:

Chamada de ferramentas: Adicionada a flag --tool-call-parser hermes — chamadas de ferramentas do Qwen3-Coder-Next funcionam prontas para uso
MiniMax-M2.5: Adicionado parsing de chamadas de ferramentas com e sem streaming com 4/4 de precisão em benchmarks de chamada de funções (clima, busca, execução de código, múltiplas ferramentas)
Cache de prompt: Adicionado cache KV persistente entre requisições no SimpleEngine — apenas o mesmo prompt do sistema e histórico da conversação pré-preenchem novos tokens
Separação de raciocínio: Construído parser heurístico para saídas do MiniMax que tinham raciocínio inline sem tags — reduziu a taxa de vazamento de 60% para 0%

Melhorias de desempenho

Com contexto de 33K tokens, o tempo para o primeiro token (TTFT) melhorou de 28 segundos para 0,3 segundos no acerto do cache. Benchmarks no Mac Studio M3 Ultra 256GB:

Qwen3-Coder-Next 4bit: 42GB RAM, 70 tok/s decodificação, 1270 tok/s pré-preenchimento
Qwen3-Coder-Next 6bit: 60GB RAM, 65 tok/s decodificação, 1090-1440 tok/s pré-preenchimento
Qwen3-Coder-Next 8bit: 75GB RAM, ~45 tok/s decodificação, ~900 tok/s pré-preenchimento
MiniMax-M2.5 4bit: 120GB RAM, 33-38 tok/s decodificação, 430-500 tok/s pré-preenchimento

O desenvolvedor recomenda o Qwen3-Coder-Next 6bit como o ponto ideal para codificação interativa, observando que a qualidade é visivelmente melhor que o 4bit (que tinha saída ocasionalmente truncada).

Instruções de configuração

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Em seguida, direcione o OpenClaw ou qualquer cliente SDK da OpenAI para http://localhost:8000/v1.

Requisitos de hardware

Qwen3-Coder-Next 4bit: 42GB — cabe no M2 Pro 64GB ou superior
Qwen3-Coder-Next 6bit: 60GB — requer M2/M3/M4 Max 96GB+ ou Ultra
MiniMax-M2.5: 120GB — apenas Ultra 192GB+

O que não funcionou

Decodificação especulativa com Qwen3-0.6B como modelo rascunho — mlx-lm tem um bug conhecido com Qwen3 (pula tokens, issue #846)
DeepSeek-R1-Distill-70B para OpenClaw — excelente em raciocínio, mas a chamada de ferramentas não é confiável

O repositório tem mais de 1500 testes e está licenciado sob Apache 2.0.

📖 Leia a fonte completa: r/LocalLLaMA