O fork vllm-mlx adiciona chamada de ferramentas e cache de prompt para agentes de IA de codificação local.

Um desenvolvedor publicou uma versão modificada do vllm-mlx que corrige vários problemas para executar agentes de IA de codificação como o OpenClaw localmente no Mac. O fork adiciona chamada de ferramentas funcional e cache de prompt ao servidor compatível com OpenAI para Apple Silicon.
Principais correções e recursos
O desenvolvedor fez 37 commits em cima do vllm-mlx upstream para resolver problemas específicos:
- Chamada de ferramentas: Adicionada a flag
--tool-call-parser hermes— chamadas de ferramentas do Qwen3-Coder-Next funcionam prontas para uso - MiniMax-M2.5: Adicionado parsing de chamadas de ferramentas com e sem streaming com 4/4 de precisão em benchmarks de chamada de funções (clima, busca, execução de código, múltiplas ferramentas)
- Cache de prompt: Adicionado cache KV persistente entre requisições no SimpleEngine — apenas o mesmo prompt do sistema e histórico da conversação pré-preenchem novos tokens
- Separação de raciocínio: Construído parser heurístico para saídas do MiniMax que tinham raciocínio inline sem tags — reduziu a taxa de vazamento de 60% para 0%
Melhorias de desempenho
Com contexto de 33K tokens, o tempo para o primeiro token (TTFT) melhorou de 28 segundos para 0,3 segundos no acerto do cache. Benchmarks no Mac Studio M3 Ultra 256GB:
- Qwen3-Coder-Next 4bit: 42GB RAM, 70 tok/s decodificação, 1270 tok/s pré-preenchimento
- Qwen3-Coder-Next 6bit: 60GB RAM, 65 tok/s decodificação, 1090-1440 tok/s pré-preenchimento
- Qwen3-Coder-Next 8bit: 75GB RAM, ~45 tok/s decodificação, ~900 tok/s pré-preenchimento
- MiniMax-M2.5 4bit: 120GB RAM, 33-38 tok/s decodificação, 430-500 tok/s pré-preenchimento
O desenvolvedor recomenda o Qwen3-Coder-Next 6bit como o ponto ideal para codificação interativa, observando que a qualidade é visivelmente melhor que o 4bit (que tinha saída ocasionalmente truncada).
Instruções de configuração
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
Em seguida, direcione o OpenClaw ou qualquer cliente SDK da OpenAI para http://localhost:8000/v1.
Requisitos de hardware
- Qwen3-Coder-Next 4bit: 42GB — cabe no M2 Pro 64GB ou superior
- Qwen3-Coder-Next 6bit: 60GB — requer M2/M3/M4 Max 96GB+ ou Ultra
- MiniMax-M2.5: 120GB — apenas Ultra 192GB+
O que não funcionou
- Decodificação especulativa com Qwen3-0.6B como modelo rascunho — mlx-lm tem um bug conhecido com Qwen3 (pula tokens, issue #846)
- DeepSeek-R1-Distill-70B para OpenClaw — excelente em raciocínio, mas a chamada de ferramentas não é confiável
O repositório tem mais de 1500 testes e está licenciado sob Apache 2.0.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

CK Search: Ferramenta de Busca Semântica Local com Integração de Servidor MCP
CK Search é uma ferramenta de busca semântica local com um servidor MCP integrado que indexa qualquer diretório de texto sem dependências de nuvem. A ferramenta pode ser usada por agentes de IA via MCP, e a fonte fornece um tutorial prático cobrindo configuração, pontos fortes e limitações em comparação com o grep.

Servidor MCP Blender com mais de 100 ferramentas construídas usando Claude Code
Um desenvolvedor criou um servidor MCP para Blender com mais de 100 ferramentas em 14 categorias, permitindo que agentes de codificação por IA controlem a iluminação, animação, renderização e nós de geometria do Blender por meio de prompts em linguagem natural. Todo o código foi escrito usando Claude Code, que ajudou a resolver desafios arquitetônicos como o requisito de API da thread principal do Blender.

Alfred Beta Lançado: Alternativa Simplificada ao OpenClaw para Usuários Não Técnicos
Alfred é uma nova ferramenta em beta que fornece aproximadamente 70% da funcionalidade do OpenClaw com complexidade significativamente reduzida, apresentando configurações padrão simples para conexões de aplicativos, memória, modos de uso e infraestrutura, enquanto permite personalização.
Agente de IA OpenClaw com 6 Funções, Memória e Design Consciente de TDAH: Análise das Operações Diárias
Um fundador solo com TDAH criou um agente de IA de código aberto com 6 funções (planejador de ações, debriefing, redator, jurídico, investigador, CRM) compartilhando memória, gerando automaticamente follow-ups e rascunhos a partir de transcrições.