vllm-mlx fork: llamadas a herramientas y caché de prompts para IA local

Un desarrollador ha publicado una versión modificada de vllm-mlx que corrige varios problemas para ejecutar agentes de codificación de IA como OpenClaw localmente en Mac. El fork agrega llamadas a herramientas funcionales y caché de prompts al servidor compatible con OpenAI para Apple Silicon.

Correcciones y características clave

El desarrollador realizó 37 commits sobre vllm-mlx upstream para abordar problemas específicos:

Llamadas a herramientas: Agregó la bandera --tool-call-parser hermes — las llamadas a herramientas de Qwen3-Coder-Next funcionan sin configuración adicional
MiniMax-M2.5: Agregó análisis de llamadas a herramientas con y sin streaming con 4/4 de precisión en benchmarks de llamadas a funciones (clima, búsqueda, ejecución de código, múltiples herramientas)
Caché de prompts: Agregó caché KV persistente entre solicitudes en SimpleEngine — solo se prellenan nuevos tokens con el mismo prompt del sistema e historial de conversación
Separación de razonamiento: Construyó un analizador heurístico para salidas de MiniMax que tenían razonamiento en línea sin etiquetas — redujo la tasa de fuga del 60% al 0%

Mejoras de rendimiento

Con contexto de 33K tokens, el tiempo hasta el primer token (TTFT) mejoró de 28 segundos a 0.3 segundos en acierto de caché. Benchmarks en Mac Studio M3 Ultra 256GB:

Qwen3-Coder-Next 4bit: 42GB RAM, 70 tok/s decodificación, 1270 tok/s prellenado
Qwen3-Coder-Next 6bit: 60GB RAM, 65 tok/s decodificación, 1090-1440 tok/s prellenado
Qwen3-Coder-Next 8bit: 75GB RAM, ~45 tok/s decodificación, ~900 tok/s prellenado
MiniMax-M2.5 4bit: 120GB RAM, 33-38 tok/s decodificación, 430-500 tok/s prellenado

El desarrollador recomienda Qwen3-Coder-Next 6bit como el punto óptimo para codificación interactiva, señalando que la calidad es notablemente mejor que 4bit (que ocasionalmente tenía salida distorsionada).

Instrucciones de configuración

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Luego apunte OpenClaw o cualquier cliente SDK de OpenAI a http://localhost:8000/v1.

Requisitos de hardware

Qwen3-Coder-Next 4bit: 42GB — cabe en M2 Pro 64GB o mejor
Qwen3-Coder-Next 6bit: 60GB — necesita M2/M3/M4 Max 96GB+ o Ultra
MiniMax-M2.5: 120GB — solo Ultra 192GB+

Lo que no funcionó

Decodificación especulativa con Qwen3-0.6B como modelo borrador — mlx-lm tiene un error conocido con Qwen3 (omite tokens, issue #846)
DeepSeek-R1-Distill-70B para OpenClaw — excelente en razonamiento pero las llamadas a herramientas no son confiables

El repositorio tiene más de 1500 pruebas y está licenciado bajo Apache 2.0.

📖 Leer la fuente completa: r/LocalLLaMA