La bifurcación vllm-mlx añade llamadas a herramientas y caché de prompts para agentes de IA de codificación local.

Un desarrollador ha publicado una versión modificada de vllm-mlx que corrige varios problemas para ejecutar agentes de codificación de IA como OpenClaw localmente en Mac. El fork agrega llamadas a herramientas funcionales y caché de prompts al servidor compatible con OpenAI para Apple Silicon.
Correcciones y características clave
El desarrollador realizó 37 commits sobre vllm-mlx upstream para abordar problemas específicos:
- Llamadas a herramientas: Agregó la bandera
--tool-call-parser hermes— las llamadas a herramientas de Qwen3-Coder-Next funcionan sin configuración adicional - MiniMax-M2.5: Agregó análisis de llamadas a herramientas con y sin streaming con 4/4 de precisión en benchmarks de llamadas a funciones (clima, búsqueda, ejecución de código, múltiples herramientas)
- Caché de prompts: Agregó caché KV persistente entre solicitudes en SimpleEngine — solo se prellenan nuevos tokens con el mismo prompt del sistema e historial de conversación
- Separación de razonamiento: Construyó un analizador heurístico para salidas de MiniMax que tenían razonamiento en línea sin etiquetas — redujo la tasa de fuga del 60% al 0%
Mejoras de rendimiento
Con contexto de 33K tokens, el tiempo hasta el primer token (TTFT) mejoró de 28 segundos a 0.3 segundos en acierto de caché. Benchmarks en Mac Studio M3 Ultra 256GB:
- Qwen3-Coder-Next 4bit: 42GB RAM, 70 tok/s decodificación, 1270 tok/s prellenado
- Qwen3-Coder-Next 6bit: 60GB RAM, 65 tok/s decodificación, 1090-1440 tok/s prellenado
- Qwen3-Coder-Next 8bit: 75GB RAM, ~45 tok/s decodificación, ~900 tok/s prellenado
- MiniMax-M2.5 4bit: 120GB RAM, 33-38 tok/s decodificación, 430-500 tok/s prellenado
El desarrollador recomienda Qwen3-Coder-Next 6bit como el punto óptimo para codificación interactiva, señalando que la calidad es notablemente mejor que 4bit (que ocasionalmente tenía salida distorsionada).
Instrucciones de configuración
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
Luego apunte OpenClaw o cualquier cliente SDK de OpenAI a http://localhost:8000/v1.
Requisitos de hardware
- Qwen3-Coder-Next 4bit: 42GB — cabe en M2 Pro 64GB o mejor
- Qwen3-Coder-Next 6bit: 60GB — necesita M2/M3/M4 Max 96GB+ o Ultra
- MiniMax-M2.5: 120GB — solo Ultra 192GB+
Lo que no funcionó
- Decodificación especulativa con Qwen3-0.6B como modelo borrador — mlx-lm tiene un error conocido con Qwen3 (omite tokens, issue #846)
- DeepSeek-R1-Distill-70B para OpenClaw — excelente en razonamiento pero las llamadas a herramientas no son confiables
El repositorio tiene más de 1500 pruebas y está licenciado bajo Apache 2.0.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Org Studio: Panel de control de código abierto para gestionar equipos de IA multiagente.
Org Studio es un panel de control de código abierto que aplica principios de diseño organizacional para coordinar equipos de agentes de IA, con soporte nativo para los entornos de ejecución OpenClaw y Hermes Agent. Incluye gestión de topología de equipos, tableros de tareas basados en eventos y comunicación entre entornos donde los agentes pueden mencionarse entre sí en los comentarios de las tareas.

8 Consejos Avanzados de Claude Code: Ahorro de Costos, Gestión de Contexto, Comandos Personalizados
Consejos prácticos del uso diario intensivo de Claude Code, que cubren automatización del flujo de trabajo de git, entrada de imágenes multimodales, seguimiento del uso de la API, compactación de contexto, reanudación de sesiones, gestión de reglas, desencadenadores de pensamiento y comandos personalizados.

Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude
Una aplicación de la bandeja del sistema de Windows que monitorea el uso de Claude Code con un icono codificado por colores, actualiza automáticamente los datos de cuota cada 5 minutos a través de la API OAuth de Anthropic, y proporciona paneles detallados que muestran patrones de uso por hora, día, semana y mes.

PocketBot Beta: Agente de IA para iOS con Enfoque en Privacidad y Motor Híbrido Local/Nube
PocketBot es un agente de IA para iOS que se ejecuta en segundo plano, se conecta a App Intents y utiliza un motor híbrido: ejecución local para activadores del sistema y saneamiento de PII, con procesamiento en la nube para tareas complejas como resumen de correos electrónicos o reserva de vuelos.