vllm-mlx Fork: Tool-Calling & Prompt-Cache für KI-Agenten

Ein Entwickler hat eine modifizierte Version von vllm-mlx veröffentlicht, die mehrere Probleme beim lokalen Betrieb von KI-Codierungsagenten wie OpenClaw auf dem Mac behebt. Der Fork fügt funktionierende Tool-Aufrufe und Prompt-Caching zum OpenAI-kompatiblen Server für Apple Silicon hinzu.

Wichtige Korrekturen und Funktionen

Der Entwickler hat 37 Commits auf Basis des Upstream-vllm-mlx durchgeführt, um spezifische Probleme anzugehen:

Tool-Aufrufe: Hinzugefügtes Flag --tool-call-parser hermes — Qwen3-Coder-Next Tool-Aufrufe funktionieren sofort
MiniMax-M2.5: Hinzugefügtes Streaming- und Nicht-Streaming-Tool-Call-Parsing mit 4/4 Genauigkeit bei Funktionsaufruf-Benchmarks (Wetter, Suche, Code-Ausführung, Multi-Tool)
Prompt-Cache: Hinzugefügter persistenter KV-Cache über Anfragen hinweg in SimpleEngine — gleiche System-Prompts und Konversationsverlauf füllen nur neue Tokens vor
Reasoning-Trennung: Erstellter heuristischer Parser für MiniMax-Ausgaben, die Reasoning ohne Tags inline hatten — reduzierte Leak-Rate von 60% auf 0%

Leistungsverbesserungen

Mit 33K Token Kontext verbesserte sich die Time to First Token (TTFT) von 28 Sekunden auf 0,3 Sekunden bei Cache-Treffern. Benchmarks auf Mac Studio M3 Ultra 256GB:

Qwen3-Coder-Next 4bit: 42GB RAM, 70 Tok/s Decodierung, 1270 Tok/s Prefill
Qwen3-Coder-Next 6bit: 60GB RAM, 65 Tok/s Decodierung, 1090-1440 Tok/s Prefill
Qwen3-Coder-Next 8bit: 75GB RAM, ~45 Tok/s Decodierung, ~900 Tok/s Prefill
MiniMax-M2.5 4bit: 120GB RAM, 33-38 Tok/s Decodierung, 430-500 Tok/s Prefill

Der Entwickler empfiehlt Qwen3-Coder-Next 6bit als optimalen Kompromiss für interaktives Codieren und merkt an, dass die Qualität deutlich besser ist als bei 4bit (was gelegentlich verstümmelte Ausgaben hatte).

Einrichtungsanleitung

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Richten Sie dann OpenClaw oder einen beliebigen OpenAI SDK-Client auf http://localhost:8000/v1 aus.

Hardware-Anforderungen

Qwen3-Coder-Next 4bit: 42GB — passt auf M2 Pro 64GB oder besser
Qwen3-Coder-Next 6bit: 60GB — benötigt M2/M3/M4 Max 96GB+ oder Ultra
MiniMax-M2.5: 120GB — nur Ultra 192GB+

Was nicht funktioniert hat

Spekulatives Decodieren mit Qwen3-0.6B als Draft-Modell — mlx-lm hat einen bekannten Bug mit Qwen3 (überspringt Tokens, Issue #846)
DeepSeek-R1-Distill-70B für OpenClaw — großartig im Reasoning, aber Tool-Aufrufe sind unzuverlässig

Das Repository hat 1500+ Tests und ist unter Apache 2.0 lizenziert.

📖 Read the full source: r/LocalLLaMA