vllm-mlx-Fork fügt Tool-Calling und Prompt-Cache für lokale KI-Codierungsagenten hinzu

Ein Entwickler hat eine modifizierte Version von vllm-mlx veröffentlicht, die mehrere Probleme beim lokalen Betrieb von KI-Codierungsagenten wie OpenClaw auf dem Mac behebt. Der Fork fügt funktionierende Tool-Aufrufe und Prompt-Caching zum OpenAI-kompatiblen Server für Apple Silicon hinzu.
Wichtige Korrekturen und Funktionen
Der Entwickler hat 37 Commits auf Basis des Upstream-vllm-mlx durchgeführt, um spezifische Probleme anzugehen:
- Tool-Aufrufe: Hinzugefügtes Flag
--tool-call-parser hermes— Qwen3-Coder-Next Tool-Aufrufe funktionieren sofort - MiniMax-M2.5: Hinzugefügtes Streaming- und Nicht-Streaming-Tool-Call-Parsing mit 4/4 Genauigkeit bei Funktionsaufruf-Benchmarks (Wetter, Suche, Code-Ausführung, Multi-Tool)
- Prompt-Cache: Hinzugefügter persistenter KV-Cache über Anfragen hinweg in SimpleEngine — gleiche System-Prompts und Konversationsverlauf füllen nur neue Tokens vor
- Reasoning-Trennung: Erstellter heuristischer Parser für MiniMax-Ausgaben, die Reasoning ohne Tags inline hatten — reduzierte Leak-Rate von 60% auf 0%
Leistungsverbesserungen
Mit 33K Token Kontext verbesserte sich die Time to First Token (TTFT) von 28 Sekunden auf 0,3 Sekunden bei Cache-Treffern. Benchmarks auf Mac Studio M3 Ultra 256GB:
- Qwen3-Coder-Next 4bit: 42GB RAM, 70 Tok/s Decodierung, 1270 Tok/s Prefill
- Qwen3-Coder-Next 6bit: 60GB RAM, 65 Tok/s Decodierung, 1090-1440 Tok/s Prefill
- Qwen3-Coder-Next 8bit: 75GB RAM, ~45 Tok/s Decodierung, ~900 Tok/s Prefill
- MiniMax-M2.5 4bit: 120GB RAM, 33-38 Tok/s Decodierung, 430-500 Tok/s Prefill
Der Entwickler empfiehlt Qwen3-Coder-Next 6bit als optimalen Kompromiss für interaktives Codieren und merkt an, dass die Qualität deutlich besser ist als bei 4bit (was gelegentlich verstümmelte Ausgaben hatte).
Einrichtungsanleitung
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
Richten Sie dann OpenClaw oder einen beliebigen OpenAI SDK-Client auf http://localhost:8000/v1 aus.
Hardware-Anforderungen
- Qwen3-Coder-Next 4bit: 42GB — passt auf M2 Pro 64GB oder besser
- Qwen3-Coder-Next 6bit: 60GB — benötigt M2/M3/M4 Max 96GB+ oder Ultra
- MiniMax-M2.5: 120GB — nur Ultra 192GB+
Was nicht funktioniert hat
- Spekulatives Decodieren mit Qwen3-0.6B als Draft-Modell — mlx-lm hat einen bekannten Bug mit Qwen3 (überspringt Tokens, Issue #846)
- DeepSeek-R1-Distill-70B für OpenClaw — großartig im Reasoning, aber Tool-Aufrufe sind unzuverlässig
Das Repository hat 1500+ Tests und ist unter Apache 2.0 lizenziert.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

OpenClaw implementiert Agent History Compression, um die Kontextnutzung zu reduzieren
OpenClaw komprimiert nun den Agentenverlauf, indem abgeschlossene Teilaufgabenprotokolle durch strukturierte Zusammenfassungen ersetzt werden, wodurch ~1 Million Token auf ~30.000 reduziert werden. Das System nutzt einen 4-Pass-Scanner, um Aufgabenlebenszyklen zu identifizieren, und erstellt maskierte Zusammenfassungen, die die Agentenkompatibilität beibehalten.

Semble: Codesuche für KI-Agenten mit 98 % weniger Tokens als grep+read
Semble ist eine quelloffene Code-Suchbibliothek für KI-Agenten, die statische Model2Vec-Embeddings mit BM25 kombiniert und vollständig auf CPU läuft. Es indiziert ein Repository in ~250ms und beantwortet Suchanfragen in ~1.5ms, wobei es eine NDCG@10 von 0.854 erreicht – 99% der Qualität eines 137M-Parameter-Transformers – bei gleichzeitig 98% weniger Token als grep+read.

civStation: Ein VLM-System zum Spielen von Civilization VI über natürliche Sprachbefehle
civStation ist ein VLM-System zur Computernutzung, das Civilization VI spielt, indem es hochrangige natürliche Sprachbefehle in Spielaktionen übersetzt. Das System verwendet eine 3-Schichten-Architektur, die Strategie und Ausführung trennt, mit Unterstützung für menschliche Eingriffe.

Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude
Claudius ist ein quelloffenes, selbst gehostetes Chat-Widget, das von Claude angetrieben wird und mit einem einzigen Skript-Tag auf jeder Website eingebettet werden kann. Es läuft auf Cloudflare Workers mit einem React-Frontend und bietet Funktionen wie benutzerdefinierte Systemaufforderungen, Ratenbegrenzung und Barrierefreiheitskonformität.