vllm-mlx-Fork fügt Tool-Calling und Prompt-Cache für lokale KI-Codierungsagenten hinzu

✍️ OpenClawRadar📅 Veröffentlicht: 26. Februar 2026🔗 Source
vllm-mlx-Fork fügt Tool-Calling und Prompt-Cache für lokale KI-Codierungsagenten hinzu
Ad

Ein Entwickler hat eine modifizierte Version von vllm-mlx veröffentlicht, die mehrere Probleme beim lokalen Betrieb von KI-Codierungsagenten wie OpenClaw auf dem Mac behebt. Der Fork fügt funktionierende Tool-Aufrufe und Prompt-Caching zum OpenAI-kompatiblen Server für Apple Silicon hinzu.

Wichtige Korrekturen und Funktionen

Der Entwickler hat 37 Commits auf Basis des Upstream-vllm-mlx durchgeführt, um spezifische Probleme anzugehen:

  • Tool-Aufrufe: Hinzugefügtes Flag --tool-call-parser hermes — Qwen3-Coder-Next Tool-Aufrufe funktionieren sofort
  • MiniMax-M2.5: Hinzugefügtes Streaming- und Nicht-Streaming-Tool-Call-Parsing mit 4/4 Genauigkeit bei Funktionsaufruf-Benchmarks (Wetter, Suche, Code-Ausführung, Multi-Tool)
  • Prompt-Cache: Hinzugefügter persistenter KV-Cache über Anfragen hinweg in SimpleEngine — gleiche System-Prompts und Konversationsverlauf füllen nur neue Tokens vor
  • Reasoning-Trennung: Erstellter heuristischer Parser für MiniMax-Ausgaben, die Reasoning ohne Tags inline hatten — reduzierte Leak-Rate von 60% auf 0%

Leistungsverbesserungen

Mit 33K Token Kontext verbesserte sich die Time to First Token (TTFT) von 28 Sekunden auf 0,3 Sekunden bei Cache-Treffern. Benchmarks auf Mac Studio M3 Ultra 256GB:

  • Qwen3-Coder-Next 4bit: 42GB RAM, 70 Tok/s Decodierung, 1270 Tok/s Prefill
  • Qwen3-Coder-Next 6bit: 60GB RAM, 65 Tok/s Decodierung, 1090-1440 Tok/s Prefill
  • Qwen3-Coder-Next 8bit: 75GB RAM, ~45 Tok/s Decodierung, ~900 Tok/s Prefill
  • MiniMax-M2.5 4bit: 120GB RAM, 33-38 Tok/s Decodierung, 430-500 Tok/s Prefill

Der Entwickler empfiehlt Qwen3-Coder-Next 6bit als optimalen Kompromiss für interaktives Codieren und merkt an, dass die Qualität deutlich besser ist als bei 4bit (was gelegentlich verstümmelte Ausgaben hatte).

Ad

Einrichtungsanleitung

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Richten Sie dann OpenClaw oder einen beliebigen OpenAI SDK-Client auf http://localhost:8000/v1 aus.

Hardware-Anforderungen

  • Qwen3-Coder-Next 4bit: 42GB — passt auf M2 Pro 64GB oder besser
  • Qwen3-Coder-Next 6bit: 60GB — benötigt M2/M3/M4 Max 96GB+ oder Ultra
  • MiniMax-M2.5: 120GB — nur Ultra 192GB+

Was nicht funktioniert hat

  • Spekulatives Decodieren mit Qwen3-0.6B als Draft-Modell — mlx-lm hat einen bekannten Bug mit Qwen3 (überspringt Tokens, Issue #846)
  • DeepSeek-R1-Distill-70B für OpenClaw — großartig im Reasoning, aber Tool-Aufrufe sind unzuverlässig

Das Repository hat 1500+ Tests und ist unter Apache 2.0 lizenziert.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

OpenClaw implementiert Agent History Compression, um die Kontextnutzung zu reduzieren
Werkzeuge

OpenClaw implementiert Agent History Compression, um die Kontextnutzung zu reduzieren

OpenClaw komprimiert nun den Agentenverlauf, indem abgeschlossene Teilaufgabenprotokolle durch strukturierte Zusammenfassungen ersetzt werden, wodurch ~1 Million Token auf ~30.000 reduziert werden. Das System nutzt einen 4-Pass-Scanner, um Aufgabenlebenszyklen zu identifizieren, und erstellt maskierte Zusammenfassungen, die die Agentenkompatibilität beibehalten.

OpenClawRadar
Semble: Codesuche für KI-Agenten mit 98 % weniger Tokens als grep+read
Werkzeuge

Semble: Codesuche für KI-Agenten mit 98 % weniger Tokens als grep+read

Semble ist eine quelloffene Code-Suchbibliothek für KI-Agenten, die statische Model2Vec-Embeddings mit BM25 kombiniert und vollständig auf CPU läuft. Es indiziert ein Repository in ~250ms und beantwortet Suchanfragen in ~1.5ms, wobei es eine NDCG@10 von 0.854 erreicht – 99% der Qualität eines 137M-Parameter-Transformers – bei gleichzeitig 98% weniger Token als grep+read.

OpenClawRadar
civStation: Ein VLM-System zum Spielen von Civilization VI über natürliche Sprachbefehle
Werkzeuge

civStation: Ein VLM-System zum Spielen von Civilization VI über natürliche Sprachbefehle

civStation ist ein VLM-System zur Computernutzung, das Civilization VI spielt, indem es hochrangige natürliche Sprachbefehle in Spielaktionen übersetzt. Das System verwendet eine 3-Schichten-Architektur, die Strategie und Ausführung trennt, mit Unterstützung für menschliche Eingriffe.

OpenClawRadar
Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude
Werkzeuge

Claudius: Open-Source Einbettbares KI-Chat-Widget für Claude

Claudius ist ein quelloffenes, selbst gehostetes Chat-Widget, das von Claude angetrieben wird und mit einem einzigen Skript-Tag auf jeder Website eingebettet werden kann. Es läuft auf Cloudflare Workers mit einem React-Frontend und bietet Funktionen wie benutzerdefinierte Systemaufforderungen, Ratenbegrenzung und Barrierefreiheitskonformität.

OpenClawRadar