vllm-mlxフォークでツール呼び出しとプロンプトキャッシュ追加

開発者が、Mac上でOpenClawなどのAIコーディングエージェントをローカルで実行するための問題を修正したvllm-mlxの修正版を公開しました。このフォークは、Apple Silicon向けのOpenAI互換サーバーに機能するツール呼び出しとプロンプトキャッシュを追加しています。

主な修正点と機能

開発者は、特定の問題に対処するために、上流のvllm-mlxに対して37のコミットを行いました：

ツール呼び出し： --tool-call-parser hermes フラグを追加 — Qwen3-Coder-Nextのツール呼び出しがすぐに機能します
MiniMax-M2.5： ストリーミングおよび非ストリーミングのツール呼び出し解析を追加 — 機能呼び出しベンチマーク（天気、検索、コード実行、マルチツール）で4/4の精度を達成
プロンプトキャッシュ： SimpleEngineにリクエスト間で永続的なKVキャッシュを追加 — 同じシステムプロンプトと会話履歴は新しいトークンのみを事前入力します
推論の分離： タグなしで推論がインラインに含まれるMiniMax出力のためのヒューリスティックパーサーを構築 — リーク率を60%から0%に削減

パフォーマンスの改善

33Kトークンのコンテキストで、最初のトークンまでの時間（TTFT）が、キャッシュヒット時に28秒から0.3秒に改善されました。Mac Studio M3 Ultra 256GBでのベンチマーク：

Qwen3-Coder-Next 4bit： 42GB RAM、70 tok/s デコード、1270 tok/s プリフィル
Qwen3-Coder-Next 6bit： 60GB RAM、65 tok/s デコード、1090-1440 tok/s プリフィル
Qwen3-Coder-Next 8bit： 75GB RAM、約45 tok/s デコード、約900 tok/s プリフィル
MiniMax-M2.5 4bit： 120GB RAM、33-38 tok/s デコード、430-500 tok/s プリフィル

開発者は、インタラクティブなコーディングにはQwen3-Coder-Next 6bitが最適なバランスと指摘し、品質が4bit（時折出力が乱れることがあった）よりも明らかに優れていると述べています。

セットアップ手順

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

その後、OpenClawや任意のOpenAI SDKクライアントを http://localhost:8000/v1 に向けます。

ハードウェア要件

Qwen3-Coder-Next 4bit： 42GB — M2 Pro 64GB以上で動作可能
Qwen3-Coder-Next 6bit： 60GB — M2/M3/M4 Max 96GB以上またはUltraが必要
MiniMax-M2.5： 120GB — Ultra 192GB以上のみ

機能しなかった点

Qwen3-0.6Bをドラフトモデルとした推測的デコード — mlx-lmにはQwen3に関する既知のバグがあります（トークンをスキップする、issue #846）
OpenClaw用のDeepSeek-R1-Distill-70B — 推論は優れていますが、ツール呼び出しが不安定です

リポジトリには1500以上のテストがあり、Apache 2.0ライセンスの下で提供されています。

📖 完全なソースを読む： r/LocalLLaMA

vllm-mlxフォークは、ローカルAIコーディングエージェント向けにツール呼び出しとプロンプトキャッシュを追加します。

主な修正点と機能

パフォーマンスの改善

セットアップ手順

ハードウェア要件

機能しなかった点

👀 See Also

Claude Skillsが命令を静かに上書き：文書化されていない落とし穴が露呈

ClawBridge – ホームアシスタントエンティティをOpenClawに安全に公開

OpenLobster：Go言語で書かれたセルフホスト型AIエージェント、30MBのRAM使用量

bad-ass-mcp: アクセシビリティAPIによるネイティブデスクトップGUI制御のための無料オープンソースMCP