vllm-mlxフォークは、ローカルAIコーディングエージェント向けにツール呼び出しとプロンプトキャッシュを追加します。

開発者が、Mac上でOpenClawなどのAIコーディングエージェントをローカルで実行するための問題を修正したvllm-mlxの修正版を公開しました。このフォークは、Apple Silicon向けのOpenAI互換サーバーに機能するツール呼び出しとプロンプトキャッシュを追加しています。
主な修正点と機能
開発者は、特定の問題に対処するために、上流のvllm-mlxに対して37のコミットを行いました:
- ツール呼び出し:
--tool-call-parser hermesフラグを追加 — Qwen3-Coder-Nextのツール呼び出しがすぐに機能します - MiniMax-M2.5: ストリーミングおよび非ストリーミングのツール呼び出し解析を追加 — 機能呼び出しベンチマーク(天気、検索、コード実行、マルチツール)で4/4の精度を達成
- プロンプトキャッシュ: SimpleEngineにリクエスト間で永続的なKVキャッシュを追加 — 同じシステムプロンプトと会話履歴は新しいトークンのみを事前入力します
- 推論の分離: タグなしで推論がインラインに含まれるMiniMax出力のためのヒューリスティックパーサーを構築 — リーク率を60%から0%に削減
パフォーマンスの改善
33Kトークンのコンテキストで、最初のトークンまでの時間(TTFT)が、キャッシュヒット時に28秒から0.3秒に改善されました。Mac Studio M3 Ultra 256GBでのベンチマーク:
- Qwen3-Coder-Next 4bit: 42GB RAM、70 tok/s デコード、1270 tok/s プリフィル
- Qwen3-Coder-Next 6bit: 60GB RAM、65 tok/s デコード、1090-1440 tok/s プリフィル
- Qwen3-Coder-Next 8bit: 75GB RAM、約45 tok/s デコード、約900 tok/s プリフィル
- MiniMax-M2.5 4bit: 120GB RAM、33-38 tok/s デコード、430-500 tok/s プリフィル
開発者は、インタラクティブなコーディングにはQwen3-Coder-Next 6bitが最適なバランスと指摘し、品質が4bit(時折出力が乱れることがあった)よりも明らかに優れていると述べています。
セットアップ手順
pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
--model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
--tool-call-parser hermes \
--prefill-step-size 8192 \
--kv-bits 8 \
--port 8000
その後、OpenClawや任意のOpenAI SDKクライアントを http://localhost:8000/v1 に向けます。
ハードウェア要件
- Qwen3-Coder-Next 4bit: 42GB — M2 Pro 64GB以上で動作可能
- Qwen3-Coder-Next 6bit: 60GB — M2/M3/M4 Max 96GB以上またはUltraが必要
- MiniMax-M2.5: 120GB — Ultra 192GB以上のみ
機能しなかった点
- Qwen3-0.6Bをドラフトモデルとした推測的デコード — mlx-lmにはQwen3に関する既知のバグがあります(トークンをスキップする、issue #846)
- OpenClaw用のDeepSeek-R1-Distill-70B — 推論は優れていますが、ツール呼び出しが不安定です
リポジトリには1500以上のテストがあり、Apache 2.0ライセンスの下で提供されています。
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

HTMLアーティファクトは技術文書向けにGoogleドキュメントを代替するが、コメント機能が不足している
Claudeが生成するHTMLアーティファクトが、スパイク読み取りやアーキテクチャノートなどの長文の技術コンテンツでGoogleドキュメントに取って代わりつつあるが、サンドボックス化されたiframeの性質上、インラインコメントやレビュー機能が利用できない。

NGX-OS: eBPFとMCP統合を備えたAI向けに構築されたネットワークOS
NGX-OSは、AI統合のために一から設計されたネットワークオペレーティングシステムで、リアルタイムテレメトリにeBPFを、ネットワーク状態データへの直接的なLLMアクセスにMCPを使用し、翻訳レイヤーを介さずに動作します。

AIエージェントのセキュリティと最適化のための2つの新しいオープンソースツール
AIエージェント開発者向けに2つのオープンソースツールが利用可能です:AI Agent Defense Kitはランタイムセキュリティスキルを提供し、AgentGuard(開発中)はコスト追跡、セキュリティスキャン、アクティビティ監視を提供します。

マニュアル駆動開発:クロードコードの自信過剰な逸脱を防ぐ方法
マニュアル駆動開発(MDD)は、Claude Codeにおける自信過剰な乖離に対処する手法です。AIが誤った前提に基づいて、自身のテストを通過する誤ったコードを生成する問題を解決します。本番環境監査では、MDDが190件の問題を発見し、8時間未満で876件の新規テストを作成し、ルール違反を排除しました。