Fork vllm-mlx : Appel d'outils & Cache Prompts

Un développeur a publié une version modifiée de vllm-mlx qui corrige plusieurs problèmes pour exécuter des agents d'IA de codage comme OpenClaw localement sur Mac. Le fork ajoute un appel d'outils fonctionnel et la mise en cache des invites au serveur compatible OpenAI pour Apple Silicon.

Corrections et fonctionnalités clés

Le développeur a effectué 37 commits sur la version principale de vllm-mlx pour résoudre des problèmes spécifiques :

Appel d'outils : Ajout du drapeau --tool-call-parser hermes — les appels d'outils de Qwen3-Coder-Next fonctionnent immédiatement
MiniMax-M2.5 : Ajout de l'analyse des appels d'outils en streaming et non-streaming avec une précision de 4/4 sur les benchmarks d'appel de fonction (météo, recherche, exécution de code, multi-outils)
Cache d'invite : Ajout d'un cache KV persistant entre les requêtes dans SimpleEngine — seules les nouvelles unités lexicales sont pré-remplies avec la même invite système et l'historique de conversation
Séparation du raisonnement : Construction d'un analyseur heuristique pour les sorties MiniMax qui avaient un raisonnement intégré sans balises — réduction du taux de fuite de 60 % à 0 %

Améliorations des performances

Avec un contexte de 33K unités lexicales, le temps jusqu'au premier jeton (TTFT) est passé de 28 secondes à 0,3 seconde en cas de succès du cache. Benchmarks sur Mac Studio M3 Ultra 256GB :

Qwen3-Coder-Next 4bit : 42GB RAM, 70 tok/s en décodage, 1270 tok/s en pré-remplissage
Qwen3-Coder-Next 6bit : 60GB RAM, 65 tok/s en décodage, 1090-1440 tok/s en pré-remplissage
Qwen3-Coder-Next 8bit : 75GB RAM, ~45 tok/s en décodage, ~900 tok/s en pré-remplissage
MiniMax-M2.5 4bit : 120GB RAM, 33-38 tok/s en décodage, 430-500 tok/s en pré-remplissage

Le développeur recommande Qwen3-Coder-Next 6bit comme le point idéal pour le codage interactif, notant que la qualité est nettement meilleure que le 4bit (qui avait parfois une sortie incohérente).

Instructions d'installation

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Puis dirigez OpenClaw ou tout client SDK OpenAI vers http://localhost:8000/v1.

Exigences matérielles

Qwen3-Coder-Next 4bit : 42GB — convient à M2 Pro 64GB ou mieux
Qwen3-Coder-Next 6bit : 60GB — nécessite M2/M3/M4 Max 96GB+ ou Ultra
MiniMax-M2.5 : 120GB — Ultra 192GB+ uniquement

Ce qui n'a pas fonctionné

Décodage spéculatif avec Qwen3-0.6B comme modèle de brouillon — mlx-lm a un bug connu avec Qwen3 (saute des unités lexicales, problème #846)
DeepSeek-R1-Distill-70B pour OpenClaw — excellent en raisonnement mais l'appel d'outils est peu fiable

Le dépôt contient plus de 1500 tests et est sous licence Apache 2.0.

📖 Lire la source complète : r/LocalLLaMA

La bifurcation vllm-mlx ajoute l'appel d'outils et le cache de prompts pour les agents d'IA de codage locaux.

Corrections et fonctionnalités clés

Améliorations des performances

Instructions d'installation

Exigences matérielles

Ce qui n'a pas fonctionné

👀 See Also

Liste Sélectionnée de 260+ Outils d'Agents IA avec les Points Forts de l'Écosystème Claude

Prompt-Master : Compétence Claude pour générer des invites précises d'outils d'IA

Compétence de balayage de sécurité pour les agents d'IA de codage vérifiant automatiquement les déploiements

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante