La bifurcation vllm-mlx ajoute l'appel d'outils et le cache de prompts pour les agents d'IA de codage locaux.

✍️ OpenClawRadar📅 Publié: February 26, 2026🔗 Source
La bifurcation vllm-mlx ajoute l'appel d'outils et le cache de prompts pour les agents d'IA de codage locaux.
Ad

Un développeur a publié une version modifiée de vllm-mlx qui corrige plusieurs problèmes pour exécuter des agents d'IA de codage comme OpenClaw localement sur Mac. Le fork ajoute un appel d'outils fonctionnel et la mise en cache des invites au serveur compatible OpenAI pour Apple Silicon.

Corrections et fonctionnalités clés

Le développeur a effectué 37 commits sur la version principale de vllm-mlx pour résoudre des problèmes spécifiques :

  • Appel d'outils : Ajout du drapeau --tool-call-parser hermes — les appels d'outils de Qwen3-Coder-Next fonctionnent immédiatement
  • MiniMax-M2.5 : Ajout de l'analyse des appels d'outils en streaming et non-streaming avec une précision de 4/4 sur les benchmarks d'appel de fonction (météo, recherche, exécution de code, multi-outils)
  • Cache d'invite : Ajout d'un cache KV persistant entre les requêtes dans SimpleEngine — seules les nouvelles unités lexicales sont pré-remplies avec la même invite système et l'historique de conversation
  • Séparation du raisonnement : Construction d'un analyseur heuristique pour les sorties MiniMax qui avaient un raisonnement intégré sans balises — réduction du taux de fuite de 60 % à 0 %

Améliorations des performances

Avec un contexte de 33K unités lexicales, le temps jusqu'au premier jeton (TTFT) est passé de 28 secondes à 0,3 seconde en cas de succès du cache. Benchmarks sur Mac Studio M3 Ultra 256GB :

  • Qwen3-Coder-Next 4bit : 42GB RAM, 70 tok/s en décodage, 1270 tok/s en pré-remplissage
  • Qwen3-Coder-Next 6bit : 60GB RAM, 65 tok/s en décodage, 1090-1440 tok/s en pré-remplissage
  • Qwen3-Coder-Next 8bit : 75GB RAM, ~45 tok/s en décodage, ~900 tok/s en pré-remplissage
  • MiniMax-M2.5 4bit : 120GB RAM, 33-38 tok/s en décodage, 430-500 tok/s en pré-remplissage

Le développeur recommande Qwen3-Coder-Next 6bit comme le point idéal pour le codage interactif, notant que la qualité est nettement meilleure que le 4bit (qui avait parfois une sortie incohérente).

Ad

Instructions d'installation

pip install git+https://github.com/raullenchai/vllm-mlx.git
python -c "from mlx_lm import load; load('lmstudio-community/Qwen3-Coder-Next-MLX-6bit')"
python -m vllm_mlx.server \
  --model lmstudio-community/Qwen3-Coder-Next-MLX-6bit \
  --tool-call-parser hermes \
  --prefill-step-size 8192 \
  --kv-bits 8 \
  --port 8000

Puis dirigez OpenClaw ou tout client SDK OpenAI vers http://localhost:8000/v1.

Exigences matérielles

  • Qwen3-Coder-Next 4bit : 42GB — convient à M2 Pro 64GB ou mieux
  • Qwen3-Coder-Next 6bit : 60GB — nécessite M2/M3/M4 Max 96GB+ ou Ultra
  • MiniMax-M2.5 : 120GB — Ultra 192GB+ uniquement

Ce qui n'a pas fonctionné

  • Décodage spéculatif avec Qwen3-0.6B comme modèle de brouillon — mlx-lm a un bug connu avec Qwen3 (saute des unités lexicales, problème #846)
  • DeepSeek-R1-Distill-70B pour OpenClaw — excellent en raisonnement mais l'appel d'outils est peu fiable

Le dépôt contient plus de 1500 tests et est sous licence Apache 2.0.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

OutClaw : Installateur et Gestionnaire d'Interface Graphique pour OpenClaw dans Docker
Tools

OutClaw : Installateur et Gestionnaire d'Interface Graphique pour OpenClaw dans Docker

OutClaw est une application gratuite et open-source qui installe et gère des instances OpenClaw dans des conteneurs Docker. Il fournit une interface graphique étape par étape pour la configuration, la connexion aux fournisseurs d'IA et aux canaux de discussion, sans utiliser la ligne de commande.

OpenClawRadar
Serveur MCP d'analytique Claude-First : Donner aux agents IA un accès direct au contexte d'analytique web
Tools

Serveur MCP d'analytique Claude-First : Donner aux agents IA un accès direct au contexte d'analytique web

Un développeur a reconstruit son outil d'analyse web en tant que serveur MCP, exposant des analyses web simples, des liens traçables et des outils d'information produit directement à Claude, permettant aux agents IA de tirer parti des données du site aux côtés du code et du contexte de la base de données.

OpenClawRadar
Le moteur de RPG solo open-source utilise trois instances Claude pour l'analyse, la narration et la direction.
Tools

Le moteur de RPG solo open-source utilise trois instances Claude pour l'analyse, la narration et la direction.

EdgeTales est un moteur de jeu de rôle solo open-source basé sur du texte où la mécanique des dés détermine les résultats et l'IA Claude génère une prose atmosphérique. Le système utilise trois instances Claude en pipeline : Cerveau (Haiku) pour analyser l'entrée en JSON, Narrateur (Sonnet) pour écrire la prose, et Directeur (Haiku) pour l'analyse asynchrone des scènes.

OpenClawRadar
Résultats de référence des tests APEX : Performance de Qwen 3.5 sur des tâches de codage réelles
Tools

Résultats de référence des tests APEX : Performance de Qwen 3.5 sur des tâches de codage réelles

Les résultats du benchmark APEX Testing montrent les performances des modèles Qwen 3.5 sur 70 tâches de codage réelles issues de GitHub, avec la version 397B qui chute à 1194 ELO sur les tâches de niveau maître, tandis que GLM-4.7 quantifié mène les modèles locaux avec 1572 ELO.

OpenClawRadar