Benchmark : MLX vs Ollama exécutant Qwen3-Coder-Next 8-Bit sur MacBook Pro M5 Max

✍️ OpenClawRadar📅 Publié: April 16, 2026🔗 Source
Benchmark : MLX vs Ollama exécutant Qwen3-Coder-Next 8-Bit sur MacBook Pro M5 Max
Ad

Un benchmark a été réalisé comparant deux backends d'inférence locaux—MLX (le framework ML natif d'Apple) et Ollama (basé sur llama.cpp)—exécutant le même modèle Qwen3-Coder-Next en quantification 8 bits sur Apple Silicon. L'objectif était de mesurer le débit brut (tokens par seconde), le temps jusqu'au premier token (TTFT) et la capacité globale de programmation sur des tâches de codage réelles.

Méthodologie

La configuration utilisée :

  • Backend MLX : mlx-lm v0.29.1 servant mlx-community/Qwen3-Coder-Next-8bit via son serveur HTTP compatible OpenAI intégré sur le port 8080.
  • Backend Ollama : Ollama servant qwen3-coder-next:Q8_0 via son API compatible OpenAI sur le port 11434.

Les deux backends ont été accédés via le même harnais de benchmark Python utilisant la bibliothèque cliente OpenAI avec le streaming activé. Chaque test a été exécuté 3 itérations par prompt, avec les résultats moyennés et en excluant le TTFT de la première itération pour le prompt de démarrage à froid initial (chargement du modèle).

Suite de tests

Six prompts couvraient un spectre de tâches de programmation :

  • Complétion courte : Écrire une fonction de vérification de palindrome (150 tokens maximum)
  • Génération moyenne : Implémenter une classe de cache LRU avec des indications de type (500 tokens maximum)
  • Raisonnement long : Expliquer async/await vs threading avec des exemples (1000 tokens maximum)
  • Tâche de débogage : Trouver et corriger des bugs dans le tri fusion + recherche binaire (800 tokens maximum)
  • Codage complexe : File d'attente bloquante bornée thread-safe avec gestionnaire de contexte (1000 tokens maximum)
  • Revue de code : Examiner 3 fonctions pour la performance/correction/style (1000 tokens maximum)
Ad

Résultats

Débit (Tokens par Seconde) sur M5 Max avec 128 Go de RAM :

  • Complétion courte : Ollama 32,51 tok/s, MLX 69,62 tok/s (MLX +114 %)
  • Génération moyenne : Ollama 35,97 tok/s, MLX 78,28 tok/s (MLX +118 %)
  • Raisonnement long : Ollama 40,45 tok/s, MLX 78,29 tok/s (MLX +94 %)
  • Tâche de débogage : Ollama 37,06 tok/s, MLX 74,89 tok/s (MLX +102 %)
  • Codage complexe : Ollama 35,84 tok/s, MLX 76,99 tok/s (MLX +115 %)
  • Revue de code : Ollama 39,00 tok/s, MLX 74,98 tok/s (MLX +92 %)

Moyenne globale : MLX a atteint environ 72 tokens par seconde, soit environ le double du débit d'Ollama. Les métriques mesurées incluaient les tokens/sec (tokens de sortie générés par seconde, plus élevé est meilleur), TTFT (temps entre l'envoi de la requête et la réception du premier token, plus bas est meilleur), temps total (temps horloge pour la réponse complète, plus bas est meilleur) et l'utilisation de la mémoire mesurée via psutil.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Outils CLI avec Compatibilité Agent IA : Approche par Répertoire de Compétences
Tools

Outils CLI avec Compatibilité Agent IA : Approche par Répertoire de Compétences

Un utilisateur de Reddit partage une méthode pour faire fonctionner les outils CLI avec des agents de codage IA comme Claude Code en créant des fichiers SKILL.md qui enseignent aux agents l'installation, l'authentification et l'utilisation. L'approche aborde les problèmes courants comme les invites interactives, la sortie JSON et les méthodes d'authentification.

OpenClawRadar
Acheminer le trafic de l'API Claude pour contrôler les coûts suite au changement d'abonnement Max
Tools

Acheminer le trafic de l'API Claude pour contrôler les coûts suite au changement d'abonnement Max

L'abonnement Max d'Anthropic ne couvre plus l'utilisation d'outils tiers, forçant les utilisateurs d'OpenClaw à passer à la facturation par API. Un proxy de routage dirige les tâches simples vers Claude Sonnet (3 $/M d'entrée, 15 $/M de sortie) et les tâches complexes vers Opus (5 $/M d'entrée, 25 $/M de sortie), réduisant les coûts sans perte de qualité.

OpenClawRadar
Gérer le contexte de l'IA avec un magasin de connaissances SQLite et des outils MCP
Tools

Gérer le contexte de l'IA avec un magasin de connaissances SQLite et des outils MCP

Un développeur a construit RunawayContext, un système sous licence MIT qui stocke les leçons de projet dans SQLite avec FTS5 et sqlite-vec optionnel, en maintenant le contexte par session sous 3K tokens grâce à des outils de requête MCP et des limites codées en dur.

OpenClawRadar
Présentation d'Aionic Anthology : Un cadre pour structurer les tâches d'IA de Claude
Tools

Présentation d'Aionic Anthology : Un cadre pour structurer les tâches d'IA de Claude

Le cadre Aionic Anthology organise les tâches d'IA de Claude en séparant le contexte en catégories et en ajoutant un système d'évaluation des risques pour améliorer l'exécution des tâches.

OpenClawRadar