MLX vs Ollama Qwen3-Coder-Next 8-Bit : Benchmarks MacBook Pro M5 Max

Un benchmark a été réalisé comparant deux backends d'inférence locaux—MLX (le framework ML natif d'Apple) et Ollama (basé sur llama.cpp)—exécutant le même modèle Qwen3-Coder-Next en quantification 8 bits sur Apple Silicon. L'objectif était de mesurer le débit brut (tokens par seconde), le temps jusqu'au premier token (TTFT) et la capacité globale de programmation sur des tâches de codage réelles.

Méthodologie

La configuration utilisée :

Backend MLX : mlx-lm v0.29.1 servant mlx-community/Qwen3-Coder-Next-8bit via son serveur HTTP compatible OpenAI intégré sur le port 8080.
Backend Ollama : Ollama servant qwen3-coder-next:Q8_0 via son API compatible OpenAI sur le port 11434.

Les deux backends ont été accédés via le même harnais de benchmark Python utilisant la bibliothèque cliente OpenAI avec le streaming activé. Chaque test a été exécuté 3 itérations par prompt, avec les résultats moyennés et en excluant le TTFT de la première itération pour le prompt de démarrage à froid initial (chargement du modèle).

Suite de tests

Six prompts couvraient un spectre de tâches de programmation :

Complétion courte : Écrire une fonction de vérification de palindrome (150 tokens maximum)
Génération moyenne : Implémenter une classe de cache LRU avec des indications de type (500 tokens maximum)
Raisonnement long : Expliquer async/await vs threading avec des exemples (1000 tokens maximum)
Tâche de débogage : Trouver et corriger des bugs dans le tri fusion + recherche binaire (800 tokens maximum)
Codage complexe : File d'attente bloquante bornée thread-safe avec gestionnaire de contexte (1000 tokens maximum)
Revue de code : Examiner 3 fonctions pour la performance/correction/style (1000 tokens maximum)

Résultats

Débit (Tokens par Seconde) sur M5 Max avec 128 Go de RAM :

Complétion courte : Ollama 32,51 tok/s, MLX 69,62 tok/s (MLX +114 %)
Génération moyenne : Ollama 35,97 tok/s, MLX 78,28 tok/s (MLX +118 %)
Raisonnement long : Ollama 40,45 tok/s, MLX 78,29 tok/s (MLX +94 %)
Tâche de débogage : Ollama 37,06 tok/s, MLX 74,89 tok/s (MLX +102 %)
Codage complexe : Ollama 35,84 tok/s, MLX 76,99 tok/s (MLX +115 %)
Revue de code : Ollama 39,00 tok/s, MLX 74,98 tok/s (MLX +92 %)

Moyenne globale : MLX a atteint environ 72 tokens par seconde, soit environ le double du débit d'Ollama. Les métriques mesurées incluaient les tokens/sec (tokens de sortie générés par seconde, plus élevé est meilleur), TTFT (temps entre l'envoi de la requête et la réception du premier token, plus bas est meilleur), temps total (temps horloge pour la réponse complète, plus bas est meilleur) et l'utilisation de la mémoire mesurée via psutil.

📖 Read the full source: r/LocalLLaMA

Benchmark : MLX vs Ollama exécutant Qwen3-Coder-Next 8-Bit sur MacBook Pro M5 Max

Méthodologie

Suite de tests

Résultats

👀 See Also

Résultats de référence : Quand utiliser Claude Opus avec Codex vs. Opus pur pour la génération de code

NaNMesh MCP vérifie les problèmes GitHub avant que Claude ne recommande des bibliothèques

LobsterBoard ajoute un système de thèmes et une galerie de modèles

Claude Watch : un outil open source qui visualise la logique du code généré par l'IA