MLX vs Ollama: Qwen3-Coder-Next 8-Bit Benchmark auf M5 Max

Es wurde ein Benchmark durchgeführt, der zwei lokale Inferenz-Backends vergleicht – MLX (Apples natives ML-Framework) und Ollama (basierend auf llama.cpp) – die dasselbe Qwen3-Coder-Next-Modell in 8-Bit-Quantisierung auf Apple Silicon ausführen. Ziel war es, den Rohdurchsatz (Token pro Sekunde), die Zeit bis zum ersten Token (TTFT) und die allgemeine Programmierfähigkeit über realistische Programmieraufgaben hinweg zu messen.

Methodik

Der Aufbau verwendete:

MLX-Backend: mlx-lm v0.29.1, das mlx-community/Qwen3-Coder-Next-8bit über seinen eingebauten OpenAI-kompatiblen HTTP-Server auf Port 8080 bereitstellt.
Ollama-Backend: Ollama, das qwen3-coder-next:Q8_0 über seine OpenAI-kompatible API auf Port 11434 bereitstellt.

Beide Backends wurden über dasselbe Python-Benchmark-Harness mit der OpenAI-Client-Bibliothek und aktiviertem Streaming angesprochen. Jeder Test wurde 3 Iterationen pro Prompt ausgeführt, wobei die Ergebnisse gemittelt und die TTFT der ersten Iteration für den anfänglichen Cold-Start-Prompt (Modellladen) ausgeschlossen wurden.

Testsuite

Sechs Prompts deckten ein Spektrum von Programmieraufgaben ab:

Kurze Vervollständigung: Schreibe eine Palindrom-Prüffunktion (max. 150 Token)
Mittlere Generierung: Implementiere eine LRU-Cache-Klasse mit Typ-Hinweisen (max. 500 Token)
Lange Argumentation: Erkläre async/await vs. Threading mit Beispielen (max. 1000 Token)
Debug-Aufgabe: Finde und behebe Fehler in Merge Sort + Binärsuche (max. 800 Token)
Komplexe Programmierung: Thread-sichere begrenzte Blocking-Queue mit Context Manager (max. 1000 Token)
Code-Review: Überprüfe 3 Funktionen auf Leistung/Korrektheit/Stil (max. 1000 Token)

Ergebnisse

Durchsatz (Token pro Sekunde) auf M5 Max mit 128 GB RAM:

Kurze Vervollständigung: Ollama 32,51 Tok/s, MLX 69,62 Tok/s (MLX +114 %)
Mittlere Generierung: Ollama 35,97 Tok/s, MLX 78,28 Tok/s (MLX +118 %)
Lange Argumentation: Ollama 40,45 Tok/s, MLX 78,29 Tok/s (MLX +94 %)
Debug-Aufgabe: Ollama 37,06 Tok/s, MLX 74,89 Tok/s (MLX +102 %)
Komplexe Programmierung: Ollama 35,84 Tok/s, MLX 76,99 Tok/s (MLX +115 %)
Code-Review: Ollama 39,00 Tok/s, MLX 74,98 Tok/s (MLX +92 %)

Gesamtdurchschnitt: MLX erreichte ungefähr 72 Token pro Sekunde, was ungefähr dem doppelten Durchsatz von Ollama entspricht. Gemessene Metriken umfassten Tokens/Sek. (Ausgabe-Token pro Sekunde, höher ist besser), TTFT (Zeit von der Anfrage bis zum ersten empfangenen Token, niedriger ist besser), Gesamtzeit (Echtzeit für vollständige Antwort, niedriger ist besser) und Speichernutzung gemessen via psutil.

📖 Read the full source: r/LocalLLaMA

Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro

Methodik

Testsuite

Ergebnisse

👀 Siehe auch

Lokaler KI-Agenten-Workflow mit OpenCode, FastMCP und DeepSeek-r1

Claude-Wachstumsfähigkeit: Strukturierte B2B-SaaS-Wachstumsplaybooks für KI-Codierungsagenten

Claude Ops: Browser-Dashboard für Claude Code Live-Status und Subagenten-Tracking

Lokale Deep-Research-Tools: GPT Researcher und Local Deep Research vorn, STORM- und LangChain-Projekte stagnieren