Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro

✍️ OpenClawRadar📅 Veröffentlicht: 16. April 2026🔗 Source
Benchmark: MLX vs. Ollama beim Ausführen von Qwen3-Coder-Next 8-Bit auf dem M5 Max MacBook Pro
Ad

Es wurde ein Benchmark durchgeführt, der zwei lokale Inferenz-Backends vergleicht – MLX (Apples natives ML-Framework) und Ollama (basierend auf llama.cpp) – die dasselbe Qwen3-Coder-Next-Modell in 8-Bit-Quantisierung auf Apple Silicon ausführen. Ziel war es, den Rohdurchsatz (Token pro Sekunde), die Zeit bis zum ersten Token (TTFT) und die allgemeine Programmierfähigkeit über realistische Programmieraufgaben hinweg zu messen.

Methodik

Der Aufbau verwendete:

  • MLX-Backend: mlx-lm v0.29.1, das mlx-community/Qwen3-Coder-Next-8bit über seinen eingebauten OpenAI-kompatiblen HTTP-Server auf Port 8080 bereitstellt.
  • Ollama-Backend: Ollama, das qwen3-coder-next:Q8_0 über seine OpenAI-kompatible API auf Port 11434 bereitstellt.

Beide Backends wurden über dasselbe Python-Benchmark-Harness mit der OpenAI-Client-Bibliothek und aktiviertem Streaming angesprochen. Jeder Test wurde 3 Iterationen pro Prompt ausgeführt, wobei die Ergebnisse gemittelt und die TTFT der ersten Iteration für den anfänglichen Cold-Start-Prompt (Modellladen) ausgeschlossen wurden.

Testsuite

Sechs Prompts deckten ein Spektrum von Programmieraufgaben ab:

  • Kurze Vervollständigung: Schreibe eine Palindrom-Prüffunktion (max. 150 Token)
  • Mittlere Generierung: Implementiere eine LRU-Cache-Klasse mit Typ-Hinweisen (max. 500 Token)
  • Lange Argumentation: Erkläre async/await vs. Threading mit Beispielen (max. 1000 Token)
  • Debug-Aufgabe: Finde und behebe Fehler in Merge Sort + Binärsuche (max. 800 Token)
  • Komplexe Programmierung: Thread-sichere begrenzte Blocking-Queue mit Context Manager (max. 1000 Token)
  • Code-Review: Überprüfe 3 Funktionen auf Leistung/Korrektheit/Stil (max. 1000 Token)
Ad

Ergebnisse

Durchsatz (Token pro Sekunde) auf M5 Max mit 128 GB RAM:

  • Kurze Vervollständigung: Ollama 32,51 Tok/s, MLX 69,62 Tok/s (MLX +114 %)
  • Mittlere Generierung: Ollama 35,97 Tok/s, MLX 78,28 Tok/s (MLX +118 %)
  • Lange Argumentation: Ollama 40,45 Tok/s, MLX 78,29 Tok/s (MLX +94 %)
  • Debug-Aufgabe: Ollama 37,06 Tok/s, MLX 74,89 Tok/s (MLX +102 %)
  • Komplexe Programmierung: Ollama 35,84 Tok/s, MLX 76,99 Tok/s (MLX +115 %)
  • Code-Review: Ollama 39,00 Tok/s, MLX 74,98 Tok/s (MLX +92 %)

Gesamtdurchschnitt: MLX erreichte ungefähr 72 Token pro Sekunde, was ungefähr dem doppelten Durchsatz von Ollama entspricht. Gemessene Metriken umfassten Tokens/Sek. (Ausgabe-Token pro Sekunde, höher ist besser), TTFT (Zeit von der Anfrage bis zum ersten empfangenen Token, niedriger ist besser), Gesamtzeit (Echtzeit für vollständige Antwort, niedriger ist besser) und Speichernutzung gemessen via psutil.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Implementierung eines lokalen Sprachassistenten mit Qwen3 auf RTX 5060 Ti
Werkzeuge

Implementierung eines lokalen Sprachassistenten mit Qwen3 auf RTX 5060 Ti

Ein vollständig lokaler Sprachassistent für die Hausautomation, der Qwen3 ASR, LLM und TTS auf einer RTX 5060 Ti verwendet und die Stimme von Morgan Freeman klont sowie verschiedene Integrationswerkzeuge bietet.

OpenClawRadar
Entwickler baut native tmux-Port für Windows mit Claude Code, ohne C zu kennen
Werkzeuge

Entwickler baut native tmux-Port für Windows mit Claude Code, ohne C zu kennen

Ein Entwickler hat tmux-win erstellt, einen nativen Windows-Multiplexer, der Claude Code nutzt, um Win32-API und conpty-Implementierung zu handhaben, obwohl er C nicht kennt. Das Tool bietet vertikale/horizontale Aufteilungen, abtrennbare Sitzungen und native Leistung ohne VM-Overhead.

OpenClawRadar
Code-Entscheidungen: Open-Source-Claude-Plugin erfasst technische Entscheidungen
Werkzeuge

Code-Entscheidungen: Open-Source-Claude-Plugin erfasst technische Entscheidungen

Code Decisions ist ein Open-Source-Claude-Code-Plugin, das technische Entscheidungen aus Gesprächen erfasst und sie anzeigt, wenn betroffene Dateien bearbeitet werden. Es schreibt Entscheidungen als Markdown-Dateien in .claude/decisions/ mit einem affects-Feld, das auf die verwalteten Dateien verweist.

OpenClawRadar
SkillOpt: Optimierung von Markdown-Fähigkeitsdateien als trainierbare Parameter für KI-Agenten
Werkzeuge

SkillOpt: Optimierung von Markdown-Fähigkeitsdateien als trainierbare Parameter für KI-Agenten

SkillOpt formalisiert den Ad-hoc-Prozess des Bearbeitens von Markdown-Skill-Dateien für KI-Codierungsagenten, indem es Frontier-Modelle nutzt, um begrenzte Änderungen vorzuschlagen, die an Validierungssätzen geprüft werden. Die besten Skills konvergieren mit 1-4 akzeptierten Änderungen aus vielen Vorschlägen und lassen sich zwischen Modellen wie Codex und Claude Code übertragen.

OpenClawRadar