MLX 2026: 71,8 Token/s mit Qwen3.5-35B-A3B

Leistungsbenchmarks auf dem M2 Ultra

Die Quelle benchmarkt die MLX-Inferenz auf einem Mac Studio M2 Ultra mit 128 GB einheitlichem Arbeitsspeicher, wobei große Modelle lokal für Coding-Agent-Workloads ausgeführt werden. Die Generierungsgeschwindigkeit wurde über vier Modelle hinweg gemessen, mit einem Decode-Durchsatz in Token/Sekunde bei verschiedenen KV-Cache-Tiefen (256 Ausgabe-Token pro Durchlauf).

Modelleistungsdaten

Qwen3.5-27B (dicht, 8-Bit): 20,2 Tok/s bei 4K, 16,4 Tok/s bei 64K, 13,1 Tok/s bei 128K
Qwen3.5-35B-A3B (MoE, 8-Bit): 71,8 Tok/s bei 4K, 53,5 Tok/s bei 64K, 41,9 Tok/s bei 128K
Nemotron Super 120B (5-Bit): 36,4 Tok/s bei 4K, 31,2 Tok/s bei 64K, 28,4 Tok/s bei 128K
Qwen3.5-122B-A10B (MoE, 5-Bit): 40,6 Tok/s bei 4K, 29,4 Tok/s bei 64K, 23,1 Tok/s bei 128K

Das 35B-MoE-Modell erreicht einen hohen Durchsatz, da nur 3B seiner 35B Parameter pro Token aktiv sind. Nemotron Super 120B zeigt eine minimale Verschlechterung mit dem Kontext (14 % Rückgang von 4K auf 64K), da 80 seiner 88 Schichten Mamba-2 verwenden, das konstante Kosten pro Token hat.

Funktionsbeschleunigungen

Multi-Token Prediction (MTP): Qwen 3.5-Modelle haben einen integrierten Draft-Head, der den nächsten Token parallel vorhersagt. Mit einer probabilistischen Akzeptanzrate von 90 % steigt die Leistung des 122B-Modells von ~17 Tok/s auf 38,8 Tok/s (2,3-fache Beschleunigung). Der Server-Overhead ist minimal: Eine Anfrage mit kurzem Prompt über vllm-mlx generiert mit 39 Tok/s und entspricht damit der Baseline.

SpecPrefill: Bei langen Prompts bewertet ein 2B-Draft-Modell die Token-Wichtigkeit über Attention, dann prefilled das Zielmodell nur die obersten 20 %. Beim 122B-Modell mit 128K-Kontext sinkt die Time To First Token (TTFT) von 19,3 Minuten auf 3,5 Minuten (5,5-fache Beschleunigung). Diese Funktion wird nur für Prompts über 8K Token aktiviert.

MLX vs. llama.cpp Vergleich

Benchmarking von Qwen3.5-35B-A3B auf beiden Stacks (512 Token generiert nach dem Füllen des KV-Cache):

32K Kontext: MLX 8-Bit: 60,8 Tok/s, llama.cpp FA ON (5-Bit): 54,85 Tok/s, llama.cpp FA OFF: 36,45 Tok/s
64K Kontext: MLX 8-Bit: 53,2 Tok/s, llama.cpp FA ON (5-Bit): 45,84 Tok/s, llama.cpp FA OFF: 24,47 Tok/s
128K Kontext: MLX 8-Bit: 42,7 Tok/s, llama.cpp FA ON (5-Bit): 34,48 Tok/s, llama.cpp FA OFF: 13,73 Tok/s

MLX verwendet einen 2-Pass Split-K-Decode-Kernel (sdpa_vector_2pass), der bei 128K-Kontext bis zu 1024 Threadgruppen verteilt. Der Vergleich zeigt, dass MLX bei langen Kontextlängen mit llama.cpp konkurrenzfähig ist.

Auswirkung hybrider Architekturen

Die getesteten Modelle verwenden hybride Architekturen mit weniger Attention-Schichten:

Qwen3.5-35B-A3B: 25 % Attention-Schichten (10 von 40), 71,8 Tok/s bei 4K, -25 % Rückgang bei 64K
Nemotron Super 120B: 9 % Attention-Schichten (8 von 88), 36,4 Tok/s bei 4K, -14 % Rückgang bei 64K

Qwen 3.5 verwendet GatedDeltaNet-Schichten (lineare Rekurrenz) für den größten Teil des Netzwerks, mit Standard-Attention für nur 25 % der Schichten. Weniger Attention-Schichten bedeuten weniger KV-Cache, der pro Token gescannt werden muss, und weniger Verschlechterung bei langem Kontext.

Jüngste Verbesserungen

Das MLX-Ökosystem hat drei Ebenen, die eine rasante Entwicklung erfahren haben. Der MLX-Kern erhielt eine Überholung der Thread-Sicherheit (pro-Thread M... [Quelltext abgeschnitten]. Kombiniert mit kontinuierlichem Batching und Prefix-Cache bedient das 122B-Modell nun Coding-Agenten interaktiv bei Kontextlängen, die zuvor unpraktikabel waren.

📖 Read the full source: r/LocalLLaMA