MLX-Inferenzleistungsupdate: Benchmarks und Funktionen vom April 2026

Leistungsbenchmarks auf dem M2 Ultra
Die Quelle benchmarkt die MLX-Inferenz auf einem Mac Studio M2 Ultra mit 128 GB einheitlichem Arbeitsspeicher, wobei große Modelle lokal für Coding-Agent-Workloads ausgeführt werden. Die Generierungsgeschwindigkeit wurde über vier Modelle hinweg gemessen, mit einem Decode-Durchsatz in Token/Sekunde bei verschiedenen KV-Cache-Tiefen (256 Ausgabe-Token pro Durchlauf).
Modelleistungsdaten
- Qwen3.5-27B (dicht, 8-Bit): 20,2 Tok/s bei 4K, 16,4 Tok/s bei 64K, 13,1 Tok/s bei 128K
- Qwen3.5-35B-A3B (MoE, 8-Bit): 71,8 Tok/s bei 4K, 53,5 Tok/s bei 64K, 41,9 Tok/s bei 128K
- Nemotron Super 120B (5-Bit): 36,4 Tok/s bei 4K, 31,2 Tok/s bei 64K, 28,4 Tok/s bei 128K
- Qwen3.5-122B-A10B (MoE, 5-Bit): 40,6 Tok/s bei 4K, 29,4 Tok/s bei 64K, 23,1 Tok/s bei 128K
Das 35B-MoE-Modell erreicht einen hohen Durchsatz, da nur 3B seiner 35B Parameter pro Token aktiv sind. Nemotron Super 120B zeigt eine minimale Verschlechterung mit dem Kontext (14 % Rückgang von 4K auf 64K), da 80 seiner 88 Schichten Mamba-2 verwenden, das konstante Kosten pro Token hat.
Funktionsbeschleunigungen
Multi-Token Prediction (MTP): Qwen 3.5-Modelle haben einen integrierten Draft-Head, der den nächsten Token parallel vorhersagt. Mit einer probabilistischen Akzeptanzrate von 90 % steigt die Leistung des 122B-Modells von ~17 Tok/s auf 38,8 Tok/s (2,3-fache Beschleunigung). Der Server-Overhead ist minimal: Eine Anfrage mit kurzem Prompt über vllm-mlx generiert mit 39 Tok/s und entspricht damit der Baseline.
SpecPrefill: Bei langen Prompts bewertet ein 2B-Draft-Modell die Token-Wichtigkeit über Attention, dann prefilled das Zielmodell nur die obersten 20 %. Beim 122B-Modell mit 128K-Kontext sinkt die Time To First Token (TTFT) von 19,3 Minuten auf 3,5 Minuten (5,5-fache Beschleunigung). Diese Funktion wird nur für Prompts über 8K Token aktiviert.
MLX vs. llama.cpp Vergleich
Benchmarking von Qwen3.5-35B-A3B auf beiden Stacks (512 Token generiert nach dem Füllen des KV-Cache):
- 32K Kontext: MLX 8-Bit: 60,8 Tok/s, llama.cpp FA ON (5-Bit): 54,85 Tok/s, llama.cpp FA OFF: 36,45 Tok/s
- 64K Kontext: MLX 8-Bit: 53,2 Tok/s, llama.cpp FA ON (5-Bit): 45,84 Tok/s, llama.cpp FA OFF: 24,47 Tok/s
- 128K Kontext: MLX 8-Bit: 42,7 Tok/s, llama.cpp FA ON (5-Bit): 34,48 Tok/s, llama.cpp FA OFF: 13,73 Tok/s
MLX verwendet einen 2-Pass Split-K-Decode-Kernel (sdpa_vector_2pass), der bei 128K-Kontext bis zu 1024 Threadgruppen verteilt. Der Vergleich zeigt, dass MLX bei langen Kontextlängen mit llama.cpp konkurrenzfähig ist.
Auswirkung hybrider Architekturen
Die getesteten Modelle verwenden hybride Architekturen mit weniger Attention-Schichten:
- Qwen3.5-35B-A3B: 25 % Attention-Schichten (10 von 40), 71,8 Tok/s bei 4K, -25 % Rückgang bei 64K
- Nemotron Super 120B: 9 % Attention-Schichten (8 von 88), 36,4 Tok/s bei 4K, -14 % Rückgang bei 64K
Qwen 3.5 verwendet GatedDeltaNet-Schichten (lineare Rekurrenz) für den größten Teil des Netzwerks, mit Standard-Attention für nur 25 % der Schichten. Weniger Attention-Schichten bedeuten weniger KV-Cache, der pro Token gescannt werden muss, und weniger Verschlechterung bei langem Kontext.
Jüngste Verbesserungen
Das MLX-Ökosystem hat drei Ebenen, die eine rasante Entwicklung erfahren haben. Der MLX-Kern erhielt eine Überholung der Thread-Sicherheit (pro-Thread M... [Quelltext abgeschnitten]. Kombiniert mit kontinuierlichem Batching und Prefix-Cache bedient das 122B-Modell nun Coding-Agenten interaktiv bei Kontextlängen, die zuvor unpraktikabel waren.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anthropic startet das Claude Community Botschafter-Programm
Anthropic hat das Claude Community Ambassadors-Programm gestartet, das Ressourcen für die Organisation lokaler Entwicklertreffen und die Vernetzung von Entwicklern weltweit bereitstellt. Das Programm steht Teilnehmern aus allen Hintergründen und Regionen offen.

Analyse: Vergleich der KI-Branche mit Mustern der Subprime-Hypothekenkrise
Edward Zitrons Analyse zieht Parallelen zwischen der Subprime-Hypothekenkrise von 2008 und den aktuellen Trends in der KI-Branche und nennt konkrete Datenpunkte zu variabel verzinslichen Hypotheken und ihren Ähnlichkeiten mit KI-Investitionsmustern.

Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details
Die Rechnungsprüfer von Ontario fanden heraus, dass 12 von 20 KI-Notizschreibern falsche Arzneimittelinformationen einfügten, 9 erfanden Behandlungsvorschläge und 17 übersahen wichtige Details zur psychischen Gesundheit aus Arzt-Patienten-Aufnahmen. Bei der Bewertung machte die Genauigkeit nur 4 % der Gesamtpunktzahl aus.

Andrej Karpathy tritt dem Pre-Training-Team von Anthropic bei, um die rekursive Selbstverbesserung mit Claude voranzutreiben
Andrej Karpathy, ehemaliger OpenAI-Mitbegründer, schließt sich unter Nick Josef dem Pre-Training-Team von Anthropic an, um ein neues Team aufzubauen, das sich darauf konzentriert, Claude zur Beschleunigung der Pre-Training-Forschung zu nutzen und so eine rekursive Selbstverbesserung zu ermöglichen.