MLX-Inferenzleistungsupdate: Benchmarks und Funktionen vom April 2026

✍️ OpenClawRadar📅 Veröffentlicht: 14. April 2026🔗 Source
MLX-Inferenzleistungsupdate: Benchmarks und Funktionen vom April 2026
Ad

Leistungsbenchmarks auf dem M2 Ultra

Die Quelle benchmarkt die MLX-Inferenz auf einem Mac Studio M2 Ultra mit 128 GB einheitlichem Arbeitsspeicher, wobei große Modelle lokal für Coding-Agent-Workloads ausgeführt werden. Die Generierungsgeschwindigkeit wurde über vier Modelle hinweg gemessen, mit einem Decode-Durchsatz in Token/Sekunde bei verschiedenen KV-Cache-Tiefen (256 Ausgabe-Token pro Durchlauf).

Modelleistungsdaten

  • Qwen3.5-27B (dicht, 8-Bit): 20,2 Tok/s bei 4K, 16,4 Tok/s bei 64K, 13,1 Tok/s bei 128K
  • Qwen3.5-35B-A3B (MoE, 8-Bit): 71,8 Tok/s bei 4K, 53,5 Tok/s bei 64K, 41,9 Tok/s bei 128K
  • Nemotron Super 120B (5-Bit): 36,4 Tok/s bei 4K, 31,2 Tok/s bei 64K, 28,4 Tok/s bei 128K
  • Qwen3.5-122B-A10B (MoE, 5-Bit): 40,6 Tok/s bei 4K, 29,4 Tok/s bei 64K, 23,1 Tok/s bei 128K

Das 35B-MoE-Modell erreicht einen hohen Durchsatz, da nur 3B seiner 35B Parameter pro Token aktiv sind. Nemotron Super 120B zeigt eine minimale Verschlechterung mit dem Kontext (14 % Rückgang von 4K auf 64K), da 80 seiner 88 Schichten Mamba-2 verwenden, das konstante Kosten pro Token hat.

Funktionsbeschleunigungen

Multi-Token Prediction (MTP): Qwen 3.5-Modelle haben einen integrierten Draft-Head, der den nächsten Token parallel vorhersagt. Mit einer probabilistischen Akzeptanzrate von 90 % steigt die Leistung des 122B-Modells von ~17 Tok/s auf 38,8 Tok/s (2,3-fache Beschleunigung). Der Server-Overhead ist minimal: Eine Anfrage mit kurzem Prompt über vllm-mlx generiert mit 39 Tok/s und entspricht damit der Baseline.

SpecPrefill: Bei langen Prompts bewertet ein 2B-Draft-Modell die Token-Wichtigkeit über Attention, dann prefilled das Zielmodell nur die obersten 20 %. Beim 122B-Modell mit 128K-Kontext sinkt die Time To First Token (TTFT) von 19,3 Minuten auf 3,5 Minuten (5,5-fache Beschleunigung). Diese Funktion wird nur für Prompts über 8K Token aktiviert.

Ad

MLX vs. llama.cpp Vergleich

Benchmarking von Qwen3.5-35B-A3B auf beiden Stacks (512 Token generiert nach dem Füllen des KV-Cache):

  • 32K Kontext: MLX 8-Bit: 60,8 Tok/s, llama.cpp FA ON (5-Bit): 54,85 Tok/s, llama.cpp FA OFF: 36,45 Tok/s
  • 64K Kontext: MLX 8-Bit: 53,2 Tok/s, llama.cpp FA ON (5-Bit): 45,84 Tok/s, llama.cpp FA OFF: 24,47 Tok/s
  • 128K Kontext: MLX 8-Bit: 42,7 Tok/s, llama.cpp FA ON (5-Bit): 34,48 Tok/s, llama.cpp FA OFF: 13,73 Tok/s

MLX verwendet einen 2-Pass Split-K-Decode-Kernel (sdpa_vector_2pass), der bei 128K-Kontext bis zu 1024 Threadgruppen verteilt. Der Vergleich zeigt, dass MLX bei langen Kontextlängen mit llama.cpp konkurrenzfähig ist.

Auswirkung hybrider Architekturen

Die getesteten Modelle verwenden hybride Architekturen mit weniger Attention-Schichten:

  • Qwen3.5-35B-A3B: 25 % Attention-Schichten (10 von 40), 71,8 Tok/s bei 4K, -25 % Rückgang bei 64K
  • Nemotron Super 120B: 9 % Attention-Schichten (8 von 88), 36,4 Tok/s bei 4K, -14 % Rückgang bei 64K

Qwen 3.5 verwendet GatedDeltaNet-Schichten (lineare Rekurrenz) für den größten Teil des Netzwerks, mit Standard-Attention für nur 25 % der Schichten. Weniger Attention-Schichten bedeuten weniger KV-Cache, der pro Token gescannt werden muss, und weniger Verschlechterung bei langem Kontext.

Jüngste Verbesserungen

Das MLX-Ökosystem hat drei Ebenen, die eine rasante Entwicklung erfahren haben. Der MLX-Kern erhielt eine Überholung der Thread-Sicherheit (pro-Thread M... [Quelltext abgeschnitten]. Kombiniert mit kontinuierlichem Batching und Prefix-Cache bedient das 122B-Modell nun Coding-Agenten interaktiv bei Kontextlängen, die zuvor unpraktikabel waren.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Anthropic startet das Claude Community Botschafter-Programm
Nachrichten

Anthropic startet das Claude Community Botschafter-Programm

Anthropic hat das Claude Community Ambassadors-Programm gestartet, das Ressourcen für die Organisation lokaler Entwicklertreffen und die Vernetzung von Entwicklern weltweit bereitstellt. Das Programm steht Teilnehmern aus allen Hintergründen und Regionen offen.

OpenClawRadar
Analyse: Vergleich der KI-Branche mit Mustern der Subprime-Hypothekenkrise
Nachrichten

Analyse: Vergleich der KI-Branche mit Mustern der Subprime-Hypothekenkrise

Edward Zitrons Analyse zieht Parallelen zwischen der Subprime-Hypothekenkrise von 2008 und den aktuellen Trends in der KI-Branche und nennt konkrete Datenpunkte zu variabel verzinslichen Hypotheken und ihren Ähnlichkeiten mit KI-Investitionsmustern.

OpenClawRadar
Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details
Nachrichten

Ontario-Prüfbericht: 60% der KI-Schreibsysteme verwechseln Medikamente, 85% übersehen psychische Details

Die Rechnungsprüfer von Ontario fanden heraus, dass 12 von 20 KI-Notizschreibern falsche Arzneimittelinformationen einfügten, 9 erfanden Behandlungsvorschläge und 17 übersahen wichtige Details zur psychischen Gesundheit aus Arzt-Patienten-Aufnahmen. Bei der Bewertung machte die Genauigkeit nur 4 % der Gesamtpunktzahl aus.

OpenClawRadar
Andrej Karpathy tritt dem Pre-Training-Team von Anthropic bei, um die rekursive Selbstverbesserung mit Claude voranzutreiben
Nachrichten

Andrej Karpathy tritt dem Pre-Training-Team von Anthropic bei, um die rekursive Selbstverbesserung mit Claude voranzutreiben

Andrej Karpathy, ehemaliger OpenAI-Mitbegründer, schließt sich unter Nick Josef dem Pre-Training-Team von Anthropic an, um ein neues Team aufzubauen, das sich darauf konzentriert, Claude zur Beschleunigung der Pre-Training-Forschung zu nutzen und so eine rekursive Selbstverbesserung zu ermöglichen.

OpenClawRadar