MTPLX: 2,24x schnellere Token auf Apple Silicon

MTPLX ist eine Inferenz-Engine für Apple Silicon, die die integrierten Multi-Token-Prediction (MTP)-Köpfe eines Modells als spekulative Drafter nutzt. Das wichtigste Ergebnis: Qwen 3.6 27B 4-Bit MLX steigert sich von 28 tok/s auf 63 tok/s (2,24× schneller) auf einem MacBook Pro M5 Max bei einer Temperatur von 0,6, top_p 0,95, top_k 20 – genau die Einstellungen, die Qwen fürs Programmieren empfiehlt.

Wie es funktioniert

Im Gegensatz zu DFlash oder DDTree (die einen externen Drafter benötigen und nur greedy sind), verwendet MTPLX die eigenen MTP-Köpfe des Modells. Jeder MTP-Kopf sequenziert nacheinander und erzeugt Wahrscheinlichkeitsverteilungen pro Token. Dies ermöglicht exaktes Zurückweisungs-Sampling mit Temperatur- und Residual-Korrektur. Kein externer Drafter bedeutet keine zusätzliche Speichernutzung.

Für Qwen 3.6 27B (das MTP-Köpfe bis zur Tiefe 5 mitbringt) wurde die optimale Tiefe nach Durchlauf von D2–D5 als D3 ermittelt. Tiefere Stufen (D4/D5) hatten eine gute frühe Akzeptanz, aber tiefere Positionen kosteten mehr Verifizierungszeit als eingesparte Tokens.

Status vs. DFlash / DDTree

DFlash MLX erreicht eine höhere Rohgeschwindigkeit, ist aber auf greedy (Temperatur 0) Sampling beschränkt, was die praktische Nutzung stark einschränkt. DDTree erbt dieselben Einschränkungen. Beide benötigen einen externen Drafter. MTPLX funktioniert mit jedem Modell, das seine MTP-Köpfe behält und vollständiges temperaturgesteuertes Sampling unterstützt.

Installation und Nutzung

MTPLX wird als vollständiges CLI mit folgenden Befehlen ausgeliefert:

mtplx start wizard – geführte Einrichtung
Modell-Download und -Inspektion mit vierstufiger MTP-Kompatibilitätserkennung
Konfigurierbare Tiefe 2–7+
OpenAI/Anthropic-kompatibler API-Server, Browser-Chat-UI, Terminal-Chat
Benchmarking-Suite, Health-Diagnose, absturzsichere Lüftersteuerung mit idle-bewusster Auto-Wiederherstellung
Eine 562-Tests umfassende Testsuite ist enthalten

Die Engine basiert auf einem gepatchten MLX-Fork mit benutzerdefinierten Metal-Kernels, kompilierten Verify-Graphen, Innovation-Tape-GDN-Rollback und einem nur zum Drafting requantisierten LM-Head.

Für wen es gedacht ist

Entwickler, die lokale LLMs auf Apple Silicon betreiben und einen hohen Durchsatz sowie temperaturgesteuertes Sampling fürs Programmieren oder kreatives Schreiben benötigen, ohne Einbußen bei der Ausgabequalität hinzunehmen.

📖 Vollständige Quelle: r/LocalLLaMA

MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen

Wie es funktioniert

Status vs. DFlash / DDTree

Installation und Nutzung

Für wen es gedacht ist

👀 Siehe auch

OpenClaw-Fähigkeit reduziert Agentenübergaben durch Ermöglichung der Selbstausführung

RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon

n8n-mcp-lite: MCP-Server reduziert Token-Verbrauch für Claude mit n8n-Workflows um 80 %

Inline-Visualisierer: Lokale KI-Modelle können jetzt interaktive HTML-Visualisierungen rendern