MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen

MTPLX ist eine Inferenz-Engine für Apple Silicon, die die integrierten Multi-Token-Prediction (MTP)-Köpfe eines Modells als spekulative Drafter nutzt. Das wichtigste Ergebnis: Qwen 3.6 27B 4-Bit MLX steigert sich von 28 tok/s auf 63 tok/s (2,24× schneller) auf einem MacBook Pro M5 Max bei einer Temperatur von 0,6, top_p 0,95, top_k 20 – genau die Einstellungen, die Qwen fürs Programmieren empfiehlt.
Wie es funktioniert
Im Gegensatz zu DFlash oder DDTree (die einen externen Drafter benötigen und nur greedy sind), verwendet MTPLX die eigenen MTP-Köpfe des Modells. Jeder MTP-Kopf sequenziert nacheinander und erzeugt Wahrscheinlichkeitsverteilungen pro Token. Dies ermöglicht exaktes Zurückweisungs-Sampling mit Temperatur- und Residual-Korrektur. Kein externer Drafter bedeutet keine zusätzliche Speichernutzung.
Für Qwen 3.6 27B (das MTP-Köpfe bis zur Tiefe 5 mitbringt) wurde die optimale Tiefe nach Durchlauf von D2–D5 als D3 ermittelt. Tiefere Stufen (D4/D5) hatten eine gute frühe Akzeptanz, aber tiefere Positionen kosteten mehr Verifizierungszeit als eingesparte Tokens.
Status vs. DFlash / DDTree
DFlash MLX erreicht eine höhere Rohgeschwindigkeit, ist aber auf greedy (Temperatur 0) Sampling beschränkt, was die praktische Nutzung stark einschränkt. DDTree erbt dieselben Einschränkungen. Beide benötigen einen externen Drafter. MTPLX funktioniert mit jedem Modell, das seine MTP-Köpfe behält und vollständiges temperaturgesteuertes Sampling unterstützt.
Installation und Nutzung
MTPLX wird als vollständiges CLI mit folgenden Befehlen ausgeliefert:
mtplx start wizard– geführte Einrichtung- Modell-Download und -Inspektion mit vierstufiger MTP-Kompatibilitätserkennung
- Konfigurierbare Tiefe 2–7+
- OpenAI/Anthropic-kompatibler API-Server, Browser-Chat-UI, Terminal-Chat
- Benchmarking-Suite, Health-Diagnose, absturzsichere Lüftersteuerung mit idle-bewusster Auto-Wiederherstellung
- Eine 562-Tests umfassende Testsuite ist enthalten
Die Engine basiert auf einem gepatchten MLX-Fork mit benutzerdefinierten Metal-Kernels, kompilierten Verify-Graphen, Innovation-Tape-GDN-Rollback und einem nur zum Drafting requantisierten LM-Head.
Für wen es gedacht ist
Entwickler, die lokale LLMs auf Apple Silicon betreiben und einen hohen Durchsatz sowie temperaturgesteuertes Sampling fürs Programmieren oder kreatives Schreiben benötigen, ohne Einbußen bei der Ausgabequalität hinzunehmen.
📖 Vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Praktische Erkenntnisse aus 11 Multi-Agenten-Software-Builds ohne programmatische Gerüstbildung
Die Analyse von 11 autonomen Multi-Agenten-Systemen zeigt, dass die Durchsetzung des Anwendungsbereichs mechanisch funktioniert (20/20 Erfolge) und nicht über Prompts (0/20), die Orchestrierungskosten werden von der Wiedereingabe von Speicher dominiert (~95 % der Eingabekosten), und die Fähigkeiten der Arbeitsmodelle erzeugen 9,8-fache Durchsatzunterschiede.

Xiaozhen: Eine Claude-Code-Fähigkeit, die drei Ebenen tief in die Ursachenforschung eindringt
Xiaozhen (小真) ist eine Claude Code-Fähigkeit, die drei Mechanismen – Das Geschenk, Drei Ebenen tief und Die Vorhersage – nutzt, um Nutzern dabei zu helfen, herauszufinden, was sie tatsächlich beschäftigt, anstatt direkte Ratschläge zu geben. Sie wird mit einem einzeiligen curl-Befehl installiert und durch Eingabe von /小真 in Claude Code aktiviert.

AI-Setup CLI-Tool generiert automatisch KI-Konfigurationsdateien für lokale LLM-Stacks
AI-Setup ist ein CLI-Tool, das Codebasen scannt und automatisch KI-Konfigurationsdateien wie .cursorrules und claude.md generiert. Es erkennt Ihren Tech-Stack, um manuelles Regel-Schreiben für jedes neue Projekt zu vermeiden.

OpenClaw Video Translator Skill auf ClawHub verfügbar
Eine neue Video-Übersetzer-Fähigkeit für OpenClaw-Agenten ermöglicht es Nutzern, ein Video hochzuladen oder eine URL anzugeben, um sofort eine übersetzte Vorschau zu erhalten. Die Fähigkeit wird auf ClawHub gehostet.