MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen

✍️ OpenClawRadar📅 Veröffentlicht: 5. Mai 2026🔗 Source
MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen
Ad

MTPLX ist eine Inferenz-Engine für Apple Silicon, die die integrierten Multi-Token-Prediction (MTP)-Köpfe eines Modells als spekulative Drafter nutzt. Das wichtigste Ergebnis: Qwen 3.6 27B 4-Bit MLX steigert sich von 28 tok/s auf 63 tok/s (2,24× schneller) auf einem MacBook Pro M5 Max bei einer Temperatur von 0,6, top_p 0,95, top_k 20 – genau die Einstellungen, die Qwen fürs Programmieren empfiehlt.

Wie es funktioniert

Im Gegensatz zu DFlash oder DDTree (die einen externen Drafter benötigen und nur greedy sind), verwendet MTPLX die eigenen MTP-Köpfe des Modells. Jeder MTP-Kopf sequenziert nacheinander und erzeugt Wahrscheinlichkeitsverteilungen pro Token. Dies ermöglicht exaktes Zurückweisungs-Sampling mit Temperatur- und Residual-Korrektur. Kein externer Drafter bedeutet keine zusätzliche Speichernutzung.

Für Qwen 3.6 27B (das MTP-Köpfe bis zur Tiefe 5 mitbringt) wurde die optimale Tiefe nach Durchlauf von D2–D5 als D3 ermittelt. Tiefere Stufen (D4/D5) hatten eine gute frühe Akzeptanz, aber tiefere Positionen kosteten mehr Verifizierungszeit als eingesparte Tokens.

Status vs. DFlash / DDTree

DFlash MLX erreicht eine höhere Rohgeschwindigkeit, ist aber auf greedy (Temperatur 0) Sampling beschränkt, was die praktische Nutzung stark einschränkt. DDTree erbt dieselben Einschränkungen. Beide benötigen einen externen Drafter. MTPLX funktioniert mit jedem Modell, das seine MTP-Köpfe behält und vollständiges temperaturgesteuertes Sampling unterstützt.

Ad

Installation und Nutzung

MTPLX wird als vollständiges CLI mit folgenden Befehlen ausgeliefert:

  • mtplx start wizard – geführte Einrichtung
  • Modell-Download und -Inspektion mit vierstufiger MTP-Kompatibilitätserkennung
  • Konfigurierbare Tiefe 2–7+
  • OpenAI/Anthropic-kompatibler API-Server, Browser-Chat-UI, Terminal-Chat
  • Benchmarking-Suite, Health-Diagnose, absturzsichere Lüftersteuerung mit idle-bewusster Auto-Wiederherstellung
  • Eine 562-Tests umfassende Testsuite ist enthalten

Die Engine basiert auf einem gepatchten MLX-Fork mit benutzerdefinierten Metal-Kernels, kompilierten Verify-Graphen, Innovation-Tape-GDN-Rollback und einem nur zum Drafting requantisierten LM-Head.

Für wen es gedacht ist

Entwickler, die lokale LLMs auf Apple Silicon betreiben und einen hohen Durchsatz sowie temperaturgesteuertes Sampling fürs Programmieren oder kreatives Schreiben benötigen, ohne Einbußen bei der Ausgabequalität hinzunehmen.

📖 Vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Praktische Erkenntnisse aus 11 Multi-Agenten-Software-Builds ohne programmatische Gerüstbildung
Werkzeuge

Praktische Erkenntnisse aus 11 Multi-Agenten-Software-Builds ohne programmatische Gerüstbildung

Die Analyse von 11 autonomen Multi-Agenten-Systemen zeigt, dass die Durchsetzung des Anwendungsbereichs mechanisch funktioniert (20/20 Erfolge) und nicht über Prompts (0/20), die Orchestrierungskosten werden von der Wiedereingabe von Speicher dominiert (~95 % der Eingabekosten), und die Fähigkeiten der Arbeitsmodelle erzeugen 9,8-fache Durchsatzunterschiede.

OpenClawRadar
Xiaozhen: Eine Claude-Code-Fähigkeit, die drei Ebenen tief in die Ursachenforschung eindringt
Werkzeuge

Xiaozhen: Eine Claude-Code-Fähigkeit, die drei Ebenen tief in die Ursachenforschung eindringt

Xiaozhen (小真) ist eine Claude Code-Fähigkeit, die drei Mechanismen – Das Geschenk, Drei Ebenen tief und Die Vorhersage – nutzt, um Nutzern dabei zu helfen, herauszufinden, was sie tatsächlich beschäftigt, anstatt direkte Ratschläge zu geben. Sie wird mit einem einzeiligen curl-Befehl installiert und durch Eingabe von /小真 in Claude Code aktiviert.

OpenClawRadar
AI-Setup CLI-Tool generiert automatisch KI-Konfigurationsdateien für lokale LLM-Stacks
Werkzeuge

AI-Setup CLI-Tool generiert automatisch KI-Konfigurationsdateien für lokale LLM-Stacks

AI-Setup ist ein CLI-Tool, das Codebasen scannt und automatisch KI-Konfigurationsdateien wie .cursorrules und claude.md generiert. Es erkennt Ihren Tech-Stack, um manuelles Regel-Schreiben für jedes neue Projekt zu vermeiden.

OpenClawRadar
OpenClaw Video Translator Skill auf ClawHub verfügbar
Werkzeuge

OpenClaw Video Translator Skill auf ClawHub verfügbar

Eine neue Video-Übersetzer-Fähigkeit für OpenClaw-Agenten ermöglicht es Nutzern, ein Video hochzuladen oder eine URL anzugeben, um sofort eine übersetzte Vorschau zu erhalten. Die Fähigkeit wird auf ClawHub gehostet.

OpenClawRadar