MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen

✍️ OpenClawRadar📅 Veröffentlicht: 5. Mai 2026🔗 Source
MTPLX: 2,24x schnellere Token auf Apple Silicon mit nativen MTP-Köpfen
Ad

MTPLX ist eine Inferenz-Engine für Apple Silicon, die die integrierten Multi-Token-Prediction (MTP)-Köpfe eines Modells als spekulative Drafter nutzt. Das wichtigste Ergebnis: Qwen 3.6 27B 4-Bit MLX steigert sich von 28 tok/s auf 63 tok/s (2,24× schneller) auf einem MacBook Pro M5 Max bei einer Temperatur von 0,6, top_p 0,95, top_k 20 – genau die Einstellungen, die Qwen fürs Programmieren empfiehlt.

Wie es funktioniert

Im Gegensatz zu DFlash oder DDTree (die einen externen Drafter benötigen und nur greedy sind), verwendet MTPLX die eigenen MTP-Köpfe des Modells. Jeder MTP-Kopf sequenziert nacheinander und erzeugt Wahrscheinlichkeitsverteilungen pro Token. Dies ermöglicht exaktes Zurückweisungs-Sampling mit Temperatur- und Residual-Korrektur. Kein externer Drafter bedeutet keine zusätzliche Speichernutzung.

Für Qwen 3.6 27B (das MTP-Köpfe bis zur Tiefe 5 mitbringt) wurde die optimale Tiefe nach Durchlauf von D2–D5 als D3 ermittelt. Tiefere Stufen (D4/D5) hatten eine gute frühe Akzeptanz, aber tiefere Positionen kosteten mehr Verifizierungszeit als eingesparte Tokens.

Status vs. DFlash / DDTree

DFlash MLX erreicht eine höhere Rohgeschwindigkeit, ist aber auf greedy (Temperatur 0) Sampling beschränkt, was die praktische Nutzung stark einschränkt. DDTree erbt dieselben Einschränkungen. Beide benötigen einen externen Drafter. MTPLX funktioniert mit jedem Modell, das seine MTP-Köpfe behält und vollständiges temperaturgesteuertes Sampling unterstützt.

Ad

Installation und Nutzung

MTPLX wird als vollständiges CLI mit folgenden Befehlen ausgeliefert:

  • mtplx start wizard – geführte Einrichtung
  • Modell-Download und -Inspektion mit vierstufiger MTP-Kompatibilitätserkennung
  • Konfigurierbare Tiefe 2–7+
  • OpenAI/Anthropic-kompatibler API-Server, Browser-Chat-UI, Terminal-Chat
  • Benchmarking-Suite, Health-Diagnose, absturzsichere Lüftersteuerung mit idle-bewusster Auto-Wiederherstellung
  • Eine 562-Tests umfassende Testsuite ist enthalten

Die Engine basiert auf einem gepatchten MLX-Fork mit benutzerdefinierten Metal-Kernels, kompilierten Verify-Graphen, Innovation-Tape-GDN-Rollback und einem nur zum Drafting requantisierten LM-Head.

Für wen es gedacht ist

Entwickler, die lokale LLMs auf Apple Silicon betreiben und einen hohen Durchsatz sowie temperaturgesteuertes Sampling fürs Programmieren oder kreatives Schreiben benötigen, ohne Einbußen bei der Ausgabequalität hinzunehmen.

📖 Vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

OpenClaw-Fähigkeit reduziert Agentenübergaben durch Ermöglichung der Selbstausführung
Werkzeuge

OpenClaw-Fähigkeit reduziert Agentenübergaben durch Ermöglichung der Selbstausführung

Eine neue Fähigkeit für OpenClaw-Agenten adressiert das häufige Problem, bei dem Agenten den nächsten Schritt identifizieren, aber bei 'Hier ist, was als Nächstes zu tun ist' stoppen und eine menschliche Übergabe erfordern. Die Fähigkeit ermöglicht es Agenten, bestimmte Aktionen selbst auszuführen, wie Registrieren, Posten, Antworten und Unterschreiben.

OpenClawRadar
RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon
Werkzeuge

RunAnywhere RCLI: On-Device Voice AI-Pipeline für Apple Silicon

RunAnywhere hat RCLI veröffentlicht, eine Open-Source-Sprach-KI-Pipeline für macOS, die STT, LLM und TTS vollständig auf Apple Silicon Geräten ausführt. Das Tool nutzt ihre proprietäre MetalRT-Inferenz-Engine und verspricht deutliche Leistungsverbesserungen gegenüber bestehenden Lösungen.

OpenClawRadar
n8n-mcp-lite: MCP-Server reduziert Token-Verbrauch für Claude mit n8n-Workflows um 80 %
Werkzeuge

n8n-mcp-lite: MCP-Server reduziert Token-Verbrauch für Claude mit n8n-Workflows um 80 %

Ein neuer Open-Source-Model-Context-Protocol-Server namens n8n-mcp-lite hilft Claude dabei, n8n-Automatisierungs-Workflows zu analysieren und reduziert dabei den Token-Verbrauch um etwa 80%. Das Tool begegnet dem tokenintensiven Charakter visueller Knoten-Automatisierungen durch gezieltes Workflow-Scannen und präzise Updates.

OpenClawRadar
Inline-Visualisierer: Lokale KI-Modelle können jetzt interaktive HTML-Visualisierungen rendern
Werkzeuge

Inline-Visualisierer: Lokale KI-Modelle können jetzt interaktive HTML-Visualisierungen rendern

Inline Visualizer ist ein BSD-3-lizenziertes Plugin für Open WebUI, das jedem lokalen KI-Modell mit Tool-Calling-Unterstützung ermöglicht, interaktive HTML/SVG-Visualisierungen direkt im Chat darzustellen, wobei eine JavaScript-Brücke es Elementen erlaubt, Nachrichten zurück an die KI zu senden.

OpenClawRadar