MTP Akzeptanzrate über 50% nötig: Spekulative Dekodierung Benchmark

Ein Reddit-Nutzer testete MTP (Multi-Token Prediction) mit mlx-vlm auf Gemma-4 (26B, 4-Bit) und stellte fest, dass die Leistung vollständig von der Akzeptanzrate der Draft-Tokens abhängt. Messungen auf einem M4 Max Studio zeigen konkrete Schwellenwerte.

Workload-Ergebnisse

Code-Generierung: 75 tok/s → 114,8 tok/s (1,53× schneller) — Akzeptanzrate: 66 % der Slots
Langform-Prosa: 75 tok/s → 71,1 tok/s (0,95×, praktisch gleich) — Akzeptanzrate: 31 % der Slots
JSON-Ausgabe: 51,3 tok/s → 25,6 tok/s (0,50× langsamer) — Akzeptanzrate: 8 % der Slots

Der Schwellenwert scheint bei etwa 50 % Akzeptanz zu liegen. Darunter überwiegt der Overhead des spekulativen Decodings den Gewinn.

Testdetails: Code war „schreibe einige Python-Funktionen, um X zu tun“; Langform-Prosa war „schreibe einen 800-Wörter-Aufsatz über Papiergeld in der Tang-Dynastie“; JSON-Ausgabe gruppierte Elemente nach Ähnlichkeit in strukturierte Ausgabe.

Bonus-Tipp: Der Nutzer bemerkt, dass Gemmas JSON-Strukturbefolgung ordentlich ist, aber die Aktivierung von strukturierter Ausgabe (json_schema) etwa 20 % Overhead hinzufügt. Er empfiehlt, leicht ungenaues JSON zu akzeptieren und es zur Laufzeit zu korrigieren. mlx-vlm unterstützt ohnehin kein json_schema für spekulatives Decoding.

Fazit: MTP ist großartig für lokales Codieren, kann aber die Leistung bei strukturierten oder Prosa-Aufgaben mit niedrigen Akzeptanzraten verschlechtern.

📖 Read the full source: r/LocalLLaMA

MTP-Akzeptanzrate: 50%-Schwelle bestimmt Nutzen spekulativer Dekodierung

Workload-Ergebnisse

👀 Siehe auch

Verwende HTML als primäre Chatsprache für KI-Codierungsagenten, um SVG-Diagramme zu ermöglichen

Claude-Prompt-Codes neu getestet: L99 schärfer, OODA enger, ARTIFACTS verblasst und 3 neue Codes zur Nutzung

Reddit-Benutzer teilt Prompt-Struktur, um Code-Ausgabe-Drift von Claude bei komplexen Aufgaben zu reduzieren

OpenClaw-Installationstipps: Onboarding überspringen und Diagnosebefehle verwenden