MTP-Akzeptanzrate: 50%-Schwelle bestimmt Nutzen spekulativer Dekodierung

✍️ OpenClawRadar📅 Veröffentlicht: 9. Mai 2026🔗 Source
MTP-Akzeptanzrate: 50%-Schwelle bestimmt Nutzen spekulativer Dekodierung
Ad

Ein Reddit-Nutzer testete MTP (Multi-Token Prediction) mit mlx-vlm auf Gemma-4 (26B, 4-Bit) und stellte fest, dass die Leistung vollständig von der Akzeptanzrate der Draft-Tokens abhängt. Messungen auf einem M4 Max Studio zeigen konkrete Schwellenwerte.

Ad

Workload-Ergebnisse

  • Code-Generierung: 75 tok/s → 114,8 tok/s (1,53× schneller) — Akzeptanzrate: 66 % der Slots
  • Langform-Prosa: 75 tok/s → 71,1 tok/s (0,95×, praktisch gleich) — Akzeptanzrate: 31 % der Slots
  • JSON-Ausgabe: 51,3 tok/s → 25,6 tok/s (0,50× langsamer) — Akzeptanzrate: 8 % der Slots

Der Schwellenwert scheint bei etwa 50 % Akzeptanz zu liegen. Darunter überwiegt der Overhead des spekulativen Decodings den Gewinn.

Testdetails: Code war „schreibe einige Python-Funktionen, um X zu tun“; Langform-Prosa war „schreibe einen 800-Wörter-Aufsatz über Papiergeld in der Tang-Dynastie“; JSON-Ausgabe gruppierte Elemente nach Ähnlichkeit in strukturierte Ausgabe.

Bonus-Tipp: Der Nutzer bemerkt, dass Gemmas JSON-Strukturbefolgung ordentlich ist, aber die Aktivierung von strukturierter Ausgabe (json_schema) etwa 20 % Overhead hinzufügt. Er empfiehlt, leicht ungenaues JSON zu akzeptieren und es zur Laufzeit zu korrigieren. mlx-vlm unterstützt ohnehin kein json_schema für spekulatives Decoding.

Fazit: MTP ist großartig für lokales Codieren, kann aber die Leistung bei strukturierten oder Prosa-Aufgaben mit niedrigen Akzeptanzraten verschlechtern.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Pro KI-Agent-Dummheit beheben: Ein gemeinsamer Kontextbaum pro Repository
Tipps

Pro KI-Agent-Dummheit beheben: Ein gemeinsamer Kontextbaum pro Repository

Der Grund, warum KI-Mitarbeiter sich dumm anfühlen, ist nicht das Modell – es ist der Mangel an gemeinsamem Kontext. Die Lösung eines Entwicklers: ein Kontextbaum-Repository mit hierarchischen Markdown-Knoten, die der Agent automatisch pflegt.

OpenClawRadar
OpenClaw LLM-Timeout-Fix für das Laden kalter Modelle
Tipps

OpenClaw LLM-Timeout-Fix für das Laden kalter Modelle

Ein Reddit-Nutzer identifizierte und behob ein spezifisches Timeout-Problem in OpenClaw, bei dem kalt geladene lokale LLMs nach etwa 60 Sekunden versagten, selbst wenn höhere allgemeine Timeouts eingestellt waren. Die Lösung beinhaltet die Anpassung der Konfiguration für das eingebettete Runner-LLM-Leerlauf-Timeout.

OpenClawRadar
10 praktische Tipps zur Nutzung von Claude Code von einem Reddit-Nutzer
Tipps

10 praktische Tipps zur Nutzung von Claude Code von einem Reddit-Nutzer

Ein Reddit-Nutzer teilt spezifische Techniken für Claude Code, darunter die Verwendung von /effort high mit 'ultrathink' für erweitertes Denken, das Erstellen isolierter Konversationszweige mit /fork und das Einrichten benutzerdefinierter Hooks in .claude/settings.json.

OpenClawRadar
Wie man Claude Codes CSS-Raten mit einem Design-System behebt
Tipps

Wie man Claude Codes CSS-Raten mit einem Design-System behebt

Ein Entwickler stellte fest, dass Claude Code wiederholt falsch ausgerichtetes HTML/CSS neu generierte, da es blind ohne visuelles Feedback entwirft. Die Lösung: ein vollständiges Designsystem mit Abständen, Farben und Typvariablen bereitstellen, dann HTML- und CSS-Prompts trennen.

OpenClawRadar