llama.cpp上的Qwen 3.6 27B通过MTP推测解码达到2.5倍速度

Ein Reddit-Nutzer hat llama.cpp mit einem ausstehenden PR (#22673) kompiliert, der Multi-Token Prediction (MTP) für Qwen 3.6 27B ermöglicht. MTP nutzt die eingebauten Tensor-Schichten des Modells für spekulatives Decoding und verspricht einen 2,5-fachen Geschwindigkeitszuwachs – von etwa 11 tok/s auf 28 tok/s auf einem Mac M2 Max 96GB.
Wichtige Details
- Modell: Qwen 3.6 27B (Qwen2.5-3.0-Architekturvariante)
- Getestete Hardware: Mac M2 Max 96GB
- Ergebnisse: 28 tok/s mit MTP (vs. ~11 tok/s ohne)
- Kontextunterstützung: Bis zu 262K Token mit turbo4 KV-Cache auf 48GB Mac
- Quantisierungen: Vom Benutzer hochgeladene, vorkonvertierte GGUF-Quantisierungen unter
froggeric/Qwen3.6-27B-MTP-GGUF
Kompilierungsanleitung
git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-serverServer-Befehl
llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
--mmproj mmproj-Qwen3.6-27B-f16.gguf \
--spec-type mtp --spec-draft-n-max 5 \
--cache-type-k turbo4 --cache-type-v turbo4 \
-c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081Drei Optimierungen kombiniert:
--spec-type mtp --spec-draft-n-max 5: Aktiviert MTP-spekulatives Decoding (2,5x schneller)--cache-type-k turbo4 --cache-type-v turbo4: 4,25-Bit-KV-Cache (viertel Speicherplatz im Vergleich zu 16-Bit)-c 262144: 262K-Kontextfenster (passt mit turbo4 in 48GB)
Hardware-Empfehlungen
Quantisierungs- und KV-Cache-Tabellen für Apple Silicon und NVIDIA-GPUs sind in der Quelle für speicherbegrenzte Konfigurationen verfügbar (z.B. IQ2_M auf 16GB Apple Silicon mit 48K Kontext). Vision-Unterstützung (mmproj) ist auf 32GB+-Konfigurationen verfügbar.
Zusätzliche Korrekturen
Der Nutzer hat außerdem 7 Korrekturen für die kaputten Qwen Jinja-Chat-Templates veröffentlicht, die aufgrund vLLM-spezifischer Formatierung defekt waren. Diese sind nun kompatibel mit llama.cpp und anderen Tools.
Hinweis: Bestehende GGUF-Dateien auf Hugging Face enthalten keine MTP-Unterstützung – sie müssen mit dem PR neu konvertiert werden. Der Nutzer warnt, dass erste Uploads unvollständig sind; Status des Hugging-Face-Repos überprüfen.
📖 Vollständige Quelle lesen: r/LocalLLaMA
👀 Siehe auch

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks
Clawdex ist ein Verzeichnis, das 18 OpenClaw-bezogene Projekte in drei Stufen auflistet, mit Daten zu Sternen, Programmiersprache und Kategorie-Tags. Das Projekt ist PR-gesteuert, was bedeutet, dass Mitwirkende das Repo forken, eine YAML-Datei in /src/data/projects/ hinzufügen und einen Pull-Request öffnen müssen.

Engram: Open-Source-Speicherschicht für Claude Code und MCP-Clients
Engram ist eine Open-Source-Gedächtnisschicht, die als MCP-Server mit jedem Client wie Claude Code, Cursor oder Windsurf funktioniert. Sie speichert unbegrenzte Erinnerungen mit semantischer Vektorsuche, erreicht 80 % Genauigkeit im LOCOMO-Benchmark und verwendet etwa 800 Tokens pro Abfrage im Vergleich zu 5K+ bei dateibasierten Ansätzen.

Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil
Skales ist ein Desktop-KI-Agent, der lokal auf Windows und macOS läuft und Claude über die OpenRouter/Anthropic-API für logisches Denken und Werkzeugausführung nutzt. Er beinhaltet ein schwebendes Desktop-Buddy-Maskottchen mit einem Büroklammer-Skin-Referenz und kann Befehle wie E-Mails senden, Dateien verwalten, im Web surfen und Kalender verwalten ausführen.

Microsoft Teams SDK fügt HTTP-Server-Adapter für bestehende KI-Agenten hinzu
Das Microsoft Teams SDK enthält nun einen HTTP-Server-Adapter, der Entwicklern ermöglicht, bestehende KI-Agenten mit Teams zu verbinden, ohne ihren Code neu schreiben zu müssen. Er funktioniert mit LangChain-Ketten, Slack-Bots und Azure-Foundry-Bereitstellungen, indem er einen POST /api/messages-Endpunkt in bestehende Express-Server einfügt.