llama.cpp上的Qwen 3.6 27B通过MTP推测解码达到2.5倍速度

✍️ OpenClawRadar📅 Veröffentlicht: 6. Mai 2026🔗 Source
llama.cpp上的Qwen 3.6 27B通过MTP推测解码达到2.5倍速度
Ad

Ein Reddit-Nutzer hat llama.cpp mit einem ausstehenden PR (#22673) kompiliert, der Multi-Token Prediction (MTP) für Qwen 3.6 27B ermöglicht. MTP nutzt die eingebauten Tensor-Schichten des Modells für spekulatives Decoding und verspricht einen 2,5-fachen Geschwindigkeitszuwachs – von etwa 11 tok/s auf 28 tok/s auf einem Mac M2 Max 96GB.

Wichtige Details

  • Modell: Qwen 3.6 27B (Qwen2.5-3.0-Architekturvariante)
  • Getestete Hardware: Mac M2 Max 96GB
  • Ergebnisse: 28 tok/s mit MTP (vs. ~11 tok/s ohne)
  • Kontextunterstützung: Bis zu 262K Token mit turbo4 KV-Cache auf 48GB Mac
  • Quantisierungen: Vom Benutzer hochgeladene, vorkonvertierte GGUF-Quantisierungen unter froggeric/Qwen3.6-27B-MTP-GGUF

Kompilierungsanleitung

git clone --depth 1 https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
git fetch origin pull/22673/head:mtp-pr && git checkout mtp-pr
cmake -B build -DGGML_METAL=ON -DCMAKE_BUILD_TYPE=Release
cmake --build build --target llama-cli llama-server
Ad

Server-Befehl

llama-server -m Qwen3.6-27B-Q5_K_M-mtp.gguf \
  --mmproj mmproj-Qwen3.6-27B-f16.gguf \
  --spec-type mtp --spec-draft-n-max 5 \
  --cache-type-k turbo4 --cache-type-v turbo4 \
  -c 262144 --temp 0.7 --top-k 20 -ngl 99 --port 8081

Drei Optimierungen kombiniert:

  • --spec-type mtp --spec-draft-n-max 5: Aktiviert MTP-spekulatives Decoding (2,5x schneller)
  • --cache-type-k turbo4 --cache-type-v turbo4: 4,25-Bit-KV-Cache (viertel Speicherplatz im Vergleich zu 16-Bit)
  • -c 262144: 262K-Kontextfenster (passt mit turbo4 in 48GB)

Hardware-Empfehlungen

Quantisierungs- und KV-Cache-Tabellen für Apple Silicon und NVIDIA-GPUs sind in der Quelle für speicherbegrenzte Konfigurationen verfügbar (z.B. IQ2_M auf 16GB Apple Silicon mit 48K Kontext). Vision-Unterstützung (mmproj) ist auf 32GB+-Konfigurationen verfügbar.

Zusätzliche Korrekturen

Der Nutzer hat außerdem 7 Korrekturen für die kaputten Qwen Jinja-Chat-Templates veröffentlicht, die aufgrund vLLM-spezifischer Formatierung defekt waren. Diese sind nun kompatibel mit llama.cpp und anderen Tools.

Hinweis: Bestehende GGUF-Dateien auf Hugging Face enthalten keine MTP-Unterstützung – sie müssen mit dem PR neu konvertiert werden. Der Nutzer warnt, dass erste Uploads unvollständig sind; Status des Hugging-Face-Repos überprüfen.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks
Werkzeuge

Clawdex: Ein Verzeichnis zur Verfolgung von OpenClaw-Ableitungen und Forks

Clawdex ist ein Verzeichnis, das 18 OpenClaw-bezogene Projekte in drei Stufen auflistet, mit Daten zu Sternen, Programmiersprache und Kategorie-Tags. Das Projekt ist PR-gesteuert, was bedeutet, dass Mitwirkende das Repo forken, eine YAML-Datei in /src/data/projects/ hinzufügen und einen Pull-Request öffnen müssen.

OpenClawRadar
Engram: Open-Source-Speicherschicht für Claude Code und MCP-Clients
Werkzeuge

Engram: Open-Source-Speicherschicht für Claude Code und MCP-Clients

Engram ist eine Open-Source-Gedächtnisschicht, die als MCP-Server mit jedem Client wie Claude Code, Cursor oder Windsurf funktioniert. Sie speichert unbegrenzte Erinnerungen mit semantischer Vektorsuche, erreicht 80 % Genauigkeit im LOCOMO-Benchmark und verwendet etwa 800 Tokens pro Abfrage im Vergleich zu 5K+ bei dateibasierten Ansätzen.

OpenClawRadar
Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil
Werkzeuge

Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil

Skales ist ein Desktop-KI-Agent, der lokal auf Windows und macOS läuft und Claude über die OpenRouter/Anthropic-API für logisches Denken und Werkzeugausführung nutzt. Er beinhaltet ein schwebendes Desktop-Buddy-Maskottchen mit einem Büroklammer-Skin-Referenz und kann Befehle wie E-Mails senden, Dateien verwalten, im Web surfen und Kalender verwalten ausführen.

OpenClawRadar
Microsoft Teams SDK fügt HTTP-Server-Adapter für bestehende KI-Agenten hinzu
Werkzeuge

Microsoft Teams SDK fügt HTTP-Server-Adapter für bestehende KI-Agenten hinzu

Das Microsoft Teams SDK enthält nun einen HTTP-Server-Adapter, der Entwicklern ermöglicht, bestehende KI-Agenten mit Teams zu verbinden, ohne ihren Code neu schreiben zu müssen. Er funktioniert mit LangChain-Ketten, Slack-Bots und Azure-Foundry-Bereitstellungen, indem er einen POST /api/messages-Endpunkt in bestehende Express-Server einfügt.

OpenClawRadar