Qwen 3.6 27B: 54 t/s mit MTP auf V100 32GB

Ein Benutzer auf r/LocalLLaMA berichtet von beeindruckenden Ergebnissen beim Betrieb von Qwen 3.6 27B mit Multi-Token Prediction (MTP) auf einem V100 32GB SXM-Modul über einen PCIe-Adapter. Die Konfiguration verwendet am17ans MTP-Zweig von llama.cpp und das entsprechende MTP-GGUF-Quant. Wichtige Spezifikationen: Q8_0 KV-Cache mit 200k Cache-Limit, ausgeführt als VS Code Copilot-Backend über llama-server.

Leistungszahlen

Ohne MTP: 29-30 Token/Sekunde
Mit MTP: 54-55 Token/Sekunde (bei 150W Leistungsgrenze)
Nach 50k Token Kontext: fällt auf 40-45 t/s

Zweig: am17ans MTP-Fork. Build und Ausführung waren unkompliziert – 'gepullt und in einem Durchlauf gebaut' mit llama-server, der ohne Probleme lief. Das Setup verarbeitet Tool-Aufrufe und Sub-Agents gut und lieferte 'sehr aufschlussreiche Code-Reviews und Refactorings' trotz der VRAM-Begrenzung (32GB).

Dies ist besonders relevant für Entwickler, die LLMs auf älterer Rechenzentrumshardware wie V100s betreiben. MTP verdoppelt effektiv den Durchsatz für dieses Modell und zeigt praktische Gewinne für Arbeitslasten von Codierungsassistenten.

📖 Read the full source: r/LocalLLaMA

Qwen 3.6 27B mit MTP auf V100 32GB: 54 t/s über llama.cpp Zweig

Leistungszahlen

👀 Siehe auch

Claude-IDE-Bridge funktioniert jetzt auf Remote-Servern für KI-unterstützte Entwicklung

Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face

OpenClaw Skill Pack: Ein Command-Set mit über 2.500 Befehlen für echte autonome Operationen auf Ubuntu

Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien