Qwen 3.6 27B mit MTP auf V100 32GB: 54 t/s über llama.cpp Zweig

Ein Benutzer auf r/LocalLLaMA berichtet von beeindruckenden Ergebnissen beim Betrieb von Qwen 3.6 27B mit Multi-Token Prediction (MTP) auf einem V100 32GB SXM-Modul über einen PCIe-Adapter. Die Konfiguration verwendet am17ans MTP-Zweig von llama.cpp und das entsprechende MTP-GGUF-Quant. Wichtige Spezifikationen: Q8_0 KV-Cache mit 200k Cache-Limit, ausgeführt als VS Code Copilot-Backend über llama-server.
Leistungszahlen
- Ohne MTP: 29-30 Token/Sekunde
- Mit MTP: 54-55 Token/Sekunde (bei 150W Leistungsgrenze)
- Nach 50k Token Kontext: fällt auf 40-45 t/s
Zweig: am17ans MTP-Fork. Build und Ausführung waren unkompliziert – 'gepullt und in einem Durchlauf gebaut' mit llama-server, der ohne Probleme lief. Das Setup verarbeitet Tool-Aufrufe und Sub-Agents gut und lieferte 'sehr aufschlussreiche Code-Reviews und Refactorings' trotz der VRAM-Begrenzung (32GB).
Dies ist besonders relevant für Entwickler, die LLMs auf älterer Rechenzentrumshardware wie V100s betreiben. MTP verdoppelt effektiv den Durchsatz für dieses Modell und zeigt praktische Gewinne für Arbeitslasten von Codierungsassistenten.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude-IDE-Bridge funktioniert jetzt auf Remote-Servern für KI-unterstützte Entwicklung
Das Claude-IDE-Bridge-Tool verbindet nun Claude AI mit Remote-Entwicklungsumgebungen auf VPS- oder Cloud-Maschinen und ermöglicht den Zugriff auf Live-Diagnosen, geöffnete Dateien und Testfehler von jedem Gerät aus.

Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face
Netflix hat VOID veröffentlicht, ein Video-Inpainting-Modell, das Objekte aus Videos entfernt, einschließlich aller physischen Interaktionen, die sie auslösen, wie fallende Objekte und verschobene Gegenstände. Das Modell benötigt eine GPU mit 40 GB+ VRAM und verwendet Quadmask-Conditioning mit zwei Checkpoint-Dateien für verschiedene Verfeinerungsstufen.

OpenClaw Skill Pack: Ein Command-Set mit über 2.500 Befehlen für echte autonome Operationen auf Ubuntu
Ein neues Fähigkeitenpaket für OpenClaw AI-Agenten führt über 2.500 Ausführungsfähigkeiten für DevOps-Operationen ein, wie z. B. Docker-Verwaltung, Netzwerkkonfiguration, CVE-Reaktion und Systemautomatisierung in Ubuntu-Umgebungen.

Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien
Ein neues Verzeichnis unter toolora.dev/mcp-hub listet MCP-Server mit dokumentierten Datenverarbeitungsrichtlinien auf, einschließlich der Klassifizierung lokal vs. gehostet, welche Daten jedes Tool überträgt und ob Konten erforderlich sind. Der Ersteller bietet auch eine Browser-Testmethode an, um Datenschutzbehauptungen zu überprüfen.