Qwen 3.6 27B mit MTP auf V100 32GB: 54 t/s über llama.cpp Zweig

✍️ OpenClawRadar📅 Veröffentlicht: 6. Mai 2026🔗 Source
Qwen 3.6 27B mit MTP auf V100 32GB: 54 t/s über llama.cpp Zweig
Ad

Ein Benutzer auf r/LocalLLaMA berichtet von beeindruckenden Ergebnissen beim Betrieb von Qwen 3.6 27B mit Multi-Token Prediction (MTP) auf einem V100 32GB SXM-Modul über einen PCIe-Adapter. Die Konfiguration verwendet am17ans MTP-Zweig von llama.cpp und das entsprechende MTP-GGUF-Quant. Wichtige Spezifikationen: Q8_0 KV-Cache mit 200k Cache-Limit, ausgeführt als VS Code Copilot-Backend über llama-server.

Leistungszahlen

  • Ohne MTP: 29-30 Token/Sekunde
  • Mit MTP: 54-55 Token/Sekunde (bei 150W Leistungsgrenze)
  • Nach 50k Token Kontext: fällt auf 40-45 t/s

Zweig: am17ans MTP-Fork. Build und Ausführung waren unkompliziert – 'gepullt und in einem Durchlauf gebaut' mit llama-server, der ohne Probleme lief. Das Setup verarbeitet Tool-Aufrufe und Sub-Agents gut und lieferte 'sehr aufschlussreiche Code-Reviews und Refactorings' trotz der VRAM-Begrenzung (32GB).

Dies ist besonders relevant für Entwickler, die LLMs auf älterer Rechenzentrumshardware wie V100s betreiben. MTP verdoppelt effektiv den Durchsatz für dieses Modell und zeigt praktische Gewinne für Arbeitslasten von Codierungsassistenten.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude-IDE-Bridge funktioniert jetzt auf Remote-Servern für KI-unterstützte Entwicklung
Werkzeuge

Claude-IDE-Bridge funktioniert jetzt auf Remote-Servern für KI-unterstützte Entwicklung

Das Claude-IDE-Bridge-Tool verbindet nun Claude AI mit Remote-Entwicklungsumgebungen auf VPS- oder Cloud-Maschinen und ermöglicht den Zugriff auf Live-Diagnosen, geöffnete Dateien und Testfehler von jedem Gerät aus.

OpenClawRadar
Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face
Werkzeuge

Netflix veröffentlicht VOID: Video-Objekt- und Interaktionslöschmodell auf Hugging Face

Netflix hat VOID veröffentlicht, ein Video-Inpainting-Modell, das Objekte aus Videos entfernt, einschließlich aller physischen Interaktionen, die sie auslösen, wie fallende Objekte und verschobene Gegenstände. Das Modell benötigt eine GPU mit 40 GB+ VRAM und verwendet Quadmask-Conditioning mit zwei Checkpoint-Dateien für verschiedene Verfeinerungsstufen.

OpenClawRadar
OpenClaw Skill Pack: Ein Command-Set mit über 2.500 Befehlen für echte autonome Operationen auf Ubuntu
Werkzeuge

OpenClaw Skill Pack: Ein Command-Set mit über 2.500 Befehlen für echte autonome Operationen auf Ubuntu

Ein neues Fähigkeitenpaket für OpenClaw AI-Agenten führt über 2.500 Ausführungsfähigkeiten für DevOps-Operationen ein, wie z. B. Docker-Verwaltung, Netzwerkkonfiguration, CVE-Reaktion und Systemautomatisierung in Ubuntu-Umgebungen.

OpenClawRadar
Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien
Werkzeuge

Datenschutzorientiertes MCP-Server-Verzeichnis startet mit dokumentierten Datenverarbeitungsrichtlinien

Ein neues Verzeichnis unter toolora.dev/mcp-hub listet MCP-Server mit dokumentierten Datenverarbeitungsrichtlinien auf, einschließlich der Klassifizierung lokal vs. gehostet, welche Daten jedes Tool überträgt und ob Konten erforderlich sind. Der Ersteller bietet auch eine Browser-Testmethode an, um Datenschutzbehauptungen zu überprüfen.

OpenClawRadar