Einrichtung von Qwen3.5-27B lokal: Vergleich zwischen vLLM und llama.cpp

✍️ OpenClawRadar📅 Veröffentlicht: 15. März 2026🔗 Source
Einrichtung von Qwen3.5-27B lokal: Vergleich zwischen vLLM und llama.cpp
Ad

Qwen3.5-27B Leistung und Fähigkeiten

Das Qwen3.5-27B-Modell zeigt laut Quelle starke Leistung in verschiedenen Benchmarks: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, Gesamtintelligenzscore: 42.1 (besser als 91% der verglichenen Modelle) und Coding-Index: 34.9 (übertrifft 88% in Coding-Fähigkeiten). Das Modell verfügt über eine dichte Architektur mit nativem 262k-Kontext, der auf 1M+ Tokens erweiterbar ist.

Backend-Vergleich: llama.cpp vs vLLM

Die Quelle vergleicht zwei Hauptansätze für lokales Deployment:

Option 1: llama.cpp

  • Vorteile: Geringer Ressourcenverbrauch, einfache Einrichtung, unterstützt q4-KV-Cache für angemessenen VRAM-Verbrauch
  • Nachteile: Hauptproblem: KV-Cache wird zufällig gelöscht, was mitten in der Sitzung eine vollständige Neuverarbeitung des Prompts erzwingt. Spekulative Decodierung via MTP funktioniert nicht. Bekannter Bug ohne solide Lösungen bisher.

Option 2: vLLM

  • Vorteile: Stabile Sitzungen, keine KV-Löschungen, unterstützt spekulative Decodierung mit MTP für schnellere Generierungen
  • Nachteile: Kein q4-KV-Support, daher VRAM-Spitzen bei 256k-Kontext. Tool-Call-Parsing ist für Qwen3.5 in v0.17.1 fehlerhaft, mit Korrekturen in offenen GitHub-PRs, aber noch nicht zusammengeführt. Dies unterbricht agentische Coding-Abläufe mit fehlerhaften JSON-Ausgaben.
Ad

Empfohlene vLLM-Konfiguration

Die Quelle gibt spezifische Konfigurationsempfehlungen für stabile, schnelle Läufe mit dem Modell von HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

  • Flashinfer-Cutlass-Backend für optimierte Leistung verwenden
  • Kontextfenster auf 128k setzen (balanciert VRAM und Nutzbarkeit; bei entsprechender Hardware auf 256k erhöhen)
  • GPU-Auslastung auf 0.82 begrenzen, um OOM-Abstürze zu vermeiden
  • Max-num-seq auf 2 setzen (handhabt eine einzelne Sitzung gut ohne Überlastung)
  • MTP-spekulative Decodierung für Geschwindigkeitsverbesserungen aktivieren
  • vLLM mit den Qwen-Tool-Call-Parsing-Korrekturen aus den offenen PRs patchen
  • Claude-Code-Cli verwenden – offener Code hat immer noch Tool-Call-Parsing-Probleme, die nach dem Patch bei Claude-Code nicht auftreten

Leistungsergebnisse

Laut Quelle variiert die Leistung je nach Hardware:

  • Auf einer RTX 5090 (32GB VRAM): ~50 TPS
  • Auf einer RTX Pro 6000 (96GB VRAM): 70 TPS bei vollem 256k-Kontext

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Wie der OpenCLAW-Speicher tatsächlich funktioniert: Behebung des 'Vergessens' von Agenten
Anleitungen

Wie der OpenCLAW-Speicher tatsächlich funktioniert: Behebung des 'Vergessens' von Agenten

OpenCLAW-Agenten haben keinen persistenten Speicher zwischen Gesprächen – sie rekonstruieren den Kontext jedes Mal aus Dateien wie SOUL.md, USER.md und MEMORY.md. Häufige 'Vergessens'-Probleme entstehen durch alte Sitzungen, unstrukturierte Speicherdateien und das Speichern wichtiger Informationen im Chatverlauf anstatt in dauerhaften Dateien.

OpenClawRadar
Zugriff auf USB-Webcams in WSL2 für lokale Bewegungserkennung
Anleitungen

Zugriff auf USB-Webcams in WSL2 für lokale Bewegungserkennung

Ein Entwickler teilt, wie man usbipd-win verwendet, um USB-Webcams von Windows an WSL2 weiterzugeben, was lokale Bewegungserkennung mit OpenCV ohne Cloud-Abhängigkeiten ermöglicht.

OpenClawRadar
Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte
Anleitungen

Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte

Ein Entwickler teilt spezifische Konfigurationsdetails für den Betrieb von AutoResearch auf einem RTX 5090/Blackwell-Setup, einschließlich fehlgeschlagener Ansätze, die funktional erschienen, aber schlecht abschnitten, und der funktionierenden Konfiguration, die stabile Ergebnisse mit TOTAL_BATCH_SIZE=2**17 und TIME_BUDGET=1200 erzielte.

OpenClawRadar
Fix Remote Browser Automation mit OpenClaw Node Setup
Anleitungen

Fix Remote Browser Automation mit OpenClaw Node Setup

Verwenden Sie einen lokalen OpenClaw-Knoten, um CDP/RDP-Kopfschmerzen zu vermeiden – führen Sie den Browser sichtbar aus, behalten Sie Ihre IP und Cookies.

OpenClawRadar