Qwen3.5-27B lokal einrichten: vLLM vs llama.cpp Vergleich

Qwen3.5-27B Leistung und Fähigkeiten

Das Qwen3.5-27B-Modell zeigt laut Quelle starke Leistung in verschiedenen Benchmarks: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, Gesamtintelligenzscore: 42.1 (besser als 91% der verglichenen Modelle) und Coding-Index: 34.9 (übertrifft 88% in Coding-Fähigkeiten). Das Modell verfügt über eine dichte Architektur mit nativem 262k-Kontext, der auf 1M+ Tokens erweiterbar ist.

Backend-Vergleich: llama.cpp vs vLLM

Die Quelle vergleicht zwei Hauptansätze für lokales Deployment:

Option 1: llama.cpp

Vorteile: Geringer Ressourcenverbrauch, einfache Einrichtung, unterstützt q4-KV-Cache für angemessenen VRAM-Verbrauch
Nachteile: Hauptproblem: KV-Cache wird zufällig gelöscht, was mitten in der Sitzung eine vollständige Neuverarbeitung des Prompts erzwingt. Spekulative Decodierung via MTP funktioniert nicht. Bekannter Bug ohne solide Lösungen bisher.

Option 2: vLLM

Vorteile: Stabile Sitzungen, keine KV-Löschungen, unterstützt spekulative Decodierung mit MTP für schnellere Generierungen
Nachteile: Kein q4-KV-Support, daher VRAM-Spitzen bei 256k-Kontext. Tool-Call-Parsing ist für Qwen3.5 in v0.17.1 fehlerhaft, mit Korrekturen in offenen GitHub-PRs, aber noch nicht zusammengeführt. Dies unterbricht agentische Coding-Abläufe mit fehlerhaften JSON-Ausgaben.

Empfohlene vLLM-Konfiguration

Die Quelle gibt spezifische Konfigurationsempfehlungen für stabile, schnelle Läufe mit dem Modell von HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

Flashinfer-Cutlass-Backend für optimierte Leistung verwenden
Kontextfenster auf 128k setzen (balanciert VRAM und Nutzbarkeit; bei entsprechender Hardware auf 256k erhöhen)
GPU-Auslastung auf 0.82 begrenzen, um OOM-Abstürze zu vermeiden
Max-num-seq auf 2 setzen (handhabt eine einzelne Sitzung gut ohne Überlastung)
MTP-spekulative Decodierung für Geschwindigkeitsverbesserungen aktivieren
vLLM mit den Qwen-Tool-Call-Parsing-Korrekturen aus den offenen PRs patchen
Claude-Code-Cli verwenden – offener Code hat immer noch Tool-Call-Parsing-Probleme, die nach dem Patch bei Claude-Code nicht auftreten