Einrichtung von Qwen3.5-27B lokal: Vergleich zwischen vLLM und llama.cpp

Qwen3.5-27B Leistung und Fähigkeiten
Das Qwen3.5-27B-Modell zeigt laut Quelle starke Leistung in verschiedenen Benchmarks: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, Gesamtintelligenzscore: 42.1 (besser als 91% der verglichenen Modelle) und Coding-Index: 34.9 (übertrifft 88% in Coding-Fähigkeiten). Das Modell verfügt über eine dichte Architektur mit nativem 262k-Kontext, der auf 1M+ Tokens erweiterbar ist.
Backend-Vergleich: llama.cpp vs vLLM
Die Quelle vergleicht zwei Hauptansätze für lokales Deployment:
Option 1: llama.cpp
- Vorteile: Geringer Ressourcenverbrauch, einfache Einrichtung, unterstützt q4-KV-Cache für angemessenen VRAM-Verbrauch
- Nachteile: Hauptproblem: KV-Cache wird zufällig gelöscht, was mitten in der Sitzung eine vollständige Neuverarbeitung des Prompts erzwingt. Spekulative Decodierung via MTP funktioniert nicht. Bekannter Bug ohne solide Lösungen bisher.
Option 2: vLLM
- Vorteile: Stabile Sitzungen, keine KV-Löschungen, unterstützt spekulative Decodierung mit MTP für schnellere Generierungen
- Nachteile: Kein q4-KV-Support, daher VRAM-Spitzen bei 256k-Kontext. Tool-Call-Parsing ist für Qwen3.5 in v0.17.1 fehlerhaft, mit Korrekturen in offenen GitHub-PRs, aber noch nicht zusammengeführt. Dies unterbricht agentische Coding-Abläufe mit fehlerhaften JSON-Ausgaben.
Empfohlene vLLM-Konfiguration
Die Quelle gibt spezifische Konfigurationsempfehlungen für stabile, schnelle Läufe mit dem Modell von HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:
- Flashinfer-Cutlass-Backend für optimierte Leistung verwenden
- Kontextfenster auf 128k setzen (balanciert VRAM und Nutzbarkeit; bei entsprechender Hardware auf 256k erhöhen)
- GPU-Auslastung auf 0.82 begrenzen, um OOM-Abstürze zu vermeiden
- Max-num-seq auf 2 setzen (handhabt eine einzelne Sitzung gut ohne Überlastung)
- MTP-spekulative Decodierung für Geschwindigkeitsverbesserungen aktivieren
- vLLM mit den Qwen-Tool-Call-Parsing-Korrekturen aus den offenen PRs patchen
- Claude-Code-Cli verwenden – offener Code hat immer noch Tool-Call-Parsing-Probleme, die nach dem Patch bei Claude-Code nicht auftreten
Leistungsergebnisse
Laut Quelle variiert die Leistung je nach Hardware:
- Auf einer RTX 5090 (32GB VRAM): ~50 TPS
- Auf einer RTX Pro 6000 (96GB VRAM): 70 TPS bei vollem 256k-Kontext
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Wie der OpenCLAW-Speicher tatsächlich funktioniert: Behebung des 'Vergessens' von Agenten
OpenCLAW-Agenten haben keinen persistenten Speicher zwischen Gesprächen – sie rekonstruieren den Kontext jedes Mal aus Dateien wie SOUL.md, USER.md und MEMORY.md. Häufige 'Vergessens'-Probleme entstehen durch alte Sitzungen, unstrukturierte Speicherdateien und das Speichern wichtiger Informationen im Chatverlauf anstatt in dauerhaften Dateien.

Zugriff auf USB-Webcams in WSL2 für lokale Bewegungserkennung
Ein Entwickler teilt, wie man usbipd-win verwendet, um USB-Webcams von Windows an WSL2 weiterzugeben, was lokale Bewegungserkennung mit OpenCV ohne Cloud-Abhängigkeiten ermöglicht.

Optimierung von AutoResearch auf der RTX 5090: Was scheiterte und was funktionierte
Ein Entwickler teilt spezifische Konfigurationsdetails für den Betrieb von AutoResearch auf einem RTX 5090/Blackwell-Setup, einschließlich fehlgeschlagener Ansätze, die funktional erschienen, aber schlecht abschnitten, und der funktionierenden Konfiguration, die stabile Ergebnisse mit TOTAL_BATCH_SIZE=2**17 und TIME_BUDGET=1200 erzielte.

Fix Remote Browser Automation mit OpenClaw Node Setup
Verwenden Sie einen lokalen OpenClaw-Knoten, um CDP/RDP-Kopfschmerzen zu vermeiden – führen Sie den Browser sichtbar aus, behalten Sie Ihre IP und Cookies.