Qwen3.5-35B-A3B-UD-Q6_K_XL Test: 80tps auf Single GPU

Ein Entwickler auf r/LocalLLaMA teilte detaillierte Testergebnisse des Qwen3.5-35B-A3B-UD-Q6_K_XL-Modells in Produktionsentwicklungsszenarien. Der Nutzer führte sowohl Benchmark-Tests als auch praktische Anwendungen über reale Kundenprojekte hinweg durch.

Leistungsbenchmarks

Das Modell erzielte Benchmark-Werte von 1504pp2048 und 47,71 tg256. Die Token-Generierungsgeschwindigkeit war solide, wenn sie auf zwei GPUs verteilt wurde, und stieg auf 80 Token pro Sekunde (tps), wenn es auf einer einzelnen GPU lief.

Produktionstestmethodik

Der Entwickler testete das Modell über fünf verschiedene Projekte hinweg und verwendete Git Worktrees, um zu bekannten Spezifikationen und Funktionen zurückzukehren. Die Spezifikationen für diese Tests wurden von Claude generiert, wobei der Entwickler seit einem Jahr einen Max Pro Plan nutzt.

Getestet über JavaScript-, Go- und Rust-Projekte hinweg
Verwendete Git Worktrees für die Versionskontrolle während der Tests
Die meisten "Fehler" erforderten nur 5-minütige Anpassungen oder konnten mit einer zweiten Eingabeaufforderung behoben werden
Verglich die Erfahrung mit der Nutzung von Sonnet 4

Praktische Ergebnisse und geschäftliche Auswirkungen

Der Entwickler berichtete, dass Qwen3.5 für die von ihm durchgeführte Arbeit "herausragend" abschnitt, wobei besonders die starke Leistung bei Go- und Rust-Projekten hervorgehoben wurde. Dies hat zu ernsthaften Überlegungen geführt, von API-basierten Modellen zu einem hybriden Ansatz zu wechseln: Nutzung von SOTA-Modellen über APIs für Spezifikationsgenerierung und Reviews, während lokale Modelle für Entwicklungsarbeiten eingesetzt werden.

Die Tests haben Fragen zu Hardware-Investitionen versus Abonnementkosten aufgeworfen. Der Entwickler hat seit Juni 2025 bereits 2.000 US-Dollar für Claude Pro Max ausgegeben, wobei die potenziellen Kosten bis 2027 auf 6.800 US-Dollar steigen könnten, wenn die Abonnements fortgesetzt werden. Dies hat zu Überlegungen geführt, eine RTX 6000 Pro als Geschäftsinvestition zu kaufen.

Der Entwickler hatte zuvor Qwen Coder für Tab-Vervollständigung genutzt, fand jedoch, dass Qwen3.5 die Fähigkeiten lokaler Modelle für den Produktionseinsatz auf ein neues Niveau hebt.

📖 Read the full source: r/LocalLLaMA

Qwen3.5-35B-A3B-UD-Q6_K_XL in Produktionsentwicklungsworkflows getestet

Leistungsbenchmarks

Produktionstestmethodik

Praktische Ergebnisse und geschäftliche Auswirkungen

👀 Siehe auch

OpenClaw Skill reduziert die Accessibility Tree Tokens von 600.000 auf 1.300

Repowise: Vorberechneter Codebase-Kontext für Claude Code halbiert Token-Nutzung und Aufgabenzeit

Claudes stiller Absturz: Der Ausfall der Handlungsebene, wenn KI-Agenten auf Geschäftsseiten treffen

SkyClaw: Eine offene Agentenlaufzeitumgebung in Rust geschrieben