Qwen3-30B vs Qwen3.5-35B: Leistungsvergleich auf RTX 5090

Leistungsvergleich: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Ein detaillierter Benchmark, der Qwen3-30B-A3B und das neu veröffentlichte Qwen3.5-35B-A3B auf einer NVIDIA RTX 5090 vergleicht, zeigt Kompromisse zwischen Geschwindigkeit und Kontextverarbeitung. Beide Modelle verwenden dieselbe Mixture-of-Experts-Architektur mit 3B aktiven Parametern, wobei die 3.5-Version 5B zusätzliche Gesamtparameter hinzufügt und einen Vision-Projektor enthält.

Hardware und Einrichtung

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
Server: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
Quantisierung: Q4_K_M für beide Modelle
KV-Cache: Q8_0 (-ctk q8_0 -ctv q8_0)
Kontext: 32.768 Token (-c 32768)
Parameter: -ngl 999 -np 4 --flash-attn on -t 12
Modell A: Qwen3-30B-A3B-Q4_K_M (17 GB auf der Festplatte)
Modell B: Qwen3.5-35B-A3B-Q4_K_M (21 GB auf der Festplatte)

Beide Modelle wurden vor der Zeitmessung mit einer Testanfrage aufgewärmt. Die serverseitigen Zeitmessungen stammten aus API-Antworten, nicht aus Wanduhr-Messungen.

Rohdaten zur Inferenzgeschwindigkeit

Direkte llama.cpp /v1/chat/completions-Tests zeigten:

Kurze Eingaben (8-9 Token): 30B: 248,2 Tok/s, 3.5: 169,5 Tok/s
Mittlere Eingaben (73-78 Token): 30B: 236,1 Tok/s, 3.5: 163,5 Tok/s
Langform (800 Token): 30B: 232,6 Tok/s, 3.5: 116,3 Tok/s
Code-Generierung (298-400 Token): 30B: 233,9 Tok/s, 3.5: 161,6 Tok/s
Logisches Denken (200 Token): 30B: 234,8 Tok/s, 3.5: 158,2 Tok/s

Durchschnittliche Erzeugungsgeschwindigkeit: 30B: 237,1 Tok/s, 3.5: 153,8 Tok/s (30B ist 35 % schneller)

Durchschnittliche Eingabeverarbeitung: 30B: 773,5 Token/s, 3.5: 518,1 Token/s

Das 3.5-Modell zeigt einen interessanten Rückgang bei langen Ausgaben (800 Token) auf 116 Tok/s im Vergleich zu ~160 Tok/s bei kürzeren Ausgaben. Die Eingabeverarbeitung ist beim 3.5-Modell aufgrund seines größeren Vokabulars (248K vs 152K Token) langsamer.

Speichernutzung

VRAM-Nutzung: 30B verwendet 27,3 GB im Leerlauf, 3.5 verwendet 29,0 GB im Leerlauf. Beide passen bequem auf die RTX 5090.

Beobachtungen zur Antwortqualität

Tests bei Temperatur=0,7 zeigten, dass beide Modelle kompetente Ausgaben liefern. Wichtige Beobachtungen:

Kreatives Schreiben: Beide solide, wobei 3.5 etwas atmosphärischere Prosa zeigt
Haiku-Generierung: Beide erzeugen gültige 5-7-5-Strukturen
Programmieraufgaben: Beide implementieren korrekt LRU-Cache mit O(1)-Get/Put-Operationen

Das 3.5-Modell verarbeitet lange Kontexte dank flacher Token-Skalierung deutlich besser im Vergleich zum 21 %-Rückgang des 30B-Modells. Die Qualitätsunterschiede sind minimal, mit einem leichten Vorteil für 3.5 bei Struktur und Formatierung.

📖 Read the full source: r/LocalLLaMA