Qwen3-30B-A3B vs Qwen3.5-35B-A3B Leistungsvergleich auf RTX 5090

Leistungsvergleich: Qwen3-30B-A3B vs Qwen3.5-35B-A3B
Ein detaillierter Benchmark, der Qwen3-30B-A3B und das neu veröffentlichte Qwen3.5-35B-A3B auf einer NVIDIA RTX 5090 vergleicht, zeigt Kompromisse zwischen Geschwindigkeit und Kontextverarbeitung. Beide Modelle verwenden dieselbe Mixture-of-Experts-Architektur mit 3B aktiven Parametern, wobei die 3.5-Version 5B zusätzliche Gesamtparameter hinzufügt und einen Vision-Projektor enthält.
Hardware und Einrichtung
- GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
- Server: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
- Quantisierung: Q4_K_M für beide Modelle
- KV-Cache: Q8_0 (-ctk q8_0 -ctv q8_0)
- Kontext: 32.768 Token (-c 32768)
- Parameter: -ngl 999 -np 4 --flash-attn on -t 12
- Modell A: Qwen3-30B-A3B-Q4_K_M (17 GB auf der Festplatte)
- Modell B: Qwen3.5-35B-A3B-Q4_K_M (21 GB auf der Festplatte)
Beide Modelle wurden vor der Zeitmessung mit einer Testanfrage aufgewärmt. Die serverseitigen Zeitmessungen stammten aus API-Antworten, nicht aus Wanduhr-Messungen.
Rohdaten zur Inferenzgeschwindigkeit
Direkte llama.cpp /v1/chat/completions-Tests zeigten:
- Kurze Eingaben (8-9 Token): 30B: 248,2 Tok/s, 3.5: 169,5 Tok/s
- Mittlere Eingaben (73-78 Token): 30B: 236,1 Tok/s, 3.5: 163,5 Tok/s
- Langform (800 Token): 30B: 232,6 Tok/s, 3.5: 116,3 Tok/s
- Code-Generierung (298-400 Token): 30B: 233,9 Tok/s, 3.5: 161,6 Tok/s
- Logisches Denken (200 Token): 30B: 234,8 Tok/s, 3.5: 158,2 Tok/s
Durchschnittliche Erzeugungsgeschwindigkeit: 30B: 237,1 Tok/s, 3.5: 153,8 Tok/s (30B ist 35 % schneller)
Durchschnittliche Eingabeverarbeitung: 30B: 773,5 Token/s, 3.5: 518,1 Token/s
Das 3.5-Modell zeigt einen interessanten Rückgang bei langen Ausgaben (800 Token) auf 116 Tok/s im Vergleich zu ~160 Tok/s bei kürzeren Ausgaben. Die Eingabeverarbeitung ist beim 3.5-Modell aufgrund seines größeren Vokabulars (248K vs 152K Token) langsamer.
Speichernutzung
VRAM-Nutzung: 30B verwendet 27,3 GB im Leerlauf, 3.5 verwendet 29,0 GB im Leerlauf. Beide passen bequem auf die RTX 5090.
Beobachtungen zur Antwortqualität
Tests bei Temperatur=0,7 zeigten, dass beide Modelle kompetente Ausgaben liefern. Wichtige Beobachtungen:
- Kreatives Schreiben: Beide solide, wobei 3.5 etwas atmosphärischere Prosa zeigt
- Haiku-Generierung: Beide erzeugen gültige 5-7-5-Strukturen
- Programmieraufgaben: Beide implementieren korrekt LRU-Cache mit O(1)-Get/Put-Operationen
Das 3.5-Modell verarbeitet lange Kontexte dank flacher Token-Skalierung deutlich besser im Vergleich zum 21 %-Rückgang des 30B-Modells. Die Qualitätsunterschiede sind minimal, mit einem leichten Vorteil für 3.5 bei Struktur und Formatierung.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Claude Opus 4.6 Gedächtnisausfall: Agent vergisst alles außer Dateiumbenennung
Ein Entwickler dokumentiert die 228 Logeinträge, 95 Agentenaktionen und 38 Codeausführungen von Claude Opus 4.6, die nur einen Speicher produzierten: die Zeichenfolge „Agent Zero Tune-Up“.

Anthropic DNS-Aktivität enthüllt neuen STT-Dienst, API RC2 und Tunnel-Infrastruktur
Die DNS-Überwachung von Anthropics Subdomains zeigt neue Einträge für einen Spracherkennungsdienst auf einer 'Titanium'-Plattform, einen API-Release-Kandidaten 2, Tunnel-Infrastruktur und einen MCP-Proxy im Staging-Bereich.

Claude-Code v2.1.31 Veröffentlichungsnotizen: Wichtige Updates und Bugfixes
Claude-Code v2.1.31 wurde mit wichtigen Verbesserungen veröffentlicht, darunter Hinweise zum Wiederaufnehmen von Sitzungen, Unterstützung für das japanische IME und Fehlerbehebungen für die PDF-Verarbeitung und API-Anfragen.

KI scannt 400.000 Reddit-Beiträge, deckt versteckte Ozempic-Nebenwirkungen wie Menstruationsveränderungen auf
Forscher der University of Pennsylvania nutzten LLMs, um 400.000 Reddit-Beiträge zu GLP-1-Medikamenten zu analysieren und dabei unterberichtete Symptome wie Menstruationsunregelmäßigkeiten und Schüttelfrost aufzudecken.