Qwen3.5 RTX 4090 Benchmark: 2K-400K Kontext Ergebnisse

Qwen3.5-Leistungstests auf der RTX 4090

Ein Entwickler teilte Benchmark-Ergebnisse für Qwen3.5-Modelle, die auf einer RTX 4090 GPU laufen, und testete Kontextfenster von 2.048 bis 400.000 Tokens. Die Tests waren ursprünglich für 262k Kontext geplant, wurden aber mit yarn und anderen Methoden auf 400k erweitert.

Getestete Modelle

Die folgenden Qwen3.5-Modellvarianten wurden gebenchmarkt:

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

Getestete Kontextfenster

Die Modelle wurden bei diesen spezifischen Kontextlängen bewertet: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 und 400000 Tokens.

Testmethodik

Das Benchmark-Skript wurde konfiguriert, um die bestmögliche Geschwindigkeit in Tokens/Sekunde mit NGL-Einstellungen und 8-Bit- und 4-Bit-KV-Cache zu erreichen. Der Entwickler merkte an, dass die anfängliche Zeit bis zum ersten Token (TTFT) zwar lang erscheint, die Spalte Warm TTFT Avg (s) jedoch eine bessere Leistung zeigt, sobald der KV-Cache geladen ist. Der Kontext wurde absichtlich in der ersten Interaktion vollständig geladen.

Um die Kontextfähigkeiten zu testen, erhielten die Modelle eine 1-Satz-Aufforderung, Protokolle zusammenzufassen, gefolgt von 2k bis 400k Tokens an Protokolldaten. Der Entwickler berichtete über einige Diskrepanzen, aber insgesamt zufriedenstellende Leistung.

Aktueller Status und nächste Schritte

Drei Modelle sind während der Tests fehlgeschlagen und werden KV-Offload-Tests unterzogen: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M und Qwen3.5-35B-A3B-Q4_K_M. Der Entwickler musste diese Tests nach einem Skriptproblem, das 24 Stunden Laufzeit verschwendete, neu starten.

Sobald die VRAM-Offloading-Tests abgeschlossen sind, plant der Entwickler, die Ergebnisse mit grundlegenden Modellen zu vergleichen und hat Ausgaben zur Analyse gespeichert. Der Entwickler äußerte besondere Überraschung über die Leistung der 9B- und 27B-Dichtemodelle.

Der Entwickler sucht nach Community-Input, welche Modelle zum Vergleich herangezogen werden sollen und welche Bewertungsmethodik für die Evaluation verwendet werden soll.

📖 Read the full source: r/openclaw

Benchmark-Ergebnisse für Qwen3.5-Modelle mit 2K bis 400K Kontext auf RTX 4090

Qwen3.5-Leistungstests auf der RTX 4090

Getestete Modelle

Getestete Kontextfenster

Testmethodik

Aktueller Status und nächste Schritte

👀 Siehe auch

inclusionAI veröffentlicht Ling-2.6-1T: Hybridarchitektur-Modell mit Billionen Parametern, Sparse Attention und schnellem Denken

Claude-Code v2.1.41 Veröffentlichung: Wichtige Updates und Fehlerbehebungen

Claude Code v2.1.140 behebt Agent-Tool-Matching, /goal-Hänger und Windows-Event-Loop-Blockade

KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste