Benchmark-Ergebnisse für Qwen3.5-Modelle mit 2K bis 400K Kontext auf RTX 4090

✍️ OpenClawRadar📅 Veröffentlicht: 7. März 2026🔗 Source
Benchmark-Ergebnisse für Qwen3.5-Modelle mit 2K bis 400K Kontext auf RTX 4090
Ad

Qwen3.5-Leistungstests auf der RTX 4090

Ein Entwickler teilte Benchmark-Ergebnisse für Qwen3.5-Modelle, die auf einer RTX 4090 GPU laufen, und testete Kontextfenster von 2.048 bis 400.000 Tokens. Die Tests waren ursprünglich für 262k Kontext geplant, wurden aber mit yarn und anderen Methoden auf 400k erweitert.

Getestete Modelle

Die folgenden Qwen3.5-Modellvarianten wurden gebenchmarkt:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

Getestete Kontextfenster

Die Modelle wurden bei diesen spezifischen Kontextlängen bewertet: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 und 400000 Tokens.

Testmethodik

Das Benchmark-Skript wurde konfiguriert, um die bestmögliche Geschwindigkeit in Tokens/Sekunde mit NGL-Einstellungen und 8-Bit- und 4-Bit-KV-Cache zu erreichen. Der Entwickler merkte an, dass die anfängliche Zeit bis zum ersten Token (TTFT) zwar lang erscheint, die Spalte Warm TTFT Avg (s) jedoch eine bessere Leistung zeigt, sobald der KV-Cache geladen ist. Der Kontext wurde absichtlich in der ersten Interaktion vollständig geladen.

Um die Kontextfähigkeiten zu testen, erhielten die Modelle eine 1-Satz-Aufforderung, Protokolle zusammenzufassen, gefolgt von 2k bis 400k Tokens an Protokolldaten. Der Entwickler berichtete über einige Diskrepanzen, aber insgesamt zufriedenstellende Leistung.

Ad

Aktueller Status und nächste Schritte

Drei Modelle sind während der Tests fehlgeschlagen und werden KV-Offload-Tests unterzogen: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M und Qwen3.5-35B-A3B-Q4_K_M. Der Entwickler musste diese Tests nach einem Skriptproblem, das 24 Stunden Laufzeit verschwendete, neu starten.

Sobald die VRAM-Offloading-Tests abgeschlossen sind, plant der Entwickler, die Ergebnisse mit grundlegenden Modellen zu vergleichen und hat Ausgaben zur Analyse gespeichert. Der Entwickler äußerte besondere Überraschung über die Leistung der 9B- und 27B-Dichtemodelle.

Der Entwickler sucht nach Community-Input, welche Modelle zum Vergleich herangezogen werden sollen und welche Bewertungsmethodik für die Evaluation verwendet werden soll.

📖 Read the full source: r/openclaw

Ad

👀 Siehe auch

inclusionAI veröffentlicht Ling-2.6-1T: Hybridarchitektur-Modell mit Billionen Parametern, Sparse Attention und schnellem Denken
Nachrichten

inclusionAI veröffentlicht Ling-2.6-1T: Hybridarchitektur-Modell mit Billionen Parametern, Sparse Attention und schnellem Denken

Ling-2.6-1T ist ein neues Open-Source-Modell mit einer Billion Parametern, das MLA und Linear Attention für Effizienz bei langen Kontexten kombiniert und mittels Contextual Process Redundancy Suppression wortreiche Gedankenketten reduziert. Erzielt Open-Source-Spitzenwerte bei AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench und IFBench.

OpenClawRadar
Claude-Code v2.1.41 Veröffentlichung: Wichtige Updates und Fehlerbehebungen
Nachrichten

Claude-Code v2.1.41 Veröffentlichung: Wichtige Updates und Fehlerbehebungen

Die Claude-Code-Version v2.1.41 bringt Verbesserungen für die AWS-Autorisierungsaktualisierung, Unterstützung für Windows ARM64 sowie verschiedene Fixes für zahlreiche Werkzeuge und UI-Elemente.

OpenClawRadar
🦀
Nachrichten

Claude Code v2.1.140 behebt Agent-Tool-Matching, /goal-Hänger und Windows-Event-Loop-Blockade

v2.1.140 verbessert die Übereinstimmung des Unteragententyps im Agent-Tool, sodass Groß-/Kleinschreibung und Trennzeichen ignoriert werden, behebt das Hängen von /goal bei deaktiviertem disableAllHooks, löst Windows-Event-Loop-Blockaden durch fehlende ausführbare Dateien und mehr.

OpenClawRadar
KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste
Nachrichten

KI-Abonnements brauchen einen zuverlässigen Zähler: Ein Ruf nach Transparenz der Dienste

Ein Reddit-Beitrag argumentiert, dass KI-Abonnements eine grundlegende Service-Quittung bereitstellen sollten, die zeigt, welches Modell tatsächlich verwendet wurde, den Reasoning-Aufwand, die Kontextverarbeitung und etwaiges Lastmanagement, und zieht Parallelen zu Eich- und Messnormen.

OpenClawRadar