Benchmark-Ergebnisse für Qwen3.5-Modelle mit 2K bis 400K Kontext auf RTX 4090

Qwen3.5-Leistungstests auf der RTX 4090
Ein Entwickler teilte Benchmark-Ergebnisse für Qwen3.5-Modelle, die auf einer RTX 4090 GPU laufen, und testete Kontextfenster von 2.048 bis 400.000 Tokens. Die Tests waren ursprünglich für 262k Kontext geplant, wurden aber mit yarn und anderen Methoden auf 400k erweitert.
Getestete Modelle
Die folgenden Qwen3.5-Modellvarianten wurden gebenchmarkt:
- Qwen3.5-0.8B-Q4_K_M
- Qwen3.5-0.8B-bf16
- Qwen3.5-2B-Q4_K_M
- Qwen3.5-2B-bf16
- Qwen3.5-4B-Q4_K_M
- Qwen3.5-4B-bf16
- Qwen3.5-9B-Q4_K_M
- Qwen3.5-9B-bf16
- Qwen3.5-27B-Q4_K_M
- Qwen3.5-35B-A3B-Q4_K_M
Getestete Kontextfenster
Die Modelle wurden bei diesen spezifischen Kontextlängen bewertet: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 und 400000 Tokens.
Testmethodik
Das Benchmark-Skript wurde konfiguriert, um die bestmögliche Geschwindigkeit in Tokens/Sekunde mit NGL-Einstellungen und 8-Bit- und 4-Bit-KV-Cache zu erreichen. Der Entwickler merkte an, dass die anfängliche Zeit bis zum ersten Token (TTFT) zwar lang erscheint, die Spalte Warm TTFT Avg (s) jedoch eine bessere Leistung zeigt, sobald der KV-Cache geladen ist. Der Kontext wurde absichtlich in der ersten Interaktion vollständig geladen.
Um die Kontextfähigkeiten zu testen, erhielten die Modelle eine 1-Satz-Aufforderung, Protokolle zusammenzufassen, gefolgt von 2k bis 400k Tokens an Protokolldaten. Der Entwickler berichtete über einige Diskrepanzen, aber insgesamt zufriedenstellende Leistung.
Aktueller Status und nächste Schritte
Drei Modelle sind während der Tests fehlgeschlagen und werden KV-Offload-Tests unterzogen: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M und Qwen3.5-35B-A3B-Q4_K_M. Der Entwickler musste diese Tests nach einem Skriptproblem, das 24 Stunden Laufzeit verschwendete, neu starten.
Sobald die VRAM-Offloading-Tests abgeschlossen sind, plant der Entwickler, die Ergebnisse mit grundlegenden Modellen zu vergleichen und hat Ausgaben zur Analyse gespeichert. Der Entwickler äußerte besondere Überraschung über die Leistung der 9B- und 27B-Dichtemodelle.
Der Entwickler sucht nach Community-Input, welche Modelle zum Vergleich herangezogen werden sollen und welche Bewertungsmethodik für die Evaluation verwendet werden soll.
📖 Read the full source: r/openclaw
👀 Siehe auch

Steuerung der Benutzeroberfläche: LAN-Zugriffsprobleme in Docker OpenClaw Bridge-Netzwerken
Ein Benutzer berichtet von anhaltenden Problemen beim Zugriff auf die Control-UI von OpenClaw über LAN-Verbindungen in Docker-Bridge-Netzwerken, wobei Version 2026.3.14 kurzzeitig tokenbasierten Zugriff unterstützte, bevor spätere Versionen wieder die Paarung erforderten und Bereichsfehler auslösten.

KI-Codierungsagenten haben Schwierigkeiten mit der Kontextverwaltung in großen Codebasen.
Eine Analyse von KI-Codierungsagenten zeigt, dass sie 15-20 Tool-Aufrufe für Orientierungsaufgaben wie das Durchsuchen von Routen und das Lesen von Middleware verwenden, bevor sie Code schreiben, wodurch Kontextfenster aufgebraucht werden. Vercel erreichte 100% Genauigkeit, indem es 80% der Tools entfernte und Bash verwendete, während Pi nur 4 Tools und einen Systemprompt mit weniger als 1.000 Tokens nutzt.

Entwickler wechselt zu Minimax 2.7 nach Claude-Sperre und MiMo-Guthabenproblemen
Ein Entwickler testete mehrere KI-Modelle für OpenClaw, nachdem Claude gesperrt wurde, und stellte fest, dass GLM 5.1 und 5 Turbo für agentische Aufgaben unbrauchbar sind, MiMo V2 Pros Guthabensystem ineffizient ist, und entschied sich schließlich für Minimax 2.7 aufgrund seines großzügigen Kontingents und seiner Fähigkeit, Automatisierungsaufgaben zu bewältigen.

OpenClaw 2026.3.11 Release fügt lokale Ollama-Einrichtung, vereinheitlichte OpenCode-Schlüssel und multimodalen Speicher hinzu.
OpenClaw 2026.3.11 führt ein erstklassiges Ollama-Setup mit rein lokalen oder hybriden Modi ein, vereinheitlichtes OpenCode-Schlüsselmanagement für Zen- und Go-Modelle sowie multimodale Bild-/Audio-Indizierung mit Gemini-Embeddings.