Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen

✍️ OpenClawRadar📅 Veröffentlicht: 5. April 2026🔗 Source

Ein Reddit-Beitrag auf r/LocalLLaMA vergleicht Qwen3.6 Plus mit mehreren westlichen State-of-the-Art-Modellen über mehrere Benchmarks hinweg. Der Vergleich umfasst spezifische Leistungsmetriken für jedes Modell.

Benchmark-Ergebnisse

Die Quelle liefert diese genauen Werte:

Qwen3.6-Plus: SWE-bench Verified 78,8, GPQA / GPQA Diamond 90,4, HLE (ohne Werkzeuge) 28,8, MMMU-Pro 78,8
GPT‑5.4 (xhigh): SWE-bench Verified 78,2, GPQA / GPQA Diamond 93,0, HLE (ohne Werkzeuge) 39,8, MMMU-Pro 81,2
Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80,8, GPQA / GPQA Diamond 91,3, HLE (ohne Werkzeuge) 34,44, MMMU-Pro 77,3
Gemini 3.1 Pro Preview: SWE-bench Verified 80,6, GPQA / GPQA Diamond 94,3, HLE (ohne Werkzeuge) 44,7, MMMU-Pro 80,5

Der Beitrag enthält einen visuellen Vergleichs-Chart unter: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

Nutzerbewertung

Der ursprüngliche Poster stellt fest, dass Qwen3.6 Plus "wettbewerbsfähig, aber nicht die Spitze" ist und erklärt: "Wird mein neues Modell sein, da es so günstig ist, aber ob es in der Praxis wirklich gut ist, hängt von mehr als Benchmarks ab." Er bemerkt auch, dass "Opus alle anderen trotz Platz 3 oder 4 bei artificalanalysis zerstört."

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

SubQ: Erstes vollständig subquadratisches LLM mit 12-Millionen-Token-Kontext und 95 % RULER-Genauigkeit

Subquadratic bringt SubQ 1M-Preview auf den Markt, ein subquadratisches LLM mit linearem Compute-Scaling, 12-Millionen-Token-Kontext, 52× schnellerer Sparse Attention im Vergleich zu FlashAttention und 95% bei RULER 128K. Verfügbar über API, CLI-Code-Agent (SubQ Code) und Suchtool (SubQ Search).

5. Mai 2026, 18:19 UTC

OpenClawRadar

🦀

Nachrichten

Die alltägliche Gefahr: Warum die größten Bedrohungen der KI-Sicherheit langweilig und nicht dramatisch sind

Ein Essay argumentiert, dass alltägliche KI-Versagen bereits Schaden in großem Maßstab verursachen, aktuelle Alignment-Ansätze zu stark von geschützten Umgebungen abhängen und dass die Konvergenz der Fähigkeiten eine versehentliche Exposition in der offenen Welt immer wahrscheinlicher macht.

13. Mai 2026, 18:18 UTC

OpenClawRadar

Nachrichten

Slack-Ratenbegrenzungsänderungen unterbrechen die OpenClaw-Kontextabrufe

Slack änderte am 3. März die Ratenbegrenzungen und beschränkte conversations.history und conversations.replies auf 1 Anfrage pro Minute mit maximal 15 Nachrichten für Nicht-Marketplace-Apps. Dadurch verlieren OpenClaw-Agenten 85% ihres Kontextfensters.

10. März 2026, 17:45 UTC

OpenClawRadar

Nachrichten

OpenAI veröffentlicht GPT-5.3-Codex-Spark in der Forschungs-Vorschau.

OpenAI hat die Einführung von GPT-5.3-Codex-Spark in einer Forschungs-Vorschau angekündigt und verspricht schnellere Entwicklungsmöglichkeiten.

13. Feb. 2026, 06:45 UTC

OpenClawRadar