Qwen3.6 Plus Benchmark-Vergleich mit westlichen SOTA-Modellen

Ein Reddit-Beitrag auf r/LocalLLaMA vergleicht Qwen3.6 Plus mit mehreren westlichen State-of-the-Art-Modellen über mehrere Benchmarks hinweg. Der Vergleich umfasst spezifische Leistungsmetriken für jedes Modell.
Benchmark-Ergebnisse
Die Quelle liefert diese genauen Werte:
- Qwen3.6-Plus: SWE-bench Verified 78,8, GPQA / GPQA Diamond 90,4, HLE (ohne Werkzeuge) 28,8, MMMU-Pro 78,8
- GPT‑5.4 (xhigh): SWE-bench Verified 78,2, GPQA / GPQA Diamond 93,0, HLE (ohne Werkzeuge) 39,8, MMMU-Pro 81,2
- Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80,8, GPQA / GPQA Diamond 91,3, HLE (ohne Werkzeuge) 34,44, MMMU-Pro 77,3
- Gemini 3.1 Pro Preview: SWE-bench Verified 80,6, GPQA / GPQA Diamond 94,3, HLE (ohne Werkzeuge) 44,7, MMMU-Pro 80,5
Der Beitrag enthält einen visuellen Vergleichs-Chart unter: https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface
Nutzerbewertung
Der ursprüngliche Poster stellt fest, dass Qwen3.6 Plus "wettbewerbsfähig, aber nicht die Spitze" ist und erklärt: "Wird mein neues Modell sein, da es so günstig ist, aber ob es in der Praxis wirklich gut ist, hängt von mehr als Benchmarks ab." Er bemerkt auch, dass "Opus alle anderen trotz Platz 3 oder 4 bei artificalanalysis zerstört."
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

US-Militär setzt Anthropic unter Druck, Claude-Sicherheitsvorkehrungen für militärische Nutzung zu entfernen
US-amerikanische Militärführer, darunter Verteidigungsminister Pete Hegseth, trafen sich mit Führungskräften von Anthropic, um die Entfernung von Claudes Schutzmaßnahmen gegen militärische Anwendungen wie Massenüberwachung und autonome Waffen zu fordern. Das Pentagon hat Anthropic bis Freitag Zeit gegeben, zu kooperieren, oder mit Sanktionen wie Vertragskündigung zu rechnen.

Prozessrisiken bei Finanzierungsstrukturen für KI-Rechenzentren
Der Ausbau von KI-Rechenzentren erfordert bis 2030 Investitionen in Höhe von 5,2 Billionen US-Dollar in die Infrastruktur. Unternehmen nutzen komplexe Finanzierungsstrukturen wie Zweckgesellschaften (SPVs) und GPU-besicherte Kreditfazilitäten, die neun Kategorien von Klagerisiken mit sich bringen.

Pentagon übermittelt Anthropic letztes Angebot für militärische KI-Nutzung im Streit
Das Pentagon hat Anthropic ein endgültiges und bestes Angebot für die uneingeschränkte militärische Nutzung seines Claude-KI-Modells übermittelt, mit einer Frist bis Freitag, um vollen Zugriff zu gewähren, andernfalls droht der Verlust von Militärgeschäften und die Einstufung als Lieferkettenrisiko.

Agentic GRPO: Erste KI, die in einem Programmierwettbewerb jeden Menschen schlägt
Der neue RL-Algorithmus Agentic GRPO ermöglicht es einer KI, alle Menschen in einem Programmierwettbewerb zu schlagen, indem er sofortige Belohnungen und verzögerte Korrekturen bietet.