Qwen3.6 Plus vs 欧米SOTA：ベンチマーク比較と性能差

r/LocalLLaMAのReddit投稿では、Qwen3.6 Plusを複数のベンチマークでいくつかの西洋の最先端モデルと比較しています。この比較には、各モデルの具体的なパフォーマンス指標が含まれています。

ベンチマーク結果

ソースでは以下の正確なスコアが提供されています：

Qwen3.6-Plus: SWE-bench Verified 78.8、GPQA / GPQA Diamond 90.4、HLE（ツールなし）28.8、MMMU-Pro 78.8
GPT‑5.4 (xhigh): SWE-bench Verified 78.2、GPQA / GPQA Diamond 93.0、HLE（ツールなし）39.8、MMMU-Pro 81.2
Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8、GPQA / GPQA Diamond 91.3、HLE（ツールなし）34.44、MMMU-Pro 77.3
Gemini 3.1 Pro Preview: SWE-bench Verified 80.6、GPQA / GPQA Diamond 94.3、HLE（ツールなし）44.7、MMMU-Pro 80.5

投稿には、以下のURLで視覚的な比較チャートが利用可能です：https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

ユーザー評価

投稿者は、Qwen3.6 Plusは「競争力はあるがトップではない」と指摘し、「その安さから私の新しいモデルになるだろうが、実際に良いかどうかはベンチマーク以上に依存する」と述べています。また、「Opusはartificalanalysisでは3位か4位にもかかわらず、他のすべてを圧倒している」とも観察しています。

📖 Read the full source: r/LocalLLaMA

Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較

ベンチマーク結果

ユーザー評価

👀 See Also

OpenClaw 3.31 アップデートにより、エージェントの権限と設定がリセットされます

Claudeの100万トークンコンテキストウィンドウにおけるトークン消費の分析：データは無制限な増加とキャッシュミスの複合効果を示す

OpenClaw v2026.6.10: 自動高速モード、モデルルーティングの修正、および信頼できるツールのポリシー

Claude Fable 5: 本番リリースエラーが20倍過小評価 — セクション2.3.3を参照