Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較

✍️ OpenClawRadar📅 公開日: April 5, 2026🔗 Source
Qwen3.6 Plusと欧米のSOTAモデルとのベンチマーク比較
Ad

r/LocalLLaMAのReddit投稿では、Qwen3.6 Plusを複数のベンチマークでいくつかの西洋の最先端モデルと比較しています。この比較には、各モデルの具体的なパフォーマンス指標が含まれています。

ベンチマーク結果

ソースでは以下の正確なスコアが提供されています:

  • Qwen3.6-Plus: SWE-bench Verified 78.8、GPQA / GPQA Diamond 90.4、HLE(ツールなし)28.8、MMMU-Pro 78.8
  • GPT‑5.4 (xhigh): SWE-bench Verified 78.2、GPQA / GPQA Diamond 93.0、HLE(ツールなし)39.8、MMMU-Pro 81.2
  • Claude Opus 4.6 (thinking heavy): SWE-bench Verified 80.8、GPQA / GPQA Diamond 91.3、HLE(ツールなし)34.44、MMMU-Pro 77.3
  • Gemini 3.1 Pro Preview: SWE-bench Verified 80.6、GPQA / GPQA Diamond 94.3、HLE(ツールなし)44.7、MMMU-Pro 80.5

投稿には、以下のURLで視覚的な比較チャートが利用可能です:https://preview.redd.it/6kq4tt07yrsg1.png?width=714&format=png&auto=webp&s=ad8b207fb13729ae84f5b74cec5fd84a81dcface

ユーザー評価

投稿者は、Qwen3.6 Plusは「競争力はあるがトップではない」と指摘し、「その安さから私の新しいモデルになるだろうが、実際に良いかどうかはベンチマーク以上に依存する」と述べています。また、「Opusはartificalanalysisでは3位か4位にもかかわらず、他のすべてを圧倒している」とも観察しています。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Redditでの議論:ClaudeがMVP開発に与える影響と創業者が陥りやすい落とし穴
News

Redditでの議論:ClaudeがMVP開発に与える影響と創業者が陥りやすい落とし穴

Redditユーザーが、Claude AIがMVP構築の技術的ハードルを3,000〜5,000ドルからDIYレベルに下げたと論じる一方で、競争激化や創業者が構築に偏りすぎてマーケティング、PMF、運用を疎かにする危険性を警告しています。

OpenClawRadar
OpenClaw v3.22のアップデートによりダッシュボードとWhatsAppに問題が発生
News

OpenClaw v3.22のアップデートによりダッシュボードとWhatsAppに問題が発生

OpenClaw v3.22ではダッシュボード機能とWhatsApp連携が破損しており、GitHubのIssue(#52808と#52813)で問題が記録されています。ユーザーはこのバージョンへのアップデートを控えるよう推奨されています。

OpenClawRadar
Claude Opus 4.5とSonnet 4.5は/モデル選択から削除され、起動フラグが必要です
News

Claude Opus 4.5とSonnet 4.5は/モデル選択から削除され、起動フラグが必要です

Claude Opus 4.5とSonnet 4.5は、セッション中の/model選択メニューから利用できなくなりました。ユーザーは現在、これらの古いバージョンにアクセスするために、完全なモデルIDを指定した--modelフラグを使用してセッションを開始する必要があります。

OpenClawRadar
Slurmコーディング:時間が消えるAI駆動開発パターン
News

Slurmコーディング:時間が消えるAI駆動開発パターン

ある開発者が、AIコーディングツールによって可能になった強烈な開発パターンを「スラームコーディング」と表現しています。小さなアイデアが、迅速な実装とドーパミンのフィードバックループを通じて、完全なシステムへと急速にエスカレートする様子を指します。

OpenClawRadar