DeepSeek V3.2がClaude Opus 4.6を4/5ベンチで上回る

ベンチマーク結果

オープンソースモデルとClaude Opus 4.6の詳細な比較では、複数のカテゴリーで競争力のある、あるいは優れたパフォーマンスが示されています。

一般推論: DeepSeek V3.2

DeepSeek V3.2はプロプライエタリモデルに対抗し、高計算バリアント（V3.2-Speciale）はGPT-5を上回ります。

SWE-bench Verified: Claude Opus 4.6: 80.8%、DeepSeek V3.2: 73.0%
LiveCodeBench: Claude Opus 4.6: 76、DeepSeek V3.2: 74.1
MMLU-Pro: DeepSeek V3.2: 85.0%、Claude Opus 4.6: 82.0%

DeepSeek V3.2は強力な多言語サポート（CJK、アラビア語、ヨーロッパ言語）、128Kコンテキストとスパースアテンションを備えていますが、創造的な文章作成や一部の構造化出力のエッジケースでは劣ります。推論: 出力約60 tok/s、TTFT 1.18秒、128Kコンテキスト。一般的なユースケースの90%以上で本番環境対応。GPT-5の5分の1、Opus 4.6の20分の1のコスト。

推論: DeepSeek R1

DeepSeek R1は複数のベンチマークで高価な推論モデルを上回ります。

Humanity's Last Exam: DeepSeek R1: 50.2%、Claude Opus 4.6: 40.0%
MMLU-Pro: DeepSeek R1: 88.9%、Claude Opus 4.6: 82.0%

推論: 出力約30 tok/s、TTFT約2秒。連鎖思考処理のため、非推論モデルより遅い。最高のオープンソース推論モデル。HLEでGPT-5.2 Proと同等。o1の30分の1のコスト。

エージェント: Kimi K2.5

1兆パラメータ（MoEによりトークンごとに32Bアクティブ）。256Kコンテキスト。修正MITライセンスでオープンソース。

ツール使用の改善: Kimi K2.5: +20.1ポイント、Claude Opus 4.6: +12.4ポイント、GPT-5.2: +11.0ポイント
SWE-bench Verified: Claude Opus 4.6: 80.8%、Kimi K2.5: 76.8%
Humanity's Last Exam: Kimi K2.5: 50.2%、Claude Opus 4.6: 40.0%

最大100のサブエージェントを並列で生成し、人間の介入なしに1,500以上のツール呼び出しを処理可能。推論: 出力334 tok/s、TTFT 0.31秒。自律エージェントワークロードに最適なモデル。最速のTTFT、最高のツール使用、すべてのベンチマークで競争力あり。

コード: MiniMax M2.5

MiniMax M2.5は最高のコーディングモデルの一つになりました。

SWE-bench Verified: Claude Opus 4.6: 80.8%、MiniMax M2.5: 80.2%、GLM-5: 77.8%

MiniMaxは3月18日にM2.7をリリース — 100万トークンあたり$0.30/$1.20の「自己進化」モデル。コーディング精度で96パーセンタイル、一般知識で完璧なスコア。利用可能な最安のフロンティアモデルの一つ。オープンソースのコーディングモデルは最高のプロプライエタリモデルと実質的に同等。

速度比較

本番環境では、品質と同様にレイテンシも重要です。

出力速度（トークン/秒）:

Kimi K2.5 Turbo: 334
Llama 3.1 8B: 約200
GLM 4.7 Flash: 約150
DeepSeek V3.2: 約60
Claude Opus 4.6: 46
DeepSeek R1: 約30

初回トークンまでの時間（TTFT）:

Llama 3.1 8B: 0.2秒
Kimi K2.5 Turbo: 0.31秒
GLM 4.7 Flash: 0.51秒
DeepSeek V3.2: 1.18秒

Kimi K2.5の334 tok/sは、Opusの46 tok/sの7倍の速さです。

ビジョン

オープンソースのビジョンモデルは、ドキュメント処理と標準的な画像分析で追いつきました。Llama 4 Scout、Qwen VLなどは、ドキュメント抽出（請求書、領収書、フォーム）、図解理解、複数画像推論をうまく処理します。細かい空間推論や非ラテン文字の手書き認識ではまだ劣ります。

全体比較

各カテゴリーでの最高のオープンソースモデルとClaude Opus 4.6の比較（Opus = 各軸で100%）:

コード（SWE-bench）: オープンソース 80.2% vs Opus 80.8% — Opusが0.6ポイントで勝利。ほぼ同点。
知識（MMLU-Pro）: オープンソース 88.9% vs Opus 82.0% — オープンソースが6.9ポイントで勝利。
速度（tok/s）: オープンソース 334 vs Opus 46 — オープンソースが7.3倍高速。
ツール使用（改善）: オープンソース +20.1ポイント vs Opus +12.4ポイント — オープンソースが7.7ポイントで勝利。

📖 Read the full source: r/LocalLLaMA

オープンソースモデルは、ベンチマークでClaude Opus 4.6に匹敵するか、あるいは上回る性能を示しています。

ベンチマーク結果

一般推論: DeepSeek V3.2

推論: DeepSeek R1

エージェント: Kimi K2.5

コード: MiniMax M2.5

速度比較

ビジョン

全体比較

👀 See Also

NVIDIA、エージェントAIワークロード向け「Vera CPU」を発表

AIが私を愚かにしている：スキル萎縮に悩む開発者の告白

Docker OpenClaw ブリッジネットワークにおけるControl-UI LANアクセス問題

InclusionAI、Ring-2.6-1Tをリリース：エージェントワークフロー向けの1兆パラメータモデル