オープンソースモデルは、ベンチマークでClaude Opus 4.6に匹敵するか、あるいは上回る性能を示しています。

ベンチマーク結果
オープンソースモデルとClaude Opus 4.6の詳細な比較では、複数のカテゴリーで競争力のある、あるいは優れたパフォーマンスが示されています。
一般推論: DeepSeek V3.2
DeepSeek V3.2はプロプライエタリモデルに対抗し、高計算バリアント(V3.2-Speciale)はGPT-5を上回ります。
- SWE-bench Verified: Claude Opus 4.6: 80.8%、DeepSeek V3.2: 73.0%
- LiveCodeBench: Claude Opus 4.6: 76、DeepSeek V3.2: 74.1
- MMLU-Pro: DeepSeek V3.2: 85.0%、Claude Opus 4.6: 82.0%
DeepSeek V3.2は強力な多言語サポート(CJK、アラビア語、ヨーロッパ言語)、128Kコンテキストとスパースアテンションを備えていますが、創造的な文章作成や一部の構造化出力のエッジケースでは劣ります。推論: 出力約60 tok/s、TTFT 1.18秒、128Kコンテキスト。一般的なユースケースの90%以上で本番環境対応。GPT-5の5分の1、Opus 4.6の20分の1のコスト。
推論: DeepSeek R1
DeepSeek R1は複数のベンチマークで高価な推論モデルを上回ります。
- Humanity's Last Exam: DeepSeek R1: 50.2%、Claude Opus 4.6: 40.0%
- MMLU-Pro: DeepSeek R1: 88.9%、Claude Opus 4.6: 82.0%
推論: 出力約30 tok/s、TTFT約2秒。連鎖思考処理のため、非推論モデルより遅い。最高のオープンソース推論モデル。HLEでGPT-5.2 Proと同等。o1の30分の1のコスト。
エージェント: Kimi K2.5
1兆パラメータ(MoEによりトークンごとに32Bアクティブ)。256Kコンテキスト。修正MITライセンスでオープンソース。
- ツール使用の改善: Kimi K2.5: +20.1ポイント、Claude Opus 4.6: +12.4ポイント、GPT-5.2: +11.0ポイント
- SWE-bench Verified: Claude Opus 4.6: 80.8%、Kimi K2.5: 76.8%
- Humanity's Last Exam: Kimi K2.5: 50.2%、Claude Opus 4.6: 40.0%
最大100のサブエージェントを並列で生成し、人間の介入なしに1,500以上のツール呼び出しを処理可能。推論: 出力334 tok/s、TTFT 0.31秒。自律エージェントワークロードに最適なモデル。最速のTTFT、最高のツール使用、すべてのベンチマークで競争力あり。
コード: MiniMax M2.5
MiniMax M2.5は最高のコーディングモデルの一つになりました。
- SWE-bench Verified: Claude Opus 4.6: 80.8%、MiniMax M2.5: 80.2%、GLM-5: 77.8%
MiniMaxは3月18日にM2.7をリリース — 100万トークンあたり$0.30/$1.20の「自己進化」モデル。コーディング精度で96パーセンタイル、一般知識で完璧なスコア。利用可能な最安のフロンティアモデルの一つ。オープンソースのコーディングモデルは最高のプロプライエタリモデルと実質的に同等。
速度比較
本番環境では、品質と同様にレイテンシも重要です。
出力速度(トークン/秒):
- Kimi K2.5 Turbo: 334
- Llama 3.1 8B: 約200
- GLM 4.7 Flash: 約150
- DeepSeek V3.2: 約60
- Claude Opus 4.6: 46
- DeepSeek R1: 約30
初回トークンまでの時間(TTFT):
- Llama 3.1 8B: 0.2秒
- Kimi K2.5 Turbo: 0.31秒
- GLM 4.7 Flash: 0.51秒
- DeepSeek V3.2: 1.18秒
Kimi K2.5の334 tok/sは、Opusの46 tok/sの7倍の速さです。
ビジョン
オープンソースのビジョンモデルは、ドキュメント処理と標準的な画像分析で追いつきました。Llama 4 Scout、Qwen VLなどは、ドキュメント抽出(請求書、領収書、フォーム)、図解理解、複数画像推論をうまく処理します。細かい空間推論や非ラテン文字の手書き認識ではまだ劣ります。
全体比較
各カテゴリーでの最高のオープンソースモデルとClaude Opus 4.6の比較(Opus = 各軸で100%):
- コード(SWE-bench): オープンソース 80.2% vs Opus 80.8% — Opusが0.6ポイントで勝利。ほぼ同点。
- 知識(MMLU-Pro): オープンソース 88.9% vs Opus 82.0% — オープンソースが6.9ポイントで勝利。
- 速度(tok/s): オープンソース 334 vs Opus 46 — オープンソースが7.3倍高速。
- ツール使用(改善): オープンソース +20.1ポイント vs Opus +12.4ポイント — オープンソースが7.7ポイントで勝利。
📖 Read the full source: r/LocalLLaMA
👀 See Also

Anthropic-xAIコンピュート契約:Claudeコード制限を超えて
Anthropicは競合のxAIと300MW/220k GPUのコンピューティング契約を結んだ。これはGPU供給の逼迫と、研究室間での構造的なコンピューティング共有を示唆し、推論価格とマルチプロバイダールーティングに影響を与える。

AIでFastTabを構築:X11用カスタムタスクスイッチャー
FastTabは、ZigとOpenGLを使用して、X11上のPlasmaタスクスイッチャーの特定のパフォーマンス問題を解決します。開発はClaudeなどのAIツールによってサポートされています。

Claude Code v2.1.77 リリース: トークン制限、サンドボックス制御、バグ修正
Claude Code v2.1.77は、Claude Opus 4.6のデフォルト最大出力トークン制限を64kトークンに増やし、allowReadサンドボックスファイルシステム設定を追加しました。このリリースには、メモリ管理からターミナルUIの動作まで、30以上の問題修正が含まれています。

OpenClaw AIエージェント間メッセージングとコンテキスト共有に関する議論
Redditでの議論では、ユーザーが提供した個人的な文脈をAIエージェントが使用して他のエージェントと通信することの意味合いを探り、ユーザーがどのような情報を共有することに抵抗がないかを考察しています。