MiMo-V2.5-Pro オープンソース化、Claude Opus 4.6に迫る性能

Xiaomiは、オープンソースモデルMiMo-V2.5ファミリーをリリースし、ProバリアントはClaude Opus 4.6やGPT-5.4と競合するコーディングベンチマークを実現しました。

実際のテスト

V2.5-Proは、北京大学のコンパイラプロジェクト（SysYコンパイラをRustで実装）を4.3時間で完了し、満点の233/233を獲得しました。これは、数週間を費やすほとんどの学生よりも高いスコアです。「ビデオエディタを作成」のような曖昧なプロンプトに対して、自律的に8,192行のデスクトップアプリケーションを生成し、マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを実装しました。これには11.5時間と1,868回のツール呼び出しを要しました。大学院レベルのアナログ回路設計タスク（TSMC 180nmでのFlipped-Voltage-Follower LDO）では、ngspiceシミュレーションを介して反復的に改善し、自身の初期試行と比較してライン制御を22倍、負荷制御を17倍改善しました。

Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、DeepSeek V4 Proとのベンチマーク比較

SWE-Bench Pro: 57.2（対Claude 57.3、GPT 57.7、Gemini 54.2、DeepSeek 55.4）
SWE-Bench Verified: 78.9（対Claude 80.8、GPT n/a、Gemini 76.2、DeepSeek 80.6）
Terminal-Bench 2.0: 68.4（対Claude 65.4、GPT 75.1、Gemini 68.5、DeepSeek 67.9） — ClaudeとGeminiをリード
Claw-Eval Pass@3: 63.8（対Claude 70.4、GPT 60.3、Gemini 57.8、DeepSeek 59.8） — GPTとGeminiを上回る
HLE with tools: 48.0（対Claude 53.0、GPT 58.7、Gemini 51.4、DeepSeek 48.2） — 一般的な推論では劣る
GDPVal-AA: 1581（対Claude 1606、GPT 1674、Gemini 1317、DeepSeek 1554） — GPTとClaudeに劣る

Claw-Evalでは、Xiaomiのトークン効率チャートはV2.5-Pro（63.8）がClaude Sonnet 4.6を上回ると主張しています。V2.5-Proは、自己修正機能を備えた1,000回以上のツール呼び出しにわたる持続的なタスク実行をサポートしており、ターン512でのリファクタリングパスの退行が自律的に検出され修正されました。

ウェイトは現在オープンソースでダウンロードおよびセルフホスティングが可能です。

📖 出典を読む: HN AI Agents

XiaomiがMiMo-V2.5-Proをオープンソース化、コーディングベンチマークでClaude Opus 4.6に迫る

実際のテスト

Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、DeepSeek V4 Proとのベンチマーク比較

👀 See Also

OpenClawの新リリース：単なる名称変更か、それとも大幅なアップグレードか？

SDNY裁判所、AI生成の法律文書は特権保護の対象外と判断

LibreOffice Onlineの開発がコミュニティ投票後に再開

OpenClawでのサブエージェント設定：重要な考慮事項