XiaomiがMiMo-V2.5-Proをオープンソース化、コーディングベンチマークでClaude Opus 4.6に迫る

Xiaomiは、オープンソースモデルMiMo-V2.5ファミリーをリリースし、ProバリアントはClaude Opus 4.6やGPT-5.4と競合するコーディングベンチマークを実現しました。
実際のテスト
V2.5-Proは、北京大学のコンパイラプロジェクト(SysYコンパイラをRustで実装)を4.3時間で完了し、満点の233/233を獲得しました。これは、数週間を費やすほとんどの学生よりも高いスコアです。「ビデオエディタを作成」のような曖昧なプロンプトに対して、自律的に8,192行のデスクトップアプリケーションを生成し、マルチトラックタイムライン、クリップトリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを実装しました。これには11.5時間と1,868回のツール呼び出しを要しました。大学院レベルのアナログ回路設計タスク(TSMC 180nmでのFlipped-Voltage-Follower LDO)では、ngspiceシミュレーションを介して反復的に改善し、自身の初期試行と比較してライン制御を22倍、負荷制御を17倍改善しました。
Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro、DeepSeek V4 Proとのベンチマーク比較
- SWE-Bench Pro: 57.2(対Claude 57.3、GPT 57.7、Gemini 54.2、DeepSeek 55.4)
- SWE-Bench Verified: 78.9(対Claude 80.8、GPT n/a、Gemini 76.2、DeepSeek 80.6)
- Terminal-Bench 2.0: 68.4(対Claude 65.4、GPT 75.1、Gemini 68.5、DeepSeek 67.9) — ClaudeとGeminiをリード
- Claw-Eval Pass@3: 63.8(対Claude 70.4、GPT 60.3、Gemini 57.8、DeepSeek 59.8) — GPTとGeminiを上回る
- HLE with tools: 48.0(対Claude 53.0、GPT 58.7、Gemini 51.4、DeepSeek 48.2) — 一般的な推論では劣る
- GDPVal-AA: 1581(対Claude 1606、GPT 1674、Gemini 1317、DeepSeek 1554) — GPTとClaudeに劣る
Claw-Evalでは、Xiaomiのトークン効率チャートはV2.5-Pro(63.8)がClaude Sonnet 4.6を上回ると主張しています。V2.5-Proは、自己修正機能を備えた1,000回以上のツール呼び出しにわたる持続的なタスク実行をサポートしており、ターン512でのリファクタリングパスの退行が自律的に検出され修正されました。
ウェイトは現在オープンソースでダウンロードおよびセルフホスティングが可能です。
📖 出典を読む: HN AI Agents
👀 See Also

OpenClawの新リリース:単なる名称変更か、それとも大幅なアップグレードか?
以前ClawDBotとして知られていたOpenClawは、変革を遂げました。この変更が単なる見た目の変更なのか、それとも新機能や安定性の向上を導入しているのか、読み進めて確かめてください。

SDNY裁判所、AI生成の法律文書は特権保護の対象外と判断
ジェド・S・ラコフ判事は、AnthropicのClaude AIツールを使用して生成された31の文書が、弁護士-依頼者特権または作業成果物法理によって保護されないと裁定しました。これは、AI生成の法的資料に関する初の裁判所決定となります。

LibreOffice Onlineの開発がコミュニティ投票後に再開
コミュニティ投票により2022年の凍結が無効化された後、The Document FoundationはLibreOffice Onlineの作業を再開しました。TDFは貢献を受け付けるためにリポジトリを再開しますが、サーバーをホストすることはなく、代わりに自己ホスト可能なツールを提供します。

OpenClawでのサブエージェント設定:重要な考慮事項
OpenClawを試用しているユーザーは、サブエージェントの設定、特にJSONファイルの編集時に問題に直面しています。