MiMo-V2.5-Pro ベンチマーク評価:強力な社会的推理能力、K2.6に対する良好な価値

Xiaomiの最新オープンウェイトモデルMiMo-V2.5-Proが、複雑な社会的推理ゲーム『ブラッド・オン・ザ・クロックタワー』(マフィア/人狼に類似)の自律プレイでベンチマークされました。Redditユーザーcjamiが作成したこのベンチマークでは、モデル同士をフルゲームで対戦させ、推論、欺瞞、ツール使用を測定します。
主な結果
- 勝率: 善良陣営88%、邪悪陣営48% — 全体的には高いが偏りあり。邪悪陣営のパフォーマンスがKimi K2.6に対する主な弱点。
- トークン効率: 1ゲームあたり183,639出力トークン(Gemini 3.1 Proと同等)。Kimi K2.6は580kトークン(3倍長い)。
- 1ゲームあたりのコスト: 0.99ドル — Kimi K2.6(2.65ドル)の半分以下、Claude Opus 4.6(3.76ドル)を大幅に下回る。
- マッチ時間: 2~3時間(Kimi K2.6は冗長な推論のため10~15時間)。
- ツール呼び出しエラー率: 0.4% — 自律エージェントワークフローに信頼性あり。
注目すべきパフォーマンス
不確実性下での強力な推論: GPT 5.5との比較で他者の視点から考える例とクリーンな推理で勝利したゲーム。
注目すべきミス
- 邪悪なバロンが自ら正体を明かすと予想し、敗北 — Claude Opus 4.6戦。
- ミニオンが自分の役割を自白 — トランスクリプト。
実用的なポイント
マルチエージェントやゲーム理論的な設定で強力な推論を必要とする開発者にとって、MiMo-V2.5-Proはトップティアモデルの中で最高の価値を提供します — 低コスト、高速推論、妥当な信頼性。ただし、敵対的な役割においては改善の余地があります。
完全なモデルトランスクリプトとゲームログ: Clocktower RadioのMiMo-V2.5-Pro。方法論: 仕組み。
📖 ソース全文: r/LocalLLaMA
👀 See Also

OpenClaw APIのコストが5.5時間で275ドルに達し、年間換算で20万ドルを超える見込み
OpenClawをOpenAIのGPT-5.4 APIでテストした開発者は、午前11時から午後4時30分までの間に275ドルを費やし、その使用率で年間換算すると20万ドルを超えるコストになると報告しました。

非結合型DiLoCo:低帯域幅でのデータセンター間における耐障害性のある分散トレーニング
Google DeepMindのDecoupled DiLoCoは、2〜5 GbpsのWANを使用して離れたデータセンター間でLLMをトレーニングし、ハードウェア障害を分離する自己修復型の計算アイランドを備え、MLパフォーマンスを低下させません。

ストライプのミニオン:ワンショットAIコーディングエージェント
Minionsは、LLMを活用したエンドツーエンドの自動化により開発者の生産性を向上させることを目指す、StripeのワンショットAIコーディングエージェントです。

開発者向けAnthropic著作権和解の詳細
アンソロピックは、AIモデルのトレーニングに著作物を使用したことに関する15億ドルの著作権集団訴訟を和解しました。対象となる著作権者は、2026年3月23日までに申し立てを行うことで、検証された作品ごとに500〜3,000ドルの請求が可能です。