MiMo-V2.5-Pro ベンチマーク評価:強力な社会的推理能力、K2.6に対する良好な価値

✍️ OpenClawRadar📅 公開日: May 1, 2026🔗 Source
MiMo-V2.5-Pro ベンチマーク評価:強力な社会的推理能力、K2.6に対する良好な価値
Ad

Xiaomiの最新オープンウェイトモデルMiMo-V2.5-Proが、複雑な社会的推理ゲーム『ブラッド・オン・ザ・クロックタワー』(マフィア/人狼に類似)の自律プレイでベンチマークされました。Redditユーザーcjamiが作成したこのベンチマークでは、モデル同士をフルゲームで対戦させ、推論、欺瞞、ツール使用を測定します。

主な結果

  • 勝率: 善良陣営88%、邪悪陣営48% — 全体的には高いが偏りあり。邪悪陣営のパフォーマンスがKimi K2.6に対する主な弱点。
  • トークン効率: 1ゲームあたり183,639出力トークン(Gemini 3.1 Proと同等)。Kimi K2.6は580kトークン(3倍長い)。
  • 1ゲームあたりのコスト: 0.99ドル — Kimi K2.6(2.65ドル)の半分以下、Claude Opus 4.6(3.76ドル)を大幅に下回る。
  • マッチ時間: 2~3時間(Kimi K2.6は冗長な推論のため10~15時間)。
  • ツール呼び出しエラー率: 0.4% — 自律エージェントワークフローに信頼性あり。

注目すべきパフォーマンス

不確実性下での強力な推論: GPT 5.5との比較で他者の視点から考える例クリーンな推理で勝利したゲーム

Ad

注目すべきミス

実用的なポイント

マルチエージェントやゲーム理論的な設定で強力な推論を必要とする開発者にとって、MiMo-V2.5-Proはトップティアモデルの中で最高の価値を提供します — 低コスト、高速推論、妥当な信頼性。ただし、敵対的な役割においては改善の余地があります。

完全なモデルトランスクリプトとゲームログ: Clocktower RadioのMiMo-V2.5-Pro。方法論: 仕組み

📖 ソース全文: r/LocalLLaMA

Ad

👀 See Also

OpenClaw APIのコストが5.5時間で275ドルに達し、年間換算で20万ドルを超える見込み
News

OpenClaw APIのコストが5.5時間で275ドルに達し、年間換算で20万ドルを超える見込み

OpenClawをOpenAIのGPT-5.4 APIでテストした開発者は、午前11時から午後4時30分までの間に275ドルを費やし、その使用率で年間換算すると20万ドルを超えるコストになると報告しました。

OpenClawRadar
非結合型DiLoCo:低帯域幅でのデータセンター間における耐障害性のある分散トレーニング
News

非結合型DiLoCo:低帯域幅でのデータセンター間における耐障害性のある分散トレーニング

Google DeepMindのDecoupled DiLoCoは、2〜5 GbpsのWANを使用して離れたデータセンター間でLLMをトレーニングし、ハードウェア障害を分離する自己修復型の計算アイランドを備え、MLパフォーマンスを低下させません。

OpenClawRadar
ストライプのミニオン:ワンショットAIコーディングエージェント
News

ストライプのミニオン:ワンショットAIコーディングエージェント

Minionsは、LLMを活用したエンドツーエンドの自動化により開発者の生産性を向上させることを目指す、StripeのワンショットAIコーディングエージェントです。

OpenClawRadar
開発者向けAnthropic著作権和解の詳細
News

開発者向けAnthropic著作権和解の詳細

アンソロピックは、AIモデルのトレーニングに著作物を使用したことに関する15億ドルの著作権集団訴訟を和解しました。対象となる著作権者は、2026年3月23日までに申し立てを行うことで、検証された作品ごとに500〜3,000ドルの請求が可能です。

OpenClawRadar