MiMo-V2.5-Pro ベンチマーク評価：強力な社会的推理能力、K2.6に対する良好な価値

✍️ OpenClawRadar📅 公開日: May 1, 2026🔗 Source

MiMo-V2.5-Pro ベンチマーク評価：強力な社会的推理能力、K2.6に対する良好な価値

Ad

Xiaomiの最新オープンウェイトモデルMiMo-V2.5-Proが、複雑な社会的推理ゲーム『ブラッド・オン・ザ・クロックタワー』（マフィア/人狼に類似）の自律プレイでベンチマークされました。Redditユーザーcjamiが作成したこのベンチマークでは、モデル同士をフルゲームで対戦させ、推論、欺瞞、ツール使用を測定します。

主な結果

勝率: 善良陣営88%、邪悪陣営48% — 全体的には高いが偏りあり。邪悪陣営のパフォーマンスがKimi K2.6に対する主な弱点。
トークン効率: 1ゲームあたり183,639出力トークン（Gemini 3.1 Proと同等）。Kimi K2.6は580kトークン（3倍長い）。
1ゲームあたりのコスト: 0.99ドル — Kimi K2.6（2.65ドル）の半分以下、Claude Opus 4.6（3.76ドル）を大幅に下回る。
マッチ時間: 2～3時間（Kimi K2.6は冗長な推論のため10～15時間）。
ツール呼び出しエラー率: 0.4% — 自律エージェントワークフローに信頼性あり。

注目すべきパフォーマンス

不確実性下での強力な推論: GPT 5.5との比較で他者の視点から考える例とクリーンな推理で勝利したゲーム。

Ad

注目すべきミス

邪悪なバロンが自ら正体を明かすと予想し、敗北 — Claude Opus 4.6戦。
ミニオンが自分の役割を自白 — トランスクリプト。

実用的なポイント

マルチエージェントやゲーム理論的な設定で強力な推論を必要とする開発者にとって、MiMo-V2.5-Proはトップティアモデルの中で最高の価値を提供します — 低コスト、高速推論、妥当な信頼性。ただし、敵対的な役割においては改善の余地があります。

完全なモデルトランスクリプトとゲームログ: Clocktower RadioのMiMo-V2.5-Pro。方法論: 仕組み。

📖 ソース全文: r/LocalLLaMA

Ad

👀 See Also

SDLプロジェクト、GitHubの問題を受けてAI生成のコミットを禁止

SDLプロジェクト、GitHubの問題を受けてAI生成のコミットを禁止

SDLプロジェクトは、GitHubのイシューでCopilotの使用に関する懸念が提起されたことを受け、AI生成コミットを禁止するポリシーを実施しました。このイシューでは、レビュー #13277 と #12730 をAI支援が検出された例として具体的に言及しています。

Apr 18, 2026, 10:45 AM UTC

連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令

連邦機関に対し、Anthropic社のAI技術の使用を中止するよう命令

ドナルド・トランプ大統領は、米国政府機関に対し、AI企業Anthropicの技術の使用を「直ちに中止」するよう命じた。この命令は、Anthropicが国防総省からAIモデルの使用制限に関する圧力に直面している中で出された。

Feb 27, 2026, 11:45 PM UTC

ウーバー、年間クロードコード予算を4ヶ月で使い果たす—その意味とは

ウーバー、年間クロードコード予算を4ヶ月で使い果たす—その意味とは

UberはClaude Codeの年間予算をわずか4ヶ月で使い果たしたと報じられている。この投稿では、なぜ使用パターンがサブスクリプションモデルを崩壊させたのか、そして開発者がAIコーディングエージェントとの境界設定について何を学べるかを分析している。

Jun 14, 2026, 12:19 PM UTC

Opus 4.7 トークン効率: ドイツ語プロンプトは英語の最大2倍のトークンを消費

Opus 4.7 トークン効率: ドイツ語プロンプトは英語の最大2倍のトークンを消費

Claude Pro 加入者によると、ドイツ語で Opus 4.7 を使用した場合、セッショントークンを数秒で 100% 消費したのに対し、英語では 37% だった。トークナイザーの非効率性は、複合名詞やウムラウトに起因し、トークン使用量が 1.5～2 倍になる。

May 10, 2026, 06:18 AM UTC