Benchmark MiMo-V2.5-Pro: Raciocínio Forte em Dedução Social, Bom Valor em Relação ao K2.6

✍️ OpenClawRadar📅 Publicado: May 1, 2026🔗 Source
Benchmark MiMo-V2.5-Pro: Raciocínio Forte em Dedução Social, Bom Valor em Relação ao K2.6
Ad

MiMo-V2.5-Pro, o mais recente modelo de pesos abertos da Xiaomi, foi avaliado em partidas autônomas de Blood on the Clocktower — um complexo jogo de dedução social similar a Mafia/Werewolf. O benchmark, criado pelo usuário do Reddit cjami, confronta modelos em partidas completas, medindo raciocínio, engano e uso de ferramentas.

Principais Resultados

  • Taxa de vitória: 88% como time do Bem, 48% como time do Mal — geral alta, mas desequilibrada. O desempenho como Mal é a principal fraqueza frente ao Kimi K2.6.
  • Eficiência de tokens: 183.639 tokens de saída por partida, similar ao Gemini 3.1 Pro. Compare com Kimi K2.6 com 580 mil tokens (3x mais longo).
  • Custo por partida: $0,99 — menos da metade do Kimi K2.6 ($2,65) e muito abaixo do Claude Opus 4.6 ($3,76).
  • Duração da partida: 2 a 3 horas (vs. Kimi K2.6 que leva de 10 a 15 horas devido ao raciocínio prolixo).
  • Taxa de erro em chamadas de ferramenta: 0,4% — confiável para fluxos de agentes autônomos.

Desempenho Notável

Raciocínio forte sob incerteza: exemplo de pensamento a partir da perspectiva de outros vs. GPT 5.5 e deduções limpas vencendo uma partida.

Ad

Erros Notáveis

Conclusão Prática

Para desenvolvedores que precisam de um modelo de pesos abertos com raciocínio forte em configurações multiagente ou de teoria dos jogos, o MiMo-V2.5-Pro oferece o melhor custo-benefício entre os modelos de ponta — menor custo, inferência mais rápida e confiabilidade razoável, embora com espaço para melhoria em papéis adversarial.

Transcrições completas dos modelos e registros de partidas: MiMo-V2.5-Pro no Clocktower Radio. Metodologia: Como funciona.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also