MiMo-V2.5-Pro vs K2.6: Benchmark com 88% de Vitória Como Bom

MiMo-V2.5-Pro, o mais recente modelo de pesos abertos da Xiaomi, foi avaliado em partidas autônomas de Blood on the Clocktower — um complexo jogo de dedução social similar a Mafia/Werewolf. O benchmark, criado pelo usuário do Reddit cjami, confronta modelos em partidas completas, medindo raciocínio, engano e uso de ferramentas.

Principais Resultados

Taxa de vitória: 88% como time do Bem, 48% como time do Mal — geral alta, mas desequilibrada. O desempenho como Mal é a principal fraqueza frente ao Kimi K2.6.
Eficiência de tokens: 183.639 tokens de saída por partida, similar ao Gemini 3.1 Pro. Compare com Kimi K2.6 com 580 mil tokens (3x mais longo).
Custo por partida: $0,99 — menos da metade do Kimi K2.6 ($2,65) e muito abaixo do Claude Opus 4.6 ($3,76).
Duração da partida: 2 a 3 horas (vs. Kimi K2.6 que leva de 10 a 15 horas devido ao raciocínio prolixo).
Taxa de erro em chamadas de ferramenta: 0,4% — confiável para fluxos de agentes autônomos.

Desempenho Notável

Raciocínio forte sob incerteza: exemplo de pensamento a partir da perspectiva de outros vs. GPT 5.5 e deduções limpas vencendo uma partida.

Erros Notáveis

Esperou que um Barão do mal se revelasse, resultando em perda — vs. Claude Opus 4.6.
Capanga confessando seu papel — transcrição.

Conclusão Prática

Para desenvolvedores que precisam de um modelo de pesos abertos com raciocínio forte em configurações multiagente ou de teoria dos jogos, o MiMo-V2.5-Pro oferece o melhor custo-benefício entre os modelos de ponta — menor custo, inferência mais rápida e confiabilidade razoável, embora com espaço para melhoria em papéis adversarial.

Transcrições completas dos modelos e registros de partidas: MiMo-V2.5-Pro no Clocktower Radio. Metodologia: Como funciona.

📖 Leia a fonte completa: r/LocalLLaMA

Benchmark MiMo-V2.5-Pro: Raciocínio Forte em Dedução Social, Bom Valor em Relação ao K2.6

Principais Resultados

Desempenho Notável

Erros Notáveis

Conclusão Prática

👀 See Also

Auditoria de Logs de API Revela que Agentes de IA Desperdiçam Tokens com Inchaço da Janela de Contexto

Anthropic analisa 1 milhão de conversas do Claude: 6% buscam orientação pessoal, taxa de bajulação de 9%, melhorou no Opus 4.7

O benchmark mostra que o modelo menor de 4B supera LLMs maiores em aplicações de chat telefone-casa.

Tokenmaxxing é o Novo Cronômetro: Por que sua Política de IA Precisa Ser Coerente