Benchmark MiMo-V2.5-Pro: Raciocínio Forte em Dedução Social, Bom Valor em Relação ao K2.6

MiMo-V2.5-Pro, o mais recente modelo de pesos abertos da Xiaomi, foi avaliado em partidas autônomas de Blood on the Clocktower — um complexo jogo de dedução social similar a Mafia/Werewolf. O benchmark, criado pelo usuário do Reddit cjami, confronta modelos em partidas completas, medindo raciocínio, engano e uso de ferramentas.
Principais Resultados
- Taxa de vitória: 88% como time do Bem, 48% como time do Mal — geral alta, mas desequilibrada. O desempenho como Mal é a principal fraqueza frente ao Kimi K2.6.
- Eficiência de tokens: 183.639 tokens de saída por partida, similar ao Gemini 3.1 Pro. Compare com Kimi K2.6 com 580 mil tokens (3x mais longo).
- Custo por partida: $0,99 — menos da metade do Kimi K2.6 ($2,65) e muito abaixo do Claude Opus 4.6 ($3,76).
- Duração da partida: 2 a 3 horas (vs. Kimi K2.6 que leva de 10 a 15 horas devido ao raciocínio prolixo).
- Taxa de erro em chamadas de ferramenta: 0,4% — confiável para fluxos de agentes autônomos.
Desempenho Notável
Raciocínio forte sob incerteza: exemplo de pensamento a partir da perspectiva de outros vs. GPT 5.5 e deduções limpas vencendo uma partida.
Erros Notáveis
- Esperou que um Barão do mal se revelasse, resultando em perda — vs. Claude Opus 4.6.
- Capanga confessando seu papel — transcrição.
Conclusão Prática
Para desenvolvedores que precisam de um modelo de pesos abertos com raciocínio forte em configurações multiagente ou de teoria dos jogos, o MiMo-V2.5-Pro oferece o melhor custo-benefício entre os modelos de ponta — menor custo, inferência mais rápida e confiabilidade razoável, embora com espaço para melhoria em papéis adversarial.
Transcrições completas dos modelos e registros de partidas: MiMo-V2.5-Pro no Clocktower Radio. Metodologia: Como funciona.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Claude Sonnet 4.6 supera Opus 4.6 em execução no benchmark de prompt
Um usuário do Reddit submeteu um prompt complexo tanto para o Sonnet 4.6 quanto para o Opus 4.6; o modelo Sonnet produziu uma resposta superior, avaliada pela criatividade e requisitos ocultos.

Líder Sênior de IA do Governo Desconhece LLMs Locais: Relato de um Desenvolvedor
Um desenvolvedor de LLM local relata que um líder sênior de IA do governo não sabia por que empresas escolheriam LLMs locais em vez de APIs em nuvem, apesar de entender os conceitos técnicos básicos.

A Índia, com a Sarvam e a Krutrim, desenvolve modelos de IA econômicos para necessidades locais.
As startups indianas Sarvam AI e Krutrim estão desenvolvendo modelos de IA soberanos otimizados para smartphones de baixo custo e redes de baixa largura de banda, com o modelo SarvamM de 24 bilhões de parâmetros da Sarvam treinado em 10 idiomas indianos.

Lançamento do CC 2.1.128: Novo Agente de Fundo Integrado, Suporte Beta ao C# e Descontinuação de Modelos
CC 2.1.128 (+1406 tokens) adiciona instruções internas de agente em segundo plano, suporte beta ao executor de ferramentas C#/Agentes Gerenciados, descontinua Sonnet 4 e Opus 4 recomendando Opus 4.7/Sonnet 4.6 e remove modelos de memória de sessão.