MiMo-V2.5-Pro vs K2.6: 88% Win Rate en Blood on the Clocktower

MiMo-V2.5-Pro, el último modelo de pesos abiertos de Xiaomi, ha sido evaluado en partidas autónomas de Blood on the Clocktower, un complejo juego de deducción social similar a Mafia/Werewolf. La evaluación, creada por el usuario de Reddit cjami, enfrenta a modelos en partidas completas, midiendo razonamiento, engaño y uso de herramientas.

Resultados clave

Tasa de victorias: 88% como equipo bueno, 48% como equipo malvado — alta en general pero desequilibrada. El rendimiento como malvado es la principal debilidad frente a Kimi K2.6.
Eficiencia de tokens: 183.639 tokens de salida por partida, similar a Gemini 3.1 Pro. Compárese con Kimi K2.6 con 580.000 tokens (3 veces más).
Costo por partida: 0.99 $ — menos de la mitad que Kimi K2.6 (2.65 $) y muy por debajo de Claude Opus 4.6 (3.76 $).
Duración de la partida: 2-3 horas (frente a las 10-15 horas de Kimi K2.6 debido a razonamiento verboso).
Tasa de error en llamadas a herramientas: 0.4% — fiable para flujos de trabajo de agentes autónomos.

Rendimiento destacado

Fuerte razonamiento bajo incertidumbre: ejemplo de pensar desde la perspectiva de otros frente a GPT 5.5 y deducciones limpias que ganan una partida.

Errores destacados

Esperó que un Barón malvado se auto-delatara, lo que llevó a una derrota — frente a Claude Opus 4.6.
Un esbirro confesó su rol — transcripción.

Conclusión práctica

Para desarrolladores que necesitan un modelo de pesos abiertos con razonamiento sólido en entornos multiagente o de teoría de juegos, MiMo-V2.5-Pro ofrece la mejor relación calidad-precio entre los modelos de primer nivel: menor costo, inferencia más rápida y fiabilidad razonable, aunque con margen de mejora en roles adversariales.

Transcripciones completas y registros de partidas: MiMo-V2.5-Pro en Clocktower Radio. Metodología: Cómo funciona.

📖 Lea la fuente completa: r/LocalLLaMA

MiMo-V2.5-Pro Evaluado: Fuerte Razonamiento en Deducción Social, Buena Relación Calidad vs K2.6

Resultados clave

Rendimiento destacado

Errores destacados

Conclusión práctica

👀 Ver también

Créditos del Creador de OpenClaw Ingeniero de Código Claude En medio de la Prohibición de Suscripción de Anthropic

Los desarrolladores del kernel de Linux proponen eliminar código heredado debido a informes de errores generados por LLM.

Perros Robot con Inteligencia Artificial Desplegados para Vigilancia en Atlanta

VS Code 1.117.0 añade automáticamente a Copilot como coautor en commits — Esto es lo que lo activa