MiMo-V2.5-Pro Evaluado: Fuerte Razonamiento en Deducción Social, Buena Relación Calidad vs K2.6

✍️ OpenClawRadar📅 Publicado: 1 de mayo de 2026🔗 Source
MiMo-V2.5-Pro Evaluado: Fuerte Razonamiento en Deducción Social, Buena Relación Calidad vs K2.6
Ad

MiMo-V2.5-Pro, el último modelo de pesos abiertos de Xiaomi, ha sido evaluado en partidas autónomas de Blood on the Clocktower, un complejo juego de deducción social similar a Mafia/Werewolf. La evaluación, creada por el usuario de Reddit cjami, enfrenta a modelos en partidas completas, midiendo razonamiento, engaño y uso de herramientas.

Resultados clave

  • Tasa de victorias: 88% como equipo bueno, 48% como equipo malvado — alta en general pero desequilibrada. El rendimiento como malvado es la principal debilidad frente a Kimi K2.6.
  • Eficiencia de tokens: 183.639 tokens de salida por partida, similar a Gemini 3.1 Pro. Compárese con Kimi K2.6 con 580.000 tokens (3 veces más).
  • Costo por partida: 0.99 $ — menos de la mitad que Kimi K2.6 (2.65 $) y muy por debajo de Claude Opus 4.6 (3.76 $).
  • Duración de la partida: 2-3 horas (frente a las 10-15 horas de Kimi K2.6 debido a razonamiento verboso).
  • Tasa de error en llamadas a herramientas: 0.4% — fiable para flujos de trabajo de agentes autónomos.

Rendimiento destacado

Fuerte razonamiento bajo incertidumbre: ejemplo de pensar desde la perspectiva de otros frente a GPT 5.5 y deducciones limpias que ganan una partida.

Ad

Errores destacados

Conclusión práctica

Para desarrolladores que necesitan un modelo de pesos abiertos con razonamiento sólido en entornos multiagente o de teoría de juegos, MiMo-V2.5-Pro ofrece la mejor relación calidad-precio entre los modelos de primer nivel: menor costo, inferencia más rápida y fiabilidad razonable, aunque con margen de mejora en roles adversariales.

Transcripciones completas y registros de partidas: MiMo-V2.5-Pro en Clocktower Radio. Metodología: Cómo funciona.

📖 Lea la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Créditos del Creador de OpenClaw
Ingeniero de Código Claude
En medio de la Prohibición de Suscripción de Anthropic
Noticias

Créditos del Creador de OpenClaw Ingeniero de Código Claude En medio de la Prohibición de Suscripción de Anthropic

Peter Steinberger, creador del cliente de código abierto Claude Code OpenClaw, reconoció públicamente a Boris Cherny de Anthropic por trabajar para suavizar el impacto de la prohibición de Anthropic sobre el uso basado en suscripción de clientes de terceros. Cherny respondió señalando que ha enviado solicitudes de extracción (PRs) para mejorar la eficiencia del caché de prompts específicamente para OpenClaw.

OpenClawRadar
Los desarrolladores del kernel de Linux proponen eliminar código heredado debido a informes de errores generados por LLM.
Noticias

Los desarrolladores del kernel de Linux proponen eliminar código heredado debido a informes de errores generados por LLM.

Los desarrolladores del kernel de Linux proponen eliminar varios subsistemas heredados, incluidos los controladores Ethernet ISA/PCMCIA, protocolos de radioaficionados, ATM e ISDN, para reducir la carga de manejar informes de errores de seguridad generados por grandes modelos de lenguaje.

OpenClawRadar
Perros Robot con Inteligencia Artificial Desplegados para Vigilancia en Atlanta
Noticias

Perros Robot con Inteligencia Artificial Desplegados para Vigilancia en Atlanta

Perros robot de cuatro patas equipados con cámaras e IA están patrullando las calles, apartamentos y sitios de construcción de Atlanta, transmitiendo video de 360° a operadores remotos las 24 horas del día, los 7 días de la semana, como una alternativa más económica a los guardias humanos.

OpenClawRadar
VS Code 1.117.0 añade automáticamente a Copilot como coautor en commits — Esto es lo que lo activa
Noticias

VS Code 1.117.0 añade automáticamente a Copilot como coautor en commits — Esto es lo que lo activa

VS Code 1.117.0 añade 'Co-authored-by: Copilot <[email protected]>' a los commits cuando se usan sugerencias en línea, incluso para una sola coma. La función es de exclusión voluntaria y no se comunicó claramente.

OpenClawRadar