MiMo-V2.5-Pro: código abierto vs Claude Opus 4.6 en codificación

Xiaomi lanzó la familia de modelos de código abierto MiMo-V2.5, con la variante Pro ofreciendo benchmarks de codificación competitivos frente a Claude Opus 4.6 y GPT-5.4.

Pruebas del mundo real

V2.5-Pro completó un proyecto de compilador de la Universidad de Pekín (compilador SysY en Rust) en 4.3 horas con una puntuación perfecta de 233/233, superior a la mayoría de los estudiantes que dedican semanas. Ante una instrucción vaga como "construye un editor de video", produjo de forma autónoma una aplicación de escritorio de 8,192 líneas con línea de tiempo multitrack, recorte de clips, encadenados, mezcla de audio y pipeline de exportación tras 11.5 horas y 1,868 llamadas a herramientas. En una tarea de diseño de circuitos analógicos de nivel de posgrado (LDO Flipped-Voltage-Follower en TSMC 180nm), iteró mediante simulación ngspice y mejoró la regulación de línea 22× y la regulación de carga 17× respecto a su propio intento inicial.

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

SWE-Bench Pro: 57.2 (vs. 57.3 Claude, 57.7 GPT, 54.2 Gemini, 55.4 DeepSeek)
SWE-Bench Verified: 78.9 (vs. 80.8 Claude, n/a GPT, 76.2 Gemini, 80.6 DeepSeek)
Terminal-Bench 2.0: 68.4 (vs. 65.4 Claude, 75.1 GPT, 68.5 Gemini, 67.9 DeepSeek) — lidera sobre Claude y Gemini
Claw-Eval Pass@3: 63.8 (vs. 70.4 Claude, 60.3 GPT, 57.8 Gemini, 59.8 DeepSeek) — supera a GPT y Gemini
HLE con herramientas: 48.0 (vs. 53.0 Claude, 58.7 GPT, 51.4 Gemini, 48.2 DeepSeek) — se queda atrás en razonamiento general
GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — por detrás de GPT y Claude

En Claw-Eval, el gráfico de eficiencia de tokens de Xiaomi también afirma que V2.5-Pro (63.8) supera a Claude Sonnet 4.6. V2.5-Pro soporta ejecución sostenida de tareas con más de 1,000 llamadas a herramientas y autocorrección; una pasada de refactorización regresiva en el turno 512 fue detectada y corregida de forma autónoma.

Los pesos ya están disponibles como código abierto para descarga y autoalojamiento.

📖 Lee la fuente original: HN AI Agents

Xiaomi libera código fuente de MiMo-V2.5-Pro: se acerca a Claude Opus 4.6 en pruebas de codificación

Pruebas del mundo real

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

👀 Ver también

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo

Illinois aprueba SB 315: Auditorías de terceros requeridas para laboratorios de IA de frontera

Claude Code v2.1.128: Aislamiento OTEL, correcciones MCP, soporte para archivos .zip de complementos y más de 20 correcciones de errores

OpenClaw 2026.6.6: Incorporación a OpenRouter, Control Móvil, Correcciones de Estabilidad