Xiaomi libera código fuente de MiMo-V2.5-Pro: se acerca a Claude Opus 4.6 en pruebas de codificación

Xiaomi lanzó la familia de modelos de código abierto MiMo-V2.5, con la variante Pro ofreciendo benchmarks de codificación competitivos frente a Claude Opus 4.6 y GPT-5.4.
Pruebas del mundo real
V2.5-Pro completó un proyecto de compilador de la Universidad de Pekín (compilador SysY en Rust) en 4.3 horas con una puntuación perfecta de 233/233, superior a la mayoría de los estudiantes que dedican semanas. Ante una instrucción vaga como "construye un editor de video", produjo de forma autónoma una aplicación de escritorio de 8,192 líneas con línea de tiempo multitrack, recorte de clips, encadenados, mezcla de audio y pipeline de exportación tras 11.5 horas y 1,868 llamadas a herramientas. En una tarea de diseño de circuitos analógicos de nivel de posgrado (LDO Flipped-Voltage-Follower en TSMC 180nm), iteró mediante simulación ngspice y mejoró la regulación de línea 22× y la regulación de carga 17× respecto a su propio intento inicial.
Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro
- SWE-Bench Pro: 57.2 (vs. 57.3 Claude, 57.7 GPT, 54.2 Gemini, 55.4 DeepSeek)
- SWE-Bench Verified: 78.9 (vs. 80.8 Claude, n/a GPT, 76.2 Gemini, 80.6 DeepSeek)
- Terminal-Bench 2.0: 68.4 (vs. 65.4 Claude, 75.1 GPT, 68.5 Gemini, 67.9 DeepSeek) — lidera sobre Claude y Gemini
- Claw-Eval Pass@3: 63.8 (vs. 70.4 Claude, 60.3 GPT, 57.8 Gemini, 59.8 DeepSeek) — supera a GPT y Gemini
- HLE con herramientas: 48.0 (vs. 53.0 Claude, 58.7 GPT, 51.4 Gemini, 48.2 DeepSeek) — se queda atrás en razonamiento general
- GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — por detrás de GPT y Claude
En Claw-Eval, el gráfico de eficiencia de tokens de Xiaomi también afirma que V2.5-Pro (63.8) supera a Claude Sonnet 4.6. V2.5-Pro soporta ejecución sostenida de tareas con más de 1,000 llamadas a herramientas y autocorrección; una pasada de refactorización regresiva en el turno 512 fue detectada y corregida de forma autónoma.
Los pesos ya están disponibles como código abierto para descarga y autoalojamiento.
📖 Lee la fuente original: HN AI Agents
👀 Ver también

El desarrollador prefiere Qwen3.5-27B sobre los modelos propietarios por su modo de fallo
Un desarrollador en r/LocalLLaMA informa que prefiere Qwen3.5-27B sobre Gemini 3.1 Pro y GPT-5.3 Codex porque se rinde en tareas problemáticas en lugar de generar código potencialmente peligroso, como scripts de Perl o NodeJS sin restricciones.

Illinois aprueba SB 315: Auditorías de terceros requeridas para laboratorios de IA de frontera
Illinois aprueba SB 315 que exige que los laboratorios de IA fronteriza como OpenAI, Anthropic y Google DeepMind auditén sus prácticas de seguridad por terceros independientes. Si se firma, se convierte en la ley estatal de seguridad de IA más fuerte de EE.UU.

Claude Code v2.1.128: Aislamiento OTEL, correcciones MCP, soporte para archivos .zip de complementos y más de 20 correcciones de errores
Claude Code v2.1.128 evita que los subprocesos hereden las variables de entorno OTEL_*, agrega compatibilidad con plugins .zip, corrige la inundación de reconexiones de MCP y soluciona la cancelación de herramientas de shell paralelas.

OpenClaw 2026.6.6: Incorporación a OpenRouter, Control Móvil, Correcciones de Estabilidad
OpenClaw 2026.6.6 agrega incorporación de OpenRouter de primera clase, superficies de control mejoradas para iPad/iPhone y numerosas correcciones de estabilidad en codex sandbox, MCP, navegador y respuestas de canal.