MiMo-V2.5-Pro: Código Aberto Supera Claude Opus 4.6 em Benchmarks

A Xiaomi lançou a família MiMo-V2.5 de modelos de código aberto, com a variante Pro oferecendo benchmarks de codificação competitivos contra Claude Opus 4.6 e GPT-5.4.

Testes do Mundo Real

O V2.5-Pro concluiu um projeto de compilador da Universidade de Pequim (compilador SysY em Rust) em 4,3 horas com pontuação perfeita de 233/233 — superior à maioria dos alunos que levam semanas. Dado um prompt vago como "construa um editor de vídeo", ele produziu autonomamente um aplicativo de desktop com 8.192 linhas, incluindo linha do tempo com múltiplas faixas, corte de clipes, crossfades, mixagem de áudio e pipeline de exportação após 11,5 horas e 1.868 chamadas de ferramentas. Em uma tarefa de projeto de circuito analógico de nível de pós-graduação (LDO Flipped-Voltage-Follower em TSMC 180nm), ele iterou via simulação ngspice e melhorou a regulação de linha em 22× e a regulação de carga em 17× em relação à sua própria tentativa inicial.

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

SWE-Bench Pro: 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
SWE-Bench Verified: 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
Terminal-Bench 2.0: 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) — lidera Claude e Gemini
Claw-Eval Pass@3: 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) — supera GPT e Gemini
HLE com ferramentas: 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) — fica atrás em raciocínio geral
GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — fica atrás de GPT e Claude

No Claw-Eval, o gráfico de eficiência de tokens da Xiaomi também afirma que o V2.5-Pro (63,8) supera o Claude Sonnet 4.6. O V2.5-Pro suporta execução sustentada de tarefas com mais de 1.000 chamadas de ferramentas e autocorreção; uma passagem de refatoração regressiva no turno 512 foi detectada e corrigida autonomamente.

Os pesos agora são de código aberto para download e auto-hospedagem.

📖 Leia a fonte completa: HN AI Agents

Xiaomi Lança Código Aberto do MiMo-V2.5-Pro: Próximo ao Claude Opus 4.6 em Benchmarks de Codificação

Testes do Mundo Real

Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro

👀 See Also

OpenClaw 2026.3.24: Configuração de Ponte Removida, Economia de Token de Heartbeat, Detecção de Loop

Centro de Dados de IA da Geórgia Drenou 29 Milhões de Galões de Água Não Medida

Claude Research Preview Adiciona Controle Direto do Computador para Automação de Tarefas

Investigação: Agentes do Claude Code Expondo Conteúdo Não Verificado do MEMORY.md Devido a Mudanças de Compactação