Xiaomi Lança Código Aberto do MiMo-V2.5-Pro: Próximo ao Claude Opus 4.6 em Benchmarks de Codificação

A Xiaomi lançou a família MiMo-V2.5 de modelos de código aberto, com a variante Pro oferecendo benchmarks de codificação competitivos contra Claude Opus 4.6 e GPT-5.4.
Testes do Mundo Real
O V2.5-Pro concluiu um projeto de compilador da Universidade de Pequim (compilador SysY em Rust) em 4,3 horas com pontuação perfeita de 233/233 — superior à maioria dos alunos que levam semanas. Dado um prompt vago como "construa um editor de vídeo", ele produziu autonomamente um aplicativo de desktop com 8.192 linhas, incluindo linha do tempo com múltiplas faixas, corte de clipes, crossfades, mixagem de áudio e pipeline de exportação após 11,5 horas e 1.868 chamadas de ferramentas. Em uma tarefa de projeto de circuito analógico de nível de pós-graduação (LDO Flipped-Voltage-Follower em TSMC 180nm), ele iterou via simulação ngspice e melhorou a regulação de linha em 22× e a regulação de carga em 17× em relação à sua própria tentativa inicial.
Benchmarks vs. Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek V4 Pro
- SWE-Bench Pro: 57,2 (vs. 57,3 Claude, 57,7 GPT, 54,2 Gemini, 55,4 DeepSeek)
- SWE-Bench Verified: 78,9 (vs. 80,8 Claude, n/a GPT, 76,2 Gemini, 80,6 DeepSeek)
- Terminal-Bench 2.0: 68,4 (vs. 65,4 Claude, 75,1 GPT, 68,5 Gemini, 67,9 DeepSeek) — lidera Claude e Gemini
- Claw-Eval Pass@3: 63,8 (vs. 70,4 Claude, 60,3 GPT, 57,8 Gemini, 59,8 DeepSeek) — supera GPT e Gemini
- HLE com ferramentas: 48,0 (vs. 53,0 Claude, 58,7 GPT, 51,4 Gemini, 48,2 DeepSeek) — fica atrás em raciocínio geral
- GDPVal-AA: 1581 (vs. 1606 Claude, 1674 GPT, 1317 Gemini, 1554 DeepSeek) — fica atrás de GPT e Claude
No Claw-Eval, o gráfico de eficiência de tokens da Xiaomi também afirma que o V2.5-Pro (63,8) supera o Claude Sonnet 4.6. O V2.5-Pro suporta execução sustentada de tarefas com mais de 1.000 chamadas de ferramentas e autocorreção; uma passagem de refatoração regressiva no turno 512 foi detectada e corrigida autonomamente.
Os pesos agora são de código aberto para download e auto-hospedagem.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Explicação da Taxa de Acerto de Cache e Relação de Preço do DeepSeek V4 Flash
DeepSeek V4 Flash custa 0,0066x por tarefa de agente comparado ao Opus 4.7, impulsionado por taxa de acerto de cache de 97% e relação de preço de leitura/escrita de cache de 0,02.

Anthropic lança ferramenta de IA para analisar bases de código COBOL, ações da IBM caem 13%
A Anthropic lançou uma ferramenta de IA que analisa bases de código COBOL para sinalizar riscos e reduzir custos de modernização. O anúncio provocou uma queda de 13% nas ações da IBM, pois o mercado a percebeu como uma ameaça ao negócio de gerenciamento de sistemas legados da IBM.

Claude AI creditado nas notas de lançamento da atualização macOS Tahoe 26.5
As notas de lançamento do macOS Tahoe 26.5 da Apple creditam o Claude AI junto com as equipes de engenharia, marcando o primeiro caso conhecido de uma IA sendo formalmente reconhecida no changelog da Apple.

Anthropic move automação de fundo do Claude Code para um balde de crédito SDK separado, interrompendo fluxos de trabalho de agentes
A partir de 15 de junho, o uso de claude -p, Agent SDK, Claude Code GitHub Actions e aplicativos de terceiros do Agent SDK não contará mais para as cotas interativas Pro/Max. Um novo balde de crédito separado do Agent SDK se aplica: US$ 100/mês para planos Max 5x. Pilhas de agentes em segundo plano (por exemplo, tickets → agentes → hooks → executor → claude -p) consumirão isso rapidamente.