Opus 4.6 vs MiMo-V2-Pro vs GLM-5: Comparação Real OpenClaw

Configuração e metodologia do teste

Um desenvolvedor realizou testes do mundo real comparando três modelos de IA: Opus 4.6, MiMo-V2-Pro e GLM-5. A configuração usou OpenClaw + Telegram + Mac node + Chrome CDP (automação de navegador), com todos os modelos rodando na mesma infraestrutura com as mesmas ferramentas.

Resultados dos testes por categoria

Teste 1: Tradução de expressão idiomática turca

A tarefa era traduzir a frase turca "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." com expressões idiomáticas culturais para o inglês.

Opus: Acertou as duas expressões, explicou o contexto cultural. Pontuação: 9/10
MiMo: Acertou "pişkin" mas traduziu errado "yüzüne bakılmaz" como "não consigo olhar para ele" — perto, mas não exato. Pontuação: 6/10
GLM-5: Traduziu "yüzüne bakılmaz" como "não exatamente confiável" — completamente errado. Pontuação: 5/10

Teste 2: Codificação Python (verificador de links markdown)

Tarefa: Criar uma função Python que extrai todos os links de um arquivo markdown, verifica o status HTTP e reporta os quebrados.

Opus: Código limpo, paralelo, suporte a URL simples, remoção de duplicatas. Mas sem fallback HEAD ou User-Agent. Pontuação: 8/10
MiMo: Fallback HEAD→GET, cabeçalho User-Agent, modo stream. O código mais pronto para produção veio do MiMo. Pontuação: 9/10
GLM-5: Funciona, mas faltam casos extremos. Pontuação: 7.5/10

MiMo superou o Opus em codificação, o que surpreendeu o testador.

Teste 3: Raciocínio espacial

Pergunta: "A está atrás de B, B está atrás de C, C está de frente para a porta. A consegue ver a porta?" Todos os três modelos acertaram. Pontuação: 10/10 cada.

Teste 4: Coerência de contexto longo

Deu a eles um resumo de conversa longo e fez 7 perguntas detalhadas sobre fatos específicos.

Opus: 67/70 — mais consistente, sem alucinações
MiMo: 64/70 — disse "não mencionado no texto" quando incerto, em vez de inventar coisas
GLM-5: 64/70 — mas alucinou uma correção errada em uma resposta

Teste 5: Automação de navegador

Pediu ao MiMo para pesquisar no Gmail via Chrome CDP, ler um e-mail e resumir uma thread do X. Também abriu 3 abas e leu todos os títulos. Concluiu tudo com sucesso.

Comparação de custo

Todos esses testes + navegação + conversas custaram 44 centavos no total no MiMo. A mesma carga de trabalho na API do Opus seria cerca de $8-10. Essa é uma diferença de preço de 20 vezes.

Impressões gerais

Opus ainda é o #1 no geral, especialmente para nuances de idiomas não ingleses e coerência de contexto longo
MiMo superou o Opus em codificação, custa 1/10 do preço, boa resistência a alucinações
GLM-5 está surpreendentemente perto de ambos (pagando ~$70/3 meses por ele)
MiMo lidou com automação de navegador sem problemas

O testador não está trocando o Opus — o MiMo não tem um plano de assinatura fixa e ainda é fraco na compreensão de idiomas não ingleses. Mas o fato de ter superado o GLM-5 e competido com o Opus em codificação é impressionante.

📖 Read the full source: r/openclaw