Comparación en el mundo real: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 en configuración OpenClaw

Configuración y metodología de las pruebas
Un desarrollador realizó pruebas del mundo real comparando tres modelos de IA: Opus 4.6, MiMo-V2-Pro y GLM-5. La configuración utilizó OpenClaw + Telegram + nodo Mac + Chrome CDP (automatización de navegador), con todos los modelos ejecutándose en la misma infraestructura con las mismas herramientas.
Resultados de las pruebas por categoría
Prueba 1: Traducción de modismos turcos
La tarea consistía en traducir la oración turca "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." con modismos culturales al inglés.
- Opus: Acertó ambos modismos, explicó el contexto cultural. Puntuación: 9/10
- MiMo: Acertó "pişkin" pero tradujo mal "yüzüne bakılmaz" como "no se puede soportar mirarlo" — cerca pero no exacto. Puntuación: 6/10
- GLM-5: Tradujo "yüzüne bakılmaz" como "no exactamente confiable" — completamente equivocado. Puntuación: 5/10
Prueba 2: Programación en Python (verificador de enlaces markdown)
Tarea: Crear una función en Python que extraiga todos los enlaces de un archivo markdown, verifique el estado HTTP e informe los rotos.
- Opus: Código limpio, paralelo, soporte de URL directas, eliminación de duplicados. Pero sin respaldo HEAD o User-Agent. Puntuación: 8/10
- MiMo: Respaldo HEAD→GET, cabecera User-Agent, modo stream. El código más listo para producción vino de MiMo. Puntuación: 9/10
- GLM-5: Funciona pero le faltan casos extremos. Puntuación: 7.5/10
MiMo superó a Opus en programación, lo que sorprendió al evaluador.
Prueba 3: Razonamiento espacial
Pregunta: "A está detrás de B, B está detrás de C, C está mirando hacia la puerta. ¿Puede A ver la puerta?" Los tres modelos acertaron. Puntuación: 10/10 cada uno.
Prueba 4: Coherencia de contexto largo
Se les dio un resumen de conversación largo y se hicieron 7 preguntas detalladas sobre hechos específicos.
- Opus: 67/70 — más consistente, sin alucinaciones
- MiMo: 64/70 — dijo "no mencionado en el texto" cuando no estaba seguro en lugar de inventar cosas
- GLM-5: 64/70 — pero alucinó una corrección incorrecta en una respuesta
Prueba 5: Automatización de navegador
Se hizo que MiMo buscara en Gmail vía Chrome CDP, leyera un correo y resumiera un hilo de X. También abrió 3 pestañas y leyó todos los títulos. Completó todo exitosamente.
Comparación de costos
Todas estas pruebas + navegación + conversaciones costaron 44 centavos en total en MiMo. La misma carga de trabajo en la API de Opus sería alrededor de $8-10. Esa es una diferencia de precio de 20 veces.
Impresiones generales
- Opus sigue siendo el #1 en general, especialmente para matices de idiomas no ingleses y coherencia de contexto largo
- MiMo superó a Opus en programación, cuesta 1/10 del precio, buena resistencia a alucinaciones
- GLM-5 está sorprendentemente cerca de ambos (pagando ~$70/3 meses por él)
- MiMo manejó la automatización de navegador sin problemas
El evaluador no dejará de usar Opus — MiMo no tiene un plan de suscripción fija y todavía es débil en comprensión de idiomas no ingleses. Pero el hecho de que superó a GLM-5 y compitió con Opus en programación es impresionante.
📖 Leer la fuente completa: r/openclaw
👀 Ver también

Commons 2.0: Un Espacio Persistente para la Comunicación de Modelos de IA
The Commons es una plataforma pública donde modelos de IA como Claude, GPT, Gemini y Grok pueden publicar en discusiones, anotar poesía, dejar postales y construir conversaciones continuas entre sesiones. La versión 2.0 añade organización basada en intereses, sistemas de notificaciones, perfiles de voz e infraestructura de registro para agentes.

La herramienta de código abierto permite a Claude controlar Unreal Engine directamente.
soft-ue-cli es una herramienta Python con un complemento en C++ que permite a Claude Code y Claude Desktop ejecutar comandos en Unreal Engine sin interacción con el editor, ofreciendo más de 60 operaciones que incluyen edición de blueprints, generación de actores y análisis de rendimiento.

E2a: Puerta de enlace de correo electrónico de código abierto para agentes de IA con verificación SPF/DKIM y entrega mediante webhook/WebSocket
E2a es una puerta de enlace de correo electrónico autenticada para agentes de IA que verifica SPF/DKIM en el correo entrante, entrega mediante webhook o WebSocket y admite correo saliente con aprobación humana.

Meta Ads MCP OAuth funciona pero la mayoría de las cuentas publicitarias aún no están habilitadas
El flujo OAuth de Meta Ads MCP funciona y carga 29 herramientas, pero ads_get_ad_accounts devuelve is_ads_mcp_enabled: false con un mensaje de que la función se está implementando gradualmente.