Opus 4.6 vs MiMo-V2-Pro vs GLM-5: Сравнение на OpenClaw

Настройка теста и методология

Разработчик провёл реальные тесты, сравнивая три модели ИИ: Opus 4.6, MiMo-V2-Pro и GLM-5. Настройка использовала OpenClaw + Telegram + Mac node + Chrome CDP (автоматизация браузера), причём все модели работали на одной инфраструктуре с одинаковыми инструментами.

Результаты тестов по категориям

Тест 1: Перевод турецких идиом

Задача заключалась в переводе турецкого предложения "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." с культурными идиомами на английский язык.

Opus: Идеально справился с обеими идиомами, объяснил культурный контекст. Оценка: 9/10
MiMo: Правильно перевёл "pişkin", но ошибочно перевёл "yüzüne bakılmaz" как "can't stand looking at him" — близко, но не совсем точно. Оценка: 6/10
GLM-5: Перевёл "yüzüne bakılmaz" как "not exactly trustworthy" — полностью неверно. Оценка: 5/10

Тест 2: Программирование на Python (проверка ссылок в markdown)

Задача: Создать функцию на Python, которая извлекает все ссылки из файла markdown, проверяет HTTP-статус и сообщает о неработающих.

Opus: Чистый, параллельный код, поддержка голых URL, удаление дубликатов. Но нет резервного варианта HEAD или User-Agent. Оценка: 8/10
MiMo: Резервный вариант HEAD→GET, заголовок User-Agent, потоковый режим. Самый готовый к продакшену код получился у MiMo. Оценка: 9/10
GLM-5: Работает, но пропускает крайние случаи. Оценка: 7.5/10

MiMo превзошла Opus в программировании, что удивило тестировщика.

Тест 3: Пространственное мышление

Вопрос: "A позади B, B позади C, C смотрит на дверь. Может ли A видеть дверь?" Все три модели ответили правильно. Оценка: 10/10 у каждой.

Тест 4: Согласованность длинного контекста

Им дали длинное резюме разговора и задали 7 подробных вопросов о конкретных фактах.

Opus: 67/70 — наиболее последовательна, без галлюцинаций
MiMo: 64/70 — говорила "не упомянуто в тексте", когда не была уверена, вместо того чтобы выдумывать
GLM-5: 64/70 — но галлюцинировала неправильное исправление в одном ответе

Тест 5: Автоматизация браузера

MiMo искала Gmail через Chrome CDP, читала письмо и резюмировала тред в X. Также открыла 3 вкладки и прочитала все заголовки. Выполнила всё успешно.

Сравнение стоимости

Все эти тесты + просмотр + разговоры стоили в общей сложности 44 цента на MiMo. Та же нагрузка на API Opus обошлась бы примерно в $8-10. Это 20-кратная разница в цене.

Общие впечатления

Opus всё ещё №1 в целом, особенно в нюансах неанглийских языков и согласованности длинного контекста
MiMo превзошла Opus в программировании, стоит в 10 раз дешевле, хорошая устойчивость к галлюцинациям
GLM-5 удивительно близка к обеим (платит ~$70/3 месяца за неё)
MiMo справилась с автоматизацией браузера без проблем

Тестировщик не отказывается от Opus — у MiMo нет фиксированного плана подписки, и она всё ещё слаба в понимании неанглийских языков. Но тот факт, что она превзошла GLM-5 и конкурировала с Opus в программировании, впечатляет.

📖 Read the full source: r/openclaw