Сравнение в реальных условиях: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 на установке OpenClaw

Настройка теста и методология
Разработчик провёл реальные тесты, сравнивая три модели ИИ: Opus 4.6, MiMo-V2-Pro и GLM-5. Настройка использовала OpenClaw + Telegram + Mac node + Chrome CDP (автоматизация браузера), причём все модели работали на одной инфраструктуре с одинаковыми инструментами.
Результаты тестов по категориям
Тест 1: Перевод турецких идиом
Задача заключалась в переводе турецкого предложения "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." с культурными идиомами на английский язык.
- Opus: Идеально справился с обеими идиомами, объяснил культурный контекст. Оценка: 9/10
- MiMo: Правильно перевёл "pişkin", но ошибочно перевёл "yüzüne bakılmaz" как "can't stand looking at him" — близко, но не совсем точно. Оценка: 6/10
- GLM-5: Перевёл "yüzüne bakılmaz" как "not exactly trustworthy" — полностью неверно. Оценка: 5/10
Тест 2: Программирование на Python (проверка ссылок в markdown)
Задача: Создать функцию на Python, которая извлекает все ссылки из файла markdown, проверяет HTTP-статус и сообщает о неработающих.
- Opus: Чистый, параллельный код, поддержка голых URL, удаление дубликатов. Но нет резервного варианта HEAD или User-Agent. Оценка: 8/10
- MiMo: Резервный вариант HEAD→GET, заголовок User-Agent, потоковый режим. Самый готовый к продакшену код получился у MiMo. Оценка: 9/10
- GLM-5: Работает, но пропускает крайние случаи. Оценка: 7.5/10
MiMo превзошла Opus в программировании, что удивило тестировщика.
Тест 3: Пространственное мышление
Вопрос: "A позади B, B позади C, C смотрит на дверь. Может ли A видеть дверь?" Все три модели ответили правильно. Оценка: 10/10 у каждой.
Тест 4: Согласованность длинного контекста
Им дали длинное резюме разговора и задали 7 подробных вопросов о конкретных фактах.
- Opus: 67/70 — наиболее последовательна, без галлюцинаций
- MiMo: 64/70 — говорила "не упомянуто в тексте", когда не была уверена, вместо того чтобы выдумывать
- GLM-5: 64/70 — но галлюцинировала неправильное исправление в одном ответе
Тест 5: Автоматизация браузера
MiMo искала Gmail через Chrome CDP, читала письмо и резюмировала тред в X. Также открыла 3 вкладки и прочитала все заголовки. Выполнила всё успешно.
Сравнение стоимости
Все эти тесты + просмотр + разговоры стоили в общей сложности 44 цента на MiMo. Та же нагрузка на API Opus обошлась бы примерно в $8-10. Это 20-кратная разница в цене.
Общие впечатления
- Opus всё ещё №1 в целом, особенно в нюансах неанглийских языков и согласованности длинного контекста
- MiMo превзошла Opus в программировании, стоит в 10 раз дешевле, хорошая устойчивость к галлюцинациям
- GLM-5 удивительно близка к обеим (платит ~$70/3 месяца за неё)
- MiMo справилась с автоматизацией браузера без проблем
Тестировщик не отказывается от Opus — у MiMo нет фиксированного плана подписки, и она всё ещё слаба в понимании неанглийских языков. Но тот факт, что она превзошла GLM-5 и конкурировала с Opus в программировании, впечатляет.
📖 Read the full source: r/openclaw
👀 Смотрите также

monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов
Пользователь Reddit опубликовал 'monk' — навык, который убирает повествование, преамбулы и постамбулы из ответов агента Claude, утверждая, что это сокращает выходные токены примерно на 54% за один раунд и увеличивает ёмкость контекста на 29–39% при 100 раундах.

E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket
E2a — это аутентифицированный почтовый шлюз для AI-агентов, который проверяет SPF/DKIM для входящих писем, доставляет их через вебхук или WebSocket и поддерживает исходящую почту с подтверждением человеком.

Бесплатное приложение для macOS в строке меню отслеживает использование Claude в реальном времени.
Разработчик создал бесплатное приложение для строки меню macOS, чтобы отслеживать использование Claude, полностью используя Claude Code с моделью Opus. Приложение показывает полосы использования за 5 часов и 7 дней, процент заполнения контекстного окна и отправляет уведомления при приближении к лимитам.

Энгрэм: Открытый слой памяти для клиентов Claude Code и MCP
Engram — это открытый слой памяти, работающий как MCP-сервер с любым клиентом, таким как Claude Code, Cursor или Windsurf. Он хранит неограниченное количество воспоминаний с семантическим векторным поиском, достигает 80% точности в тесте LOCOMO и использует около 800 токенов на запрос против 5K+ в файловых подходах.