Сравнение в реальных условиях: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 на установке OpenClaw

✍️ OpenClawRadar📅 Опубликовано: 22 марта 2026 г.🔗 Source
Сравнение в реальных условиях: Opus 4.6 vs MiMo-V2-Pro vs GLM-5 на установке OpenClaw
Ad

Настройка теста и методология

Разработчик провёл реальные тесты, сравнивая три модели ИИ: Opus 4.6, MiMo-V2-Pro и GLM-5. Настройка использовала OpenClaw + Telegram + Mac node + Chrome CDP (автоматизация браузера), причём все модели работали на одной инфраструктуре с одинаковыми инструментами.

Результаты тестов по категориям

Тест 1: Перевод турецких идиом

Задача заключалась в переводе турецкого предложения "Adam çok pişkin, yüzüne bakılmaz ama işini bilir." с культурными идиомами на английский язык.

  • Opus: Идеально справился с обеими идиомами, объяснил культурный контекст. Оценка: 9/10
  • MiMo: Правильно перевёл "pişkin", но ошибочно перевёл "yüzüne bakılmaz" как "can't stand looking at him" — близко, но не совсем точно. Оценка: 6/10
  • GLM-5: Перевёл "yüzüne bakılmaz" как "not exactly trustworthy" — полностью неверно. Оценка: 5/10

Тест 2: Программирование на Python (проверка ссылок в markdown)

Задача: Создать функцию на Python, которая извлекает все ссылки из файла markdown, проверяет HTTP-статус и сообщает о неработающих.

  • Opus: Чистый, параллельный код, поддержка голых URL, удаление дубликатов. Но нет резервного варианта HEAD или User-Agent. Оценка: 8/10
  • MiMo: Резервный вариант HEAD→GET, заголовок User-Agent, потоковый режим. Самый готовый к продакшену код получился у MiMo. Оценка: 9/10
  • GLM-5: Работает, но пропускает крайние случаи. Оценка: 7.5/10

MiMo превзошла Opus в программировании, что удивило тестировщика.

Тест 3: Пространственное мышление

Вопрос: "A позади B, B позади C, C смотрит на дверь. Может ли A видеть дверь?" Все три модели ответили правильно. Оценка: 10/10 у каждой.

Тест 4: Согласованность длинного контекста

Им дали длинное резюме разговора и задали 7 подробных вопросов о конкретных фактах.

  • Opus: 67/70 — наиболее последовательна, без галлюцинаций
  • MiMo: 64/70 — говорила "не упомянуто в тексте", когда не была уверена, вместо того чтобы выдумывать
  • GLM-5: 64/70 — но галлюцинировала неправильное исправление в одном ответе

Тест 5: Автоматизация браузера

MiMo искала Gmail через Chrome CDP, читала письмо и резюмировала тред в X. Также открыла 3 вкладки и прочитала все заголовки. Выполнила всё успешно.

Ad

Сравнение стоимости

Все эти тесты + просмотр + разговоры стоили в общей сложности 44 цента на MiMo. Та же нагрузка на API Opus обошлась бы примерно в $8-10. Это 20-кратная разница в цене.

Общие впечатления

  • Opus всё ещё №1 в целом, особенно в нюансах неанглийских языков и согласованности длинного контекста
  • MiMo превзошла Opus в программировании, стоит в 10 раз дешевле, хорошая устойчивость к галлюцинациям
  • GLM-5 удивительно близка к обеим (платит ~$70/3 месяца за неё)
  • MiMo справилась с автоматизацией браузера без проблем

Тестировщик не отказывается от Opus — у MiMo нет фиксированного плана подписки, и она всё ещё слаба в понимании неанглийских языков. Но тот факт, что она превзошла GLM-5 и конкурировала с Opus в программировании, впечатляет.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов
Инструменты

monk: Навык, заставляющий замолчать агентское повествование для экономии контекста и токенов

Пользователь Reddit опубликовал 'monk' — навык, который убирает повествование, преамбулы и постамбулы из ответов агента Claude, утверждая, что это сокращает выходные токены примерно на 54% за один раунд и увеличивает ёмкость контекста на 29–39% при 100 раундах.

OpenClawRadar
E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket
Инструменты

E2a: Открытый почтовый шлюз для ИИ-агентов с верификацией SPF/DKIM и доставкой через Webhook/WebSocket

E2a — это аутентифицированный почтовый шлюз для AI-агентов, который проверяет SPF/DKIM для входящих писем, доставляет их через вебхук или WebSocket и поддерживает исходящую почту с подтверждением человеком.

OpenClawRadar
Бесплатное приложение для macOS в строке меню отслеживает использование Claude в реальном времени.
Инструменты

Бесплатное приложение для macOS в строке меню отслеживает использование Claude в реальном времени.

Разработчик создал бесплатное приложение для строки меню macOS, чтобы отслеживать использование Claude, полностью используя Claude Code с моделью Opus. Приложение показывает полосы использования за 5 часов и 7 дней, процент заполнения контекстного окна и отправляет уведомления при приближении к лимитам.

OpenClawRadar
Энгрэм: Открытый слой памяти для клиентов Claude Code и MCP
Инструменты

Энгрэм: Открытый слой памяти для клиентов Claude Code и MCP

Engram — это открытый слой памяти, работающий как MCP-сервер с любым клиентом, таким как Claude Code, Cursor или Windsurf. Он хранит неограниченное количество воспоминаний с семантическим векторным поиском, достигает 80% точности в тесте LOCOMO и использует около 800 токенов на запрос против 5K+ в файловых подходах.

OpenClawRadar