MiniMax M2.7 обходит GPT 5.4 и Gemini 3.1 в ИИ-кодинге

Детали производительности модели MiniMax M2.7

Модель MiniMax M2.7 была недавно анонсирована как первая модель компании, которая «глубоко участвовала в собственном развитии», достигнув 88% побед против предыдущей версии M2.5.

Ключевые показатели производительности

Производительность SWE: Передовые результаты на SWE-Pro (56.22%) и Terminal Bench 2 (57.0%)
Готовность к производству: Сокращение времени от вмешательства до восстановления при онлайн-инцидентах до 3 минут в некоторых случаях
Агентские способности: Обучена для работы в командах агентов и функциональности поиска инструментов, с 97% соблюдения навыков по более чем 40 сложным навыкам
Профессиональная рабочая среда: Передовые показатели в профессиональных знаниях, поддержка многократного высококачественного редактирования файлов Office
Сравнение с OpenClaw: Наравне с Sonnet 4.6 по производительности в OpenClaw

Результаты пользовательского тестирования

Разработчик, который ранее использовал Opus и Sonnet в качестве основных агентов, протестировал M2.7 против нескольких моделей. В своих бенчмарках, сравнивающих MiniMax M2.7 с GPT 5.4, Gemini 3.1 Pro и другими моделями, MiniMax показал самые быстрые рабочие результаты.

Разработчик создал конкретные задачи с инструментами, с которыми модели часто не справляются, включая:

Подключение к системе (поиск IP, учётных данных)
Получение конфигурационного файла, требующего доступа sudo
Сравнение его с другим похожим файлом в локальной системе
Отчёт о различиях

MiniMax M2.7 успешно справился с этой многоступенчатой цепочкой инструментов, в которой некоторые модели полностью провалились, и был самым быстрым исполнителем.

После примерно 5 часов активного использования с обширной работой с инструментами и устранением неполадок в системе (хотя и без задач по программированию) разработчик сообщил, что ни разу не скучал по Sonnet или Opus.

Разработчик отметил, что хотя стоимость MiniMax примерно в 10 раз выше, чем у моделей Anthropic, производительность делает его интересной альтернативой для рассмотрения.

📖 Read the full source: r/openclaw

Модель MiniMax M2.7 демонстрирует высокую производительность в роли ИИ-агента для программирования.

Детали производительности модели MiniMax M2.7

Ключевые показатели производительности

Результаты пользовательского тестирования

👀 Смотрите также

Разработчики из Кремниевой долины сообщают об интенсивном использовании ИИ Claude и нагрузке на инфраструктуру.

Параметр Claude Opus 4.6 effort=low вызывает ленивое поведение агента.

Инструменты ИИ увеличивают нагрузку на инженеров и меняют профессиональные роли.

ИИ слишком дорог: гиперскейлерам нужно 3 триллиона долларов, чтобы выйти в ноль