Модель MiniMax M2.7 демонстрирует высокую производительность в роли ИИ-агента для программирования.

Детали производительности модели MiniMax M2.7
Модель MiniMax M2.7 была недавно анонсирована как первая модель компании, которая «глубоко участвовала в собственном развитии», достигнув 88% побед против предыдущей версии M2.5.
Ключевые показатели производительности
- Производительность SWE: Передовые результаты на SWE-Pro (56.22%) и Terminal Bench 2 (57.0%)
- Готовность к производству: Сокращение времени от вмешательства до восстановления при онлайн-инцидентах до 3 минут в некоторых случаях
- Агентские способности: Обучена для работы в командах агентов и функциональности поиска инструментов, с 97% соблюдения навыков по более чем 40 сложным навыкам
- Профессиональная рабочая среда: Передовые показатели в профессиональных знаниях, поддержка многократного высококачественного редактирования файлов Office
- Сравнение с OpenClaw: Наравне с Sonnet 4.6 по производительности в OpenClaw
Результаты пользовательского тестирования
Разработчик, который ранее использовал Opus и Sonnet в качестве основных агентов, протестировал M2.7 против нескольких моделей. В своих бенчмарках, сравнивающих MiniMax M2.7 с GPT 5.4, Gemini 3.1 Pro и другими моделями, MiniMax показал самые быстрые рабочие результаты.
Разработчик создал конкретные задачи с инструментами, с которыми модели часто не справляются, включая:
- Подключение к системе (поиск IP, учётных данных)
- Получение конфигурационного файла, требующего доступа sudo
- Сравнение его с другим похожим файлом в локальной системе
- Отчёт о различиях
MiniMax M2.7 успешно справился с этой многоступенчатой цепочкой инструментов, в которой некоторые модели полностью провалились, и был самым быстрым исполнителем.
После примерно 5 часов активного использования с обширной работой с инструментами и устранением неполадок в системе (хотя и без задач по программированию) разработчик сообщил, что ни разу не скучал по Sonnet или Opus.
Разработчик отметил, что хотя стоимость MiniMax примерно в 10 раз выше, чем у моделей Anthropic, производительность делает его интересной альтернативой для рассмотрения.
📖 Read the full source: r/openclaw
👀 Смотрите также

Qwen KV 缓存量化深度解析:PPL、KL散度与非对称K/V结果
Второй раунд тестов Qwen 3.6-35B-A3B с квантованием KV-кэша: перплексия, KL-дивергенция, асимметричные комбинации K/V и глубина контекста 64K на Apple M5 Max.

Стартапы сообщают о больших расходах на вычислительные мощности для ИИ, чем на зарплаты сотрудников.
Стартапы в области ИИ, такие как Swan AI, сообщают о ежемесячных счетах за вычисления ИИ, превышающих 113 тыс. долларов. Генеральные директора описывают это как 'токенмаксинг', когда расходы на ИИ заменяют традиционные бюджеты на персонал.

Скрытый финансовый пузырь в инфраструктуре ИИ – основные выводы
Критический анализ бума инвестиций в ИИ-инфраструктуру, предупреждающий о неустойчивом пузыре, похожем на прошлые технологические крахи. В PDF-документе утверждается, что колоссальные капитальные затраты на GPU и дата-центры значительно превышают фактическую генерацию доходов.
Google DeepMind AI Pointer: Переосмысление мыши для взаимодействия с Gemini
Google DeepMind представляет AI-управляемый указатель мыши, который использует Gemini для понимания контекста, позволяя выполнять команды, такие как указание на изображение и произнесение «Покажи маршруты», интегрированный в Chrome и Googlebook.