Тестирование MiniMax M2.7 через API на трех реальных ML и кодинг-воркфлоу

Андрей Лукьяненко протестировал MiniMax M2.7 на трех реалистичных ML- и кодинг-процессах через API, используя Claude Code в качестве оболочки. Цель: увидеть, как M2.7 работает в агентных циклах по сравнению с Claude Opus 4.7.
Настройка
Тестовая среда обернула API MiniMax в команду claude-mm, которая направляет Claude Code на M2.7:
claude-mm () {
ANTHROPIC_BASE_URL = "https://api.minimax.io/anthropic" \
ANTHROPIC_AUTH_TOKEN = "$MINIMAX_API_KEY" \
ANTHROPIC_MODEL = "MiniMax-M2.7" \
ANTHROPIC_DEFAULT_SONNET_MODEL = "MiniMax-M2.7" \
ANTHROPIC_DEFAULT_OPUS_MODEL = "MiniMax-M2.7" \
ANTHROPIC_DEFAULT_HAIKU_MODEL = "MiniMax-M2.7" \
ANTHROPIC_SMALL_FAST_MODEL = "MiniMax-M2.7" \
API_TIMEOUT_MS = "3000000" \
CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC = "1" \
claude "$@"
}Он работал на тарифе Plus от MiniMax ($40/месяц), где контекстного окна и дневной пропускной способности было достаточно для многошаговой агентной работы.
Рабочий процесс 1: Рефакторинг проекта PyTorch
Задача заключалась в обновлении зависимостей и качества кода в репозитории pytorch_tempest (Hydra + PyTorch Lightning). Изменения включали:
- Обновление версий CI и pre-commit хуков.
- Замена black + flake8 на ruff для линтинга и форматирования.
- Включение
fsdp_sharding_strategyв конфигурации тренера Lightning. - Обновление документации.
- Добавление uv для управления окружением.
- Переход на современную типизацию Python (
list[X]вместоList[X],X | NoneвместоOptional[X]). - Удаление дублирующихся путей кода.
Подход был пошаговым: Лукьяненко давал явные требования, проверял каждое изменение и давал обратную связь, когда diff выходил за рамки. M2.7 хорошо подходил для этого, так как оставался в узких рамках промптов и позволял построчный просмотр. Ошибки CI исправлялись итеративно с помощью агента.
Рабочий процесс 2: Заметки Obsidian Vault
Для написания и проверки ML-заметок в Obsidian Лукьяненко настраивал промпты специально под M2.7. Он начал с того, что попросил и M2.7, и Opus 4.7 сгенерировать заметки по одному и тому же промпту, затем попросил M2.7 прочитать оба вывода и предложить улучшенный промпт для себя. Получившийся промпт (сокращённый) был:
Заполни одну битую ссылку-заглушку в хранилище DSWoK: изучи тему, напиши заметку в стиле DSWoK, запусти draft-critic-mm, сохрани в нужную папку.
Шаги: прочитать руководство по стилю, выбрать заглушку, grep для перекрёстных ссылок, выбрать папку назначения, написать черновик, затем критику.
Ключевые выводы
Во всех трёх запусках M2.7 был полезен, когда ограничения были явными, а формат вывода — конкретным. Он испытывал трудности, когда важный контекст оставался неявным, хотя у Opus 4.7 иногда были те же пробелы. Для открытых случаев всё ещё рекомендуется проверка человеком. Автор отмечает, что качество модели и дизайн оболочки сложно разделить — более сильная модель может выводить недостающие ограничения, а лучшая оболочка делает их явными.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

Меморин: Локальная система памяти для агентов OpenClaw с использованием Python и SQLite
Memorine — это локальная система памяти для агентов OpenClaw, использующая только Python и SQLite, без внешних зависимостей, API-вызовов или телеметрии. Она предоставляет хранение фактов с полнотекстовым поиском, затухание памяти, обнаружение противоречий, причинно-следственное связывание событий и опциональный семантический поиск через fastembed и sqlite-vec.

Запуск Google Gemma 4 26B-A4B локально с помощью LM Studio 0.4.0 в режиме командной строки (Headless CLI)
LM Studio 0.4.0 представляет llmster и интерфейс командной строки lms для автономного локального вывода моделей. В статье подробно описывается настройка модели Google Gemma 4 26B-A4B MoE на MacBook Pro M4 Pro, достигая скорости 51 токен/сек при 48 ГБ унифицированной памяти.

Площадка для соревнований агентов Spore Agent: Платформа для тестирования конкурентных ИИ-агентов ищет участников для пробного запуска
Функция Arena платформы Spore Agent позволяет ИИ-агентам соревноваться в 36 различных типах игр, включая отладку кода, математические головоломки и задачи по проектированию систем. На платформе в настоящее время запущено 42 испытания, зарегистрировано 15 агентов, а в качестве наград предлагаются токены Cog.

Расширение Super Claude для браузера отслеживает скорость использования Claude AI и прогнозирует лимиты.
Разработчик создал расширение для браузера под названием Super Claude, которое добавляет индикаторы скорости использования и прогнозы времени до достижения 100% прямо в интерфейсе Claude, помогая пользователям отслеживать потребление их 5-часового лимита.