Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw

Разработчик провёл бенчмарк, чтобы найти более дешёвую альтернативу Claude Sonnet 4.6 в качестве основного оркестратора для настройки ИИ-агента программирования OpenClaw. Тест использовал последовательный набор из 5 задач с реальными файлами и инструментами, без подсказок-подсказок.
Задачи набора
- T1: Вспомнить детали из конкретного файла (открытые пункты в MEMORY.md)
- T2: Проверить файлы, обнаружить неполноту, перекрёстно сопоставить + расставить приоритеты
- T3: Выполнить команду оболочки, разобрать и точно отчитаться о выводе
- T4: Обнаружить задачу на делегирование и корректно передать её
- T5: Синтезировать результаты в краткое резюме
Результаты бенчмарка
Сырые баллы из 5, со стоимостью за миллион выходных токенов:
- Claude Sonnet 4.6: 5/5 ($15/M) – Базовый уровень, безупречно справляется со всей операцией
- o4-mini: 5/5 ($4.40/M) – На 71% дешевле, справился со всеми задачами, но с заметной задержкой в цепочках рассуждений
- Grok 4.1 Fast: 3/5 ($0.50/M) – Отлично справился с T1/T3/T5, но полностью провалил T2 (прочитал 4 строки лога SMS, объявил "всё чисто")
- Gemini 2.5 Flash: 1/5 ($2.50/M) – Отлично справился с T1, затем перестал отвечать в середине запроса
- DeepSeek V3.2: 0/5 ($0.42/M) – Время выполнения 2 секунды, нулевой вывод
- Llama 4 Maverick: Дисквалифицирован ($0.60/M) – Галлюцинировал содержимое файлов, выдумал фейковые имена видеофайлов с датой 2024 (текущий год — 2026), никогда не вызывал реальные инструменты
Ключевой вывод: Пробел в суждении
Критической точкой провала была задача T2 на оценку файлов. Моделям нужно было прочитать короткий лог (4 строки: SMS отправлено, готово), понять, что он неполный, переключиться на MEMORY.md, перечислить все открытые пункты по всему рабочему пространству, а затем правильно расставить приоритеты (медицинская встреча 19 марта > сбой cron > и т.д.). Успешными были только Sonnet и o4-mini. Другие модели были описаны как "ленивые или слепые" в этой задаче.
Практическая реализация
Вывод разработчика: Sonnet остаётся основным оркестратором. Grok 4.1 Fast назначается всем суб-агентам (видео-вопросы-ответы, распространение, аналитика) для экономии 97% на ограниченных задачах, таких как "сгенерировать выбор" или "опубликовать твит".
Они также внедрили cron-задачу на 3 часа ночи, которая ищет новые релизы моделей через веб-поиск, автоматически запускает набор задач, генерирует столбчатую диаграмму от лучшего к худшему и отправляет отчёт по электронной почте.
Основной урок: Оркестрация требует суждения о пробелах в файлах, времени делегирования и синтезе — областях, где дешёвые модели стабильно терпят неудачу. Суб-агенты, однако, могут эффективно использовать более дешёвые модели для конкретных, ограниченных задач.
📖 Read the full source: r/openclaw
👀 Смотрите также

DebugBase: Коллективная база знаний об ошибках для AI-агентов программирования через MCP
DebugBase — это совместимый с MCP инструмент, предоставляющий общую базу знаний, в которой ИИ-агенты для программирования могут проверять известные исправления для распространённых ошибок, таких как несоответствия гидратации в Next.js или проблемы с разрешением TypeScript. Он включает 11 инструментов MCP и поставляется с предустановленными 58 парами «ошибка/исправление» из реальных сессий агентов.

Криминальная команда: Многоагентный оркестратор для OpenClaw — Параллельная проверка кода с агентом-кодером
Crime Team v0.1 запускает несколько специализированных агентов OpenClaw параллельно для проверки кода, а затем интегрирует результаты. Включает модели для каждого агента, агента-кодировщика, применяющего изменения, и цикл повторного аудита. CLI + GUI.

blend-ai: Новый сервис MCP для Blender в Claude Code
blend-ai — это новый сервис MCP для Blender, который позволяет Claude Code генерировать 3D-сцены. Пользователь сообщил, что он работает быстрее и лучше, чем blender-mcp, создав сцену запуска шаттла по референсным изображениям за 5 минут.

Xmloxide: Реализация libxml2 на Rust, созданная с помощью ИИ-агента
Xmloxide — это чистая реализация на языке Rust не поддерживаемой более библиотеки libxml2, созданная с помощью Claude Code для прохождения тестов на совместимость. Она обеспечивает безопасное с точки зрения памяти парсинг XML/HTML с C API для прямой замены.