Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source
Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw
Ad

Разработчик провёл бенчмарк, чтобы найти более дешёвую альтернативу Claude Sonnet 4.6 в качестве основного оркестратора для настройки ИИ-агента программирования OpenClaw. Тест использовал последовательный набор из 5 задач с реальными файлами и инструментами, без подсказок-подсказок.

Задачи набора

  • T1: Вспомнить детали из конкретного файла (открытые пункты в MEMORY.md)
  • T2: Проверить файлы, обнаружить неполноту, перекрёстно сопоставить + расставить приоритеты
  • T3: Выполнить команду оболочки, разобрать и точно отчитаться о выводе
  • T4: Обнаружить задачу на делегирование и корректно передать её
  • T5: Синтезировать результаты в краткое резюме

Результаты бенчмарка

Сырые баллы из 5, со стоимостью за миллион выходных токенов:

  • Claude Sonnet 4.6: 5/5 ($15/M) – Базовый уровень, безупречно справляется со всей операцией
  • o4-mini: 5/5 ($4.40/M) – На 71% дешевле, справился со всеми задачами, но с заметной задержкой в цепочках рассуждений
  • Grok 4.1 Fast: 3/5 ($0.50/M) – Отлично справился с T1/T3/T5, но полностью провалил T2 (прочитал 4 строки лога SMS, объявил "всё чисто")
  • Gemini 2.5 Flash: 1/5 ($2.50/M) – Отлично справился с T1, затем перестал отвечать в середине запроса
  • DeepSeek V3.2: 0/5 ($0.42/M) – Время выполнения 2 секунды, нулевой вывод
  • Llama 4 Maverick: Дисквалифицирован ($0.60/M) – Галлюцинировал содержимое файлов, выдумал фейковые имена видеофайлов с датой 2024 (текущий год — 2026), никогда не вызывал реальные инструменты
Ad

Ключевой вывод: Пробел в суждении

Критической точкой провала была задача T2 на оценку файлов. Моделям нужно было прочитать короткий лог (4 строки: SMS отправлено, готово), понять, что он неполный, переключиться на MEMORY.md, перечислить все открытые пункты по всему рабочему пространству, а затем правильно расставить приоритеты (медицинская встреча 19 марта > сбой cron > и т.д.). Успешными были только Sonnet и o4-mini. Другие модели были описаны как "ленивые или слепые" в этой задаче.

Практическая реализация

Вывод разработчика: Sonnet остаётся основным оркестратором. Grok 4.1 Fast назначается всем суб-агентам (видео-вопросы-ответы, распространение, аналитика) для экономии 97% на ограниченных задачах, таких как "сгенерировать выбор" или "опубликовать твит".

Они также внедрили cron-задачу на 3 часа ночи, которая ищет новые релизы моделей через веб-поиск, автоматически запускает набор задач, генерирует столбчатую диаграмму от лучшего к худшему и отправляет отчёт по электронной почте.

Основной урок: Оркестрация требует суждения о пробелах в файлах, времени делегирования и синтезе — областях, где дешёвые модели стабильно терпят неудачу. Суб-агенты, однако, могут эффективно использовать более дешёвые модели для конкретных, ограниченных задач.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

DebugBase: Коллективная база знаний об ошибках для AI-агентов программирования через MCP
Инструменты

DebugBase: Коллективная база знаний об ошибках для AI-агентов программирования через MCP

DebugBase — это совместимый с MCP инструмент, предоставляющий общую базу знаний, в которой ИИ-агенты для программирования могут проверять известные исправления для распространённых ошибок, таких как несоответствия гидратации в Next.js или проблемы с разрешением TypeScript. Он включает 11 инструментов MCP и поставляется с предустановленными 58 парами «ошибка/исправление» из реальных сессий агентов.

OpenClawRadar
Криминальная команда: Многоагентный оркестратор для OpenClaw — Параллельная проверка кода с агентом-кодером
Инструменты

Криминальная команда: Многоагентный оркестратор для OpenClaw — Параллельная проверка кода с агентом-кодером

Crime Team v0.1 запускает несколько специализированных агентов OpenClaw параллельно для проверки кода, а затем интегрирует результаты. Включает модели для каждого агента, агента-кодировщика, применяющего изменения, и цикл повторного аудита. CLI + GUI.

OpenClawRadar
blend-ai: Новый сервис MCP для Blender в Claude Code
Инструменты

blend-ai: Новый сервис MCP для Blender в Claude Code

blend-ai — это новый сервис MCP для Blender, который позволяет Claude Code генерировать 3D-сцены. Пользователь сообщил, что он работает быстрее и лучше, чем blender-mcp, создав сцену запуска шаттла по референсным изображениям за 5 минут.

OpenClawRadar
Xmloxide: Реализация libxml2 на Rust, созданная с помощью ИИ-агента
Инструменты

Xmloxide: Реализация libxml2 на Rust, созданная с помощью ИИ-агента

Xmloxide — это чистая реализация на языке Rust не поддерживаемой более библиотеки libxml2, созданная с помощью Claude Code для прохождения тестов на совместимость. Она обеспечивает безопасное с точки зрения памяти парсинг XML/HTML с C API для прямой замены.

OpenClawRadar