Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw

✍️ OpenClawRadar📅 Опубликовано: 17 марта 2026 г.🔗 Source
Результаты тестирования: 6 бюджетных моделей против Claude Sonnet 4.6 в задаче оркестрации OpenClaw
Ad

Разработчик провёл бенчмарк, чтобы найти более дешёвую альтернативу Claude Sonnet 4.6 в качестве основного оркестратора для настройки ИИ-агента программирования OpenClaw. Тест использовал последовательный набор из 5 задач с реальными файлами и инструментами, без подсказок-подсказок.

Задачи набора

  • T1: Вспомнить детали из конкретного файла (открытые пункты в MEMORY.md)
  • T2: Проверить файлы, обнаружить неполноту, перекрёстно сопоставить + расставить приоритеты
  • T3: Выполнить команду оболочки, разобрать и точно отчитаться о выводе
  • T4: Обнаружить задачу на делегирование и корректно передать её
  • T5: Синтезировать результаты в краткое резюме

Результаты бенчмарка

Сырые баллы из 5, со стоимостью за миллион выходных токенов:

  • Claude Sonnet 4.6: 5/5 ($15/M) – Базовый уровень, безупречно справляется со всей операцией
  • o4-mini: 5/5 ($4.40/M) – На 71% дешевле, справился со всеми задачами, но с заметной задержкой в цепочках рассуждений
  • Grok 4.1 Fast: 3/5 ($0.50/M) – Отлично справился с T1/T3/T5, но полностью провалил T2 (прочитал 4 строки лога SMS, объявил "всё чисто")
  • Gemini 2.5 Flash: 1/5 ($2.50/M) – Отлично справился с T1, затем перестал отвечать в середине запроса
  • DeepSeek V3.2: 0/5 ($0.42/M) – Время выполнения 2 секунды, нулевой вывод
  • Llama 4 Maverick: Дисквалифицирован ($0.60/M) – Галлюцинировал содержимое файлов, выдумал фейковые имена видеофайлов с датой 2024 (текущий год — 2026), никогда не вызывал реальные инструменты
Ad

Ключевой вывод: Пробел в суждении

Критической точкой провала была задача T2 на оценку файлов. Моделям нужно было прочитать короткий лог (4 строки: SMS отправлено, готово), понять, что он неполный, переключиться на MEMORY.md, перечислить все открытые пункты по всему рабочему пространству, а затем правильно расставить приоритеты (медицинская встреча 19 марта > сбой cron > и т.д.). Успешными были только Sonnet и o4-mini. Другие модели были описаны как "ленивые или слепые" в этой задаче.

Практическая реализация

Вывод разработчика: Sonnet остаётся основным оркестратором. Grok 4.1 Fast назначается всем суб-агентам (видео-вопросы-ответы, распространение, аналитика) для экономии 97% на ограниченных задачах, таких как "сгенерировать выбор" или "опубликовать твит".

Они также внедрили cron-задачу на 3 часа ночи, которая ищет новые релизы моделей через веб-поиск, автоматически запускает набор задач, генерирует столбчатую диаграмму от лучшего к худшему и отправляет отчёт по электронной почте.

Основной урок: Оркестрация требует суждения о пробелах в файлах, времени делегирования и синтезе — областях, где дешёвые модели стабильно терпят неудачу. Суб-агенты, однако, могут эффективно использовать более дешёвые модели для конкретных, ограниченных задач.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

civStation: Открытая платформа VLM для управления игрой Civilization VI с помощью естественного языка
Инструменты

civStation: Открытая платформа VLM для управления игрой Civilization VI с помощью естественного языка

civStation — это открытый стек компьютерного использования, который позволяет управлять Civilization VI с помощью голоса и естественного языка, переводя команды высокоуровневой стратегии в действия интерфейса через цикл наблюдения и выполнения на основе VLM.

OpenClawRadar
Бенчмарк проверки кода ИИ: сравнение Claude, Gemini, Codex, Qwen и MiniMax
Инструменты

Бенчмарк проверки кода ИИ: сравнение Claude, Gemini, Codex, Qwen и MiniMax

В ходе тестирования пять моделей ИИ были протестированы на 15 пулл-реквестах Milvus с известными багами. Claude обнаружил 53% багов в режиме raw, в то время как состязательные дебаты между моделями увеличили обнаружение до 80%.

OpenClawRadar
50 популярных приложений, реконструированных в спецификации дизайна, читаемые Claude: ключевые паттерны для клонирования UI
Инструменты

50 популярных приложений, реконструированных в спецификации дизайна, читаемые Claude: ключевые паттерны для клонирования UI

u/meliwat перепроектировал 50 популярных приложений в структурированные спецификации дизайна в формате Markdown. Claude идеально воссоздаёт UI с точными значениями, полным охватом состояний, шкалой отступов и графами навигации. Чрезмерно подробный текст ухудшает результат.

OpenClawRadar
О, Моя Русалка: Навык Клода для Автоматического Создания Архитектурных Диаграмм
Инструменты

О, Моя Русалка: Навык Клода для Автоматического Создания Архитектурных Диаграмм

Oh-My-Mermaid — это навык Claude Code, который анализирует кодовые базы и автоматически генерирует архитектурные диаграммы Mermaid и документацию. Устанавливается через npm и используется с командой /omm-scan в Claude Code.

OpenClawRadar