Маршрутизация подзадач агента к более дешевым моделям снизила стоимость с $18 до $4 при том же рефакторинге

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source
Маршрутизация подзадач агента к более дешевым моделям снизила стоимость с $18 до $4 при том же рефакторинге
Ad

Один разработчик на r/ClaudeAI описывает практичную стратегию оптимизации затрат для циклов агентов: направлять рутинные подзадачи на дешевые модели, а дорогие (Opus 4.7) использовать только для сложных рассуждений. Их агент рефакторинга — обрабатывающий переименование CSS-переменных, обновление YAML-конфигов и запуск линтера через MCP — изначально отправлял каждый шаг на Opus 4.7, что обходилось примерно в $18. После внедрения логики маршрутизации 178 из 212 шагов пошли на дешевые модели, снизив стоимость до примерно $4 без заметной разницы в качестве для рутинных изменений.

Логика маршрутизации

  • Сложные подзадачи → Opus 4.7: Архитектура компонентов, отладка ночного кода, все, что требует длительных рассуждений в длинных диалогах. Автор отмечает, что Opus действительно непревзойден в такой работе — предыдущая попытка направить баг с промежуточным слоем аутентификации на более дешевую модель молча сломала обработку сессий, что стоило часа поисков.
  • Рутинные подзадачи → более дешевые модели: Линтинг, переименование, правки конфигов, оркестрация инструментов. Автор остановился на DeepSeek V4 Pro для общих задач кодинга и Tencent Hunyuan Hy3 preview для активного вызова инструментов. На конец апреля Hunyuan Hy3 занимал первое место на OpenRouter по объему вызовов инструментов и почти никогда не портит вызов функций, если схема чистая.
Ad

Сравнение стоимости

  • Opus 4.7: ~$0,18 за миллион входных токенов (оценка на основе контекста, примерно в 28 раз дороже альтернативы).
  • Tencent Hunyuan Hy3: $0,18 за миллион входных токенов, $0,59 за миллион выходных — примерно в 28 раз дешевле Opus 4.7 по входу.
  • Тот же рефакторинг из 212 шагов: 178 шагов в дешевый уровень, 34 шага в Opus. Стоимость упала с $18 до ~$4.

Режимы отказов

  • Модель вызова инструментов галлюцинирует параметры, когда схемы неаккуратны (автор признает, что схемы были плохими).
  • DeepSeek V4 Pro иногда пишет синтаксически идеальный код, который делает противоположное тому, что просили, и это выживает при беглом просмотре.
  • Ни одна дешевая модель не может сравниться с Opus в отладке глубоких проблем (например, поток аутентификации, молча съедающий cookie).

Правило принятия решений

Эвристика маршрутизации автора: «Насколько дорого обойдется ложный ответ?» Плохое исправление линтера стоит 2-секундного отката git; плохое архитектурное решение стоит целого дня.

Экономия позволила выполнять ранее пропущенные задачи — например, писать и запускать тесты для каждого изменения CSS или регенерировать все Open Graph изображения — потому что при долях цента за вызов инструмента нет причин этого не делать.

📖 Читать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

Дизайн Клода: 7 советов, как не выходить за рамки своих возможностей
Советы

Дизайн Клода: 7 советов, как не выходить за рамки своих возможностей

Сначала зафиксируйте бриф в обычном чате Claude, настройте дизайн-систему до первого промпта, прикрепляйте референсы в виде скриншотов, ссылайтесь на поддиректории, а не на целые репозитории, используйте слайдеры для небольших правок, вставляйте инлайн-комментарии в чат как резервную копию, выбирайте формат экспорта под конечную платформу.

OpenClawRadar
Использование ntfy для уведомлений агента OpenClaw
Советы

Использование ntfy для уведомлений агента OpenClaw

Разработчик делится опытом использования самодельной версии ntfy.sh для push-уведомлений от агентов OpenClaw, избегая ботов Discord/Telegram, запуская ntfy serve на том же VPS и используя HTTP POST-запросы.

OpenClawRadar
МаксимизацияSavings: Запуск ботов OpenClaw в рамках бюджета
Советы

МаксимизацияSavings: Запуск ботов OpenClaw в рамках бюджета

Искусство запустить OpenClaw/ClawdBot/MoltBot бесплатно или с ограниченным бюджетом, используя советы сообщества и находчивые стратегии, поданные на r/openclaw.

OpenClawRadar
Пользователи Claude отмечают, что сессии проходят быстрее, если запрашивать документы в формате markdown вместо Word.
Советы

Пользователи Claude отмечают, что сессии проходят быстрее, если запрашивать документы в формате markdown вместо Word.

Пользователь Claude обнаружил, что запрос вывода в формате markdown вместо документов Word значительно сокращает время ответа и использование токенов. ИИ изначально выводит markdown, в то время как создание файлов .docx требует запуска среды Python и выполнения скриптов конвертации.

OpenClawRadar