Маршрутизация подзадач агента к более дешевым моделям снизила стоимость с $18 до $4 при том же рефакторинге

Один разработчик на r/ClaudeAI описывает практичную стратегию оптимизации затрат для циклов агентов: направлять рутинные подзадачи на дешевые модели, а дорогие (Opus 4.7) использовать только для сложных рассуждений. Их агент рефакторинга — обрабатывающий переименование CSS-переменных, обновление YAML-конфигов и запуск линтера через MCP — изначально отправлял каждый шаг на Opus 4.7, что обходилось примерно в $18. После внедрения логики маршрутизации 178 из 212 шагов пошли на дешевые модели, снизив стоимость до примерно $4 без заметной разницы в качестве для рутинных изменений.
Логика маршрутизации
- Сложные подзадачи → Opus 4.7: Архитектура компонентов, отладка ночного кода, все, что требует длительных рассуждений в длинных диалогах. Автор отмечает, что Opus действительно непревзойден в такой работе — предыдущая попытка направить баг с промежуточным слоем аутентификации на более дешевую модель молча сломала обработку сессий, что стоило часа поисков.
- Рутинные подзадачи → более дешевые модели: Линтинг, переименование, правки конфигов, оркестрация инструментов. Автор остановился на DeepSeek V4 Pro для общих задач кодинга и Tencent Hunyuan Hy3 preview для активного вызова инструментов. На конец апреля Hunyuan Hy3 занимал первое место на OpenRouter по объему вызовов инструментов и почти никогда не портит вызов функций, если схема чистая.
Сравнение стоимости
- Opus 4.7: ~$0,18 за миллион входных токенов (оценка на основе контекста, примерно в 28 раз дороже альтернативы).
- Tencent Hunyuan Hy3: $0,18 за миллион входных токенов, $0,59 за миллион выходных — примерно в 28 раз дешевле Opus 4.7 по входу.
- Тот же рефакторинг из 212 шагов: 178 шагов в дешевый уровень, 34 шага в Opus. Стоимость упала с $18 до ~$4.
Режимы отказов
- Модель вызова инструментов галлюцинирует параметры, когда схемы неаккуратны (автор признает, что схемы были плохими).
- DeepSeek V4 Pro иногда пишет синтаксически идеальный код, который делает противоположное тому, что просили, и это выживает при беглом просмотре.
- Ни одна дешевая модель не может сравниться с Opus в отладке глубоких проблем (например, поток аутентификации, молча съедающий cookie).
Правило принятия решений
Эвристика маршрутизации автора: «Насколько дорого обойдется ложный ответ?» Плохое исправление линтера стоит 2-секундного отката git; плохое архитектурное решение стоит целого дня.
Экономия позволила выполнять ранее пропущенные задачи — например, писать и запускать тесты для каждого изменения CSS или регенерировать все Open Graph изображения — потому что при долях цента за вызов инструмента нет причин этого не делать.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Дизайн Клода: 7 советов, как не выходить за рамки своих возможностей
Сначала зафиксируйте бриф в обычном чате Claude, настройте дизайн-систему до первого промпта, прикрепляйте референсы в виде скриншотов, ссылайтесь на поддиректории, а не на целые репозитории, используйте слайдеры для небольших правок, вставляйте инлайн-комментарии в чат как резервную копию, выбирайте формат экспорта под конечную платформу.

Использование ntfy для уведомлений агента OpenClaw
Разработчик делится опытом использования самодельной версии ntfy.sh для push-уведомлений от агентов OpenClaw, избегая ботов Discord/Telegram, запуская ntfy serve на том же VPS и используя HTTP POST-запросы.

МаксимизацияSavings: Запуск ботов OpenClaw в рамках бюджета
Искусство запустить OpenClaw/ClawdBot/MoltBot бесплатно или с ограниченным бюджетом, используя советы сообщества и находчивые стратегии, поданные на r/openclaw.

Пользователи Claude отмечают, что сессии проходят быстрее, если запрашивать документы в формате markdown вместо Word.
Пользователь Claude обнаружил, что запрос вывода в формате markdown вместо документов Word значительно сокращает время ответа и использование токенов. ИИ изначально выводит markdown, в то время как создание файлов .docx требует запуска среды Python и выполнения скриптов конвертации.