Маршрутизация подзадач агента к более дешевым моделям снизила стоимость с $18 до $4 при том же рефакторинге

✍️ OpenClawRadar📅 Опубликовано: 19 мая 2026 г.🔗 Source

Один разработчик на r/ClaudeAI описывает практичную стратегию оптимизации затрат для циклов агентов: направлять рутинные подзадачи на дешевые модели, а дорогие (Opus 4.7) использовать только для сложных рассуждений. Их агент рефакторинга — обрабатывающий переименование CSS-переменных, обновление YAML-конфигов и запуск линтера через MCP — изначально отправлял каждый шаг на Opus 4.7, что обходилось примерно в $18. После внедрения логики маршрутизации 178 из 212 шагов пошли на дешевые модели, снизив стоимость до примерно $4 без заметной разницы в качестве для рутинных изменений.

Логика маршрутизации

Сложные подзадачи → Opus 4.7: Архитектура компонентов, отладка ночного кода, все, что требует длительных рассуждений в длинных диалогах. Автор отмечает, что Opus действительно непревзойден в такой работе — предыдущая попытка направить баг с промежуточным слоем аутентификации на более дешевую модель молча сломала обработку сессий, что стоило часа поисков.
Рутинные подзадачи → более дешевые модели: Линтинг, переименование, правки конфигов, оркестрация инструментов. Автор остановился на DeepSeek V4 Pro для общих задач кодинга и Tencent Hunyuan Hy3 preview для активного вызова инструментов. На конец апреля Hunyuan Hy3 занимал первое место на OpenRouter по объему вызовов инструментов и почти никогда не портит вызов функций, если схема чистая.

Сравнение стоимости

Opus 4.7: ~$0,18 за миллион входных токенов (оценка на основе контекста, примерно в 28 раз дороже альтернативы).
Tencent Hunyuan Hy3: $0,18 за миллион входных токенов, $0,59 за миллион выходных — примерно в 28 раз дешевле Opus 4.7 по входу.
Тот же рефакторинг из 212 шагов: 178 шагов в дешевый уровень, 34 шага в Opus. Стоимость упала с $18 до ~$4.

Режимы отказов

Модель вызова инструментов галлюцинирует параметры, когда схемы неаккуратны (автор признает, что схемы были плохими).
DeepSeek V4 Pro иногда пишет синтаксически идеальный код, который делает противоположное тому, что просили, и это выживает при беглом просмотре.
Ни одна дешевая модель не может сравниться с Opus в отладке глубоких проблем (например, поток аутентификации, молча съедающий cookie).

Правило принятия решений

Эвристика маршрутизации автора: «Насколько дорого обойдется ложный ответ?» Плохое исправление линтера стоит 2-секундного отката git; плохое архитектурное решение стоит целого дня.

Экономия позволила выполнять ранее пропущенные задачи — например, писать и запускать тесты для каждого изменения CSS или регенерировать все Open Graph изображения — потому что при долях цента за вызов инструмента нет причин этого не делать.

📖 Читать полный источник: r/ClaudeAI

👀 Смотрите также

Советы

«Режим отказа „Белая обезьяна“: как настойчивые агенты застревают на неверных фактах»

Межархитектурное исследование «загрязнения субстрата реконструкции» — когда ложные факты из файлов состояния бодрствования реплицируются между сессиями. Включает опрос из 6 вопросов для постоянных агентов.

3 мая 2026 г., 14:19 UTC

OpenClawRadar

Советы

Управление контекстным окном кода Claude для оптимизации затрат и производительности

Разработчик объясняет, что каждый вызов API отправляет полную историю разговора, делая накопленную историю дорогостоящей частью, и делится рабочим процессом: запуск новых сессий с заметками для передачи контекста, чтобы снизить затраты и повысить качество ответов.

17 апр. 2026 г., 12:49 UTC

OpenClawRadar

Советы

Директива "Скрытый режим Клода" для автономного выполнения ИИ

Пользователь Reddit делится директивой 'скрытого режима', которая заставляет Claude работать тихо и автономно, предоставляя полные результаты за один раз без вывода диалога до завершения работы.

2 апр. 2026 г., 00:45 UTC

OpenClawRadar

Советы

Шаблоны кода превосходят руководства по ИИ: перенос расширения Firefox в Chrome

Разработчик дважды безуспешно пытался перенести расширение Firefox на Chrome с помощью подсказок ИИ, но в итоге преуспел, выделив браузерно-независимую основную логику с интерфейсом BrowserShell, сократив специфичный для Chrome код до 5 значимых строк.

17 мая 2026 г., 08:18 UTC

OpenClawRadar