Параллельные субагенты в Claude Code: когда они экономят токены, а когда сжигают

Цифры Anthropic часто игнорируются в шумихе вокруг «используйте под-агентов!»: системы с несколькими агентами потребляют примерно в 15 раз больше токенов, чем один чат, и они «менее эффективны для тесно взаимосвязанных задач, таких как программирование» (источник). Однако кэшированные токены стоят всего 10% от обычной цены (скидка 90%), но только если содержимое, помеченное для кэширования, одинаково во всех запросах (источник).
Мульти-агент увеличивает использование токенов в 15 раз. Кэш делит это на 10. Окупаются ли под-агенты или сжигают деньги, сводится к одному: все ли под-агенты используют один и тот же префикс?
Три способа делегирования, отсортированные по стоимости
- 1. Под-агент с заданным
subagent_type. Пользовательский системный промпт, пользовательские инструменты, пользовательские разрешения (Anthropic). Другой промпт = другой кэш. Нет общего кэша с родителем. Полная цена каждый раз. Используйте, когда действительно нужна изоляция. - 2. Клон, наследующий родителя. Без
subagent_type. Наследует промпт, инструменты и историю родителя в точности. Дочерние агенты 2..N попадают в кэш по цене 10%. Пять клонов, параллельно читающих файлы, ≈ скорость в 5 раз при стоимости ~1.5×. - 3. Без под-агентов. Оставайтесь в основном агенте. Дешевле всего за один шаг. Правильный ответ, когда работа зависит от самой себя — рефакторинг, где шаг 2 требует результата шага 1.
Когда НЕ нужно делегировать (собственная линия Anthropic)
«Лучше всего подходит для задач, которые можно разделить на параллельные направления исследования.» Перевод:
- Хорошо: прочитать 7 файлов параллельно, проверить папки на шаблон, собрать информацию из многих источников.
- Плохо: рефакторинг модуля, исправление ошибки, где каждый шаг зависит от предыдущего. Только основной агент.
Если вы разделяете тесно связанную работу на под-агентов, вы платите в 15 раз больше и ничего не выигрываете.
Что ломает кэш
Anthropic: редактирование определений инструментов, смена моделей, добавление или удаление изображений, изменение структуры предыдущего промпта ломает кэшированный префикс (источник). Так что:
- Устанавливайте ваши MCP в начале сессии, а не в середине.
- Выбирайте модель заранее.
- Не редактируйте
CLAUDE.mdили авто-память в середине сессии — они находятся внутри кэшированного префикса.
📖 Читать полный источник: r/ClaudeAI
👀 Смотрите также

Процесс извлечения пользовательского голоса для кода Claude с использованием шаблона
Разработчик делится трёхэтапным процессом извлечения для создания пользовательского голосового навыка для Claude Code, в результате которого получается файл SKILL.md на 510 строк с чёрными списками LLM-измов, анти-перформативными правилами и режимами голоса для конкретных форматов. Открытый шаблон работает с любым языком, используя 10+ образцов письма.

Оператор Kubernetes OpenClaw со встроенной поддержкой Ollama
Участник сообщества создал оператор OpenClaw для Kubernetes со встроенной поддержкой Ollama, что позволяет запускать AI-агентов с локальными моделями в том же пространстве имён. Настройка включает команды установки, детали конфигурации для локальных и облачных моделей Ollama, а также инструкции по доступу к панели управления.

Открытый MCP-сервер памяти с графом знаний и функциями обучения
Открытый MCP-сервер, написанный на Rust, предоставляет постоянную память для ИИ-агентов с архитектурой графа знаний, геббовским обучением и гибридным поиском. Его размер составляет 7,6 МБ с задержкой менее миллисекунды, и он работает с любым MCP-совместимым клиентом.

CC-Canary: Обнаружение регрессий в Claude Code с помощью локального анализа JSONL
CC-Canary читает журналы сессий Claude Code и составляет судебно-медицинский отчет о дрейфе модели, включая соотношение чтения/редактирования, циклы рассуждений, тенденции затрат и автоматически определяемые даты перегиба.