Обсуждение на Reddit подчеркивает снижение использования токенов на 68% для ИИ-агентов благодаря изменениям в инфраструктуре.

Обсуждение на Reddit в сообществе r/LocalLLaMA подчеркивает значительное сокращение использования токенов для ИИ-агентов за счет изменений в инфраструктуре, а не улучшений модели. В посте приводятся результаты тестирования, сравнивающие использование токенов Claude Code в двух средах.
Результаты тестирования
Сравнение показало:
- Операции проверки состояния: Обычная инфраструктура требовала ~9 команд оболочки для проверок состояния, в то время как агент-ориентированная ОС с доступом к состоянию в формате JSON требовала всего 1 структурированный вызов
- Операции поиска: Семантический поиск на агент-ориентированной инфраструктуре использовал на 91% меньше токенов по сравнению с подходами grep+cat
- Общее сокращение: Снижение общего использования токенов на 68,5%
Ключевое понимание
В посте утверждается, что это сокращение происходит за счёт «устранения слоя трения между тем, что хочет знать агент, и тем, как инструменты позволяют ему спрашивать». Автор определяет это как недооценённую проблему в развертывании ИИ-агентов, отмечая, что значительная часть стоимости токенов приходится на «инфраструктурный налог», когда агенты взаимодействуют с инструментами, созданными для людей.
В посте объясняется: «Инструменты командной оболочки предполагают участие человека, который читает вывод и решает, что делать дальше. Агентам приходится имитировать это с помощью дорогостоящего в плане токенов анализа и повторных запросов. Это не неэффективность модели. Это неэффективность среды.»
Практические последствия
Для разработчиков, запускающих агентов в масштабе, в посте предлагается:
- Эту переменную стоит проверить в производственных средах
- Сокращение на 68% значительно накапливается в масштабе (например, 100 агент-часов в день)
- Помимо экономии затрат, есть преимущества в надежности: меньше команд, меньше шагов анализа и меньше точек отказа
В посте завершается вопросом, проводили ли другие подобные тесты или обнаружили ли другие факторы инфраструктуры со сравнимым эффектом.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

ИИ-модели не обладают самосознанием в отношении собственных инструментов и пользовательского интерфейса.
ИИ-модели, такие как ChatGPT и Claude, часто предоставляют неверную или устаревшую информацию о собственных функциях и интерфейсах, например, отрицают существование новых слеш-команд или описывают старые версии интерфейса, поскольку они обучены на прошлых снимках данных, в то время как продукты постоянно развиваются.

VS Code 1.117.0 автоматически добавляет Copilot как соавтора в коммитах — вот что его вызывает
VS Code 1.117.0 добавляет 'Co-authored-by: Copilot <[email protected]>' к коммитам, когда используются встроенные подсказки — даже для одной запятой. Функция включена по умолчанию и не была четко объявлена.

Исследование ETH Zurich: Избыточный контекст снижает производительность ИИ-агентов для программирования
Исследование ETH Zurich протестировало четырех кодирующих агентов на 138 реальных задачах GitHub и обнаружило, что контекстные файлы, сгенерированные LLM, снизили успешность выполнения задач на 2-3%, при этом увеличив затраты на вывод на 20%. Контекст, написанный человеком, улучшил успешность лишь примерно на 4% при значительном росте затрат.

Opus 4.7 вставляет себя и раскрывает системный промпт
Пользователи Claude Opus 4.7 сообщают, что модель вставляет фейковые системные промпты и утекает фрагменты реальных системных промптов без каких-либо действий со стороны пользователя.