350k+ токенов за сессию: агентские фреймворки тратят больше

Результаты бенчмарка по расходу токенов

Измерения на локальной установке Qwen 3.5 122B показали, что фреймворки агентов тратят более 350 000 токенов за сессию, многократно пересылая статические файлы. В источнике эти цифры описываются как "нереальные".

Подход к оптимизации

Был обнаружен подход на этапе компиляции, который сокращает контекст запроса с 1 373 токенов до всего 73 токенов. Это представляет собой 95%-ное сокращение использования токенов для данного конкретного контекста.

Бенчмарк также показал, что наивное преобразование JSON усугубляет проблему на 30%, увеличивая потерю токенов сверх базовых измерений.

Технический контекст

Фреймворки агентов обычно включают системные промпты, определения инструментов и другие данные конфигурации, которые остаются статичными при множественных взаимодействиях в рамках сессии. Когда эти данные пересылаются с каждым запросом, они потребляют токены, не предоставляя модели новой информации. Это особенно затратно с большими моделями, такими как Qwen 3.5 122B, где обработка токенов напрямую влияет как на производительность, так и на стоимость.

Подход на этапе компиляции, вероятно, включает предварительную обработку статических элементов, чтобы на них ссылались, а не пересылали заново, подобно тому, как современные веб-приложения кэшируют статические ресурсы. Для разработчиков, работающих с агентами ИИ для программирования, сокращение этих накладных расходов может значительно улучшить время отклика и снизить эксплуатационные затраты.

📖 Read the full source: r/LocalLLaMA

Агентские фреймворки тратят более 350 000 токенов за сессию на повторную отправку статических файлов.

Результаты бенчмарка по расходу токенов

Подход к оптимизации

Технический контекст

👀 Смотрите также

ClawWatcher достиг отметки в 200 пользователей, сообщив о совокупной экономии более $28K на API OpenClaw.

Оптимизация ANE посредством экспериментов с ИИ, управляемым через телефон, демонстрирует преимущества слияния ядер.

В реальном времени добавлен анализ акций в Claude Desktop через MCP-сервер

Architect CLI: Инструмент с открытым исходным кодом для оркестрации headless AI-агентов программирования в CI/CD.