Агентские фреймворки тратят более 350 000 токенов за сессию на повторную отправку статических файлов.

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
Агентские фреймворки тратят более 350 000 токенов за сессию на повторную отправку статических файлов.
Ad

Результаты бенчмарка по расходу токенов

Измерения на локальной установке Qwen 3.5 122B показали, что фреймворки агентов тратят более 350 000 токенов за сессию, многократно пересылая статические файлы. В источнике эти цифры описываются как "нереальные".

Подход к оптимизации

Был обнаружен подход на этапе компиляции, который сокращает контекст запроса с 1 373 токенов до всего 73 токенов. Это представляет собой 95%-ное сокращение использования токенов для данного конкретного контекста.

Бенчмарк также показал, что наивное преобразование JSON усугубляет проблему на 30%, увеличивая потерю токенов сверх базовых измерений.

Ad

Технический контекст

Фреймворки агентов обычно включают системные промпты, определения инструментов и другие данные конфигурации, которые остаются статичными при множественных взаимодействиях в рамках сессии. Когда эти данные пересылаются с каждым запросом, они потребляют токены, не предоставляя модели новой информации. Это особенно затратно с большими моделями, такими как Qwen 3.5 122B, где обработка токенов напрямую влияет как на производительность, так и на стоимость.

Подход на этапе компиляции, вероятно, включает предварительную обработку статических элементов, чтобы на них ссылались, а не пересылали заново, подобно тому, как современные веб-приложения кэшируют статические ресурсы. Для разработчиков, работающих с агентами ИИ для программирования, сокращение этих накладных расходов может значительно улучшить время отклика и снизить эксплуатационные затраты.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Менграм добавляет постоянную память агентам OpenClaw.
Инструменты

Менграм добавляет постоянную память агентам OpenClaw.

Mengram — это система памяти с открытым исходным кодом, которая предоставляет агентам OpenClaw долговременную память между сессиями, решая проблему, когда агенты забывают всё при перезапуске. Она обеспечивает эпизодическую, объектную и процедурную память с интеллектуальным архивированием устаревших фактов.

OpenClawRadar
Разработчик создает компилятор Scheme в WASM с помощью ИИ за 4 дня
Инструменты

Разработчик создает компилятор Scheme в WASM с помощью ИИ за 4 дня

Разработчик создал Puppy Scheme, компилятор Scheme, который компилирует в WebAssembly, примерно за 4 дня с помощью ИИ. Компилятор поддерживает 73% стандартов R5RS и R7RS, использует WASM GC и добился улучшения времени компиляции с 3½ минут до 11 секунд за ночь.

OpenClawRadar
Бескодовое постоянное хранилище памяти для Claude с использованием Notion и MCP
Инструменты

Бескодовое постоянное хранилище памяти для Claude с использованием Notion и MCP

Радиолог создал «Когнитивный хаб» в Notion, с которым Claude взаимодействует через MCP, читая и записывая данные, что формирует структурированную базу знаний с таблицей маршрутизации для загрузки только релевантной информации в каждом диалоге. За месяц ежедневного использования система выросла до 70+ страниц.

OpenClawRadar
OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога
Инструменты

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога

OpenEvol v0.1.1 — это автономный конвейер, который автоматически анализирует историю диалогов ИИ для создания наборов данных для тонкой настройки без ручной разметки. Изначально работает на CPU и поддерживает пять бэкендов-учителей, включая API, совместимые с OpenAI, и HuggingFace Transformers.

OpenClawRadar