agentcache: Библиотека Python для кэширования префиксов в мультиагентных LLM

agentcache — это библиотека Python, разработанная для оптимизации многозадачных LLM-систем за счёт реализации кэширования префиксов как основной функции. Библиотека решает распространённую проблему, когда фреймворки, такие как CrewAI, AutoGen и open-multi-agent, создают новые сессии для каждого работника, что приводит к нулевому попаданию в кэш и дублированию затрат на промпты.
Как это работает
Библиотека работает на основе подхода с ветвлением вместо создания отдельных сессий:
- Запустите одну сессию с общим системным промптом
- Сделайте первый вызов — провайдер вычисляет и кэширует префикс
- Когда вам нужно N работников, выполните ветвление вместо создания N новых сессий
- Родительская сессия: [система, сообщение1, сообщение2, ...]
- Ветвлённая сессия: [система, сообщение1, сообщение2, ..., ЗАДАЧА_РАБОТНИКА]
- Тот же самый префикс = попадание в кэш
Ключевые особенности
- Кэш-безопасное ветвление: Сохраняет идентичные префиксы в сессиях работников
- Обнаружение сброса кэша: Сравнивает снимки и точно сообщает, что изменилось при падении попаданий в кэш
- Кэш-безопасное сжатие: Для длительных сессий сканирует старые результаты инструментов перед каждым вызовом и заменяет большие результаты детерминированными заполнителями, чтобы сохранить меньший контекст при поддержании кэшируемых префиксов
- Замораживание параметров: Замораживает параметры, влияющие на кэш, перед ветвлением (системный промпт, модель, инструменты, сообщения, конфигурация рассуждений)
- Планирование графа задач: Позволяет параллельным работникам работать из одной кэшированной сессии
Результаты производительности
В прямом тесте с GPT-4o-mini (координатор + 3 работника, одна задача):
- Внедрение текста / отдельные сессии: 0% попаданий в кэш, 85,7 секунд
- Ветвление префиксов: 75,8% попаданий в кэш, 37,4 секунды
- Уровень попаданий в кэш на работника обычно составляет 80-99%
Установка и использование
Установите через pip:
pip install "git+https://github.com/masteragentcoder/agentcache.git@main"
Библиотека доступна на GitHub по адресу github.com/masteragentcoder/agentcache.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

SpecLock: MCP-сервер для обеспечения соблюдения ограничений в программировании ИИ
SpecLock — это сервер MCP с открытым исходным кодом, который запоминает ограничения проекта между сессиями и блокирует их нарушение AI-агентами для написания кода. Claude независимо протестировал его с помощью 100 состязательных тестов, набрав 100/100 баллов без ложных срабатываний и со временем проверки 15,7 мс.

Многоагентный карьерный наставник, созданный с помощью Ollama и MCP для локального искусственного интеллекта
Разработчик создал систему из 5 агентов ИИ, которая анализирует резюме и генерирует отчеты о карьерном интеллекте, используя Ollama с llama3 локально. Система связывает выходные данные агентов так, что каждый строит на основе предыдущего контекста, а MCP обрабатывает интеграцию инструментов.

Сторожевая башня: Локальный прокси для мониторинга трафика Claude Code API
Watchtower — это бесплатный инструмент с открытым исходным кодом, который работает как локальный HTTP-прокси и веб-панель в реальном времени для перехвата и отображения всего API-трафика между Claude Code (или Codex CLI) и их API. Он показывает запросы, SSE-потоки, определения инструментов, системные промпты, использование токенов и лимиты запросов.

Как Clawdbot координирует 6 ИИ-агентов с помощью стабильной рабочей очереди для продакшена
Команда Clawdbot разработала систему очереди задач для координации 6 ИИ-агентов (дизайн, код, маркетинг, операции) для своего магазина, управляемого искусственным интеллектом. Система включает атомарное присвоение задач, конечный автомат, логику повторных попыток с экспоненциальной задержкой, цепочки задач, отслеживание активности и демона-оркестратора.