Протокол AVP позволяет агентам LLM обмениваться кэшем ключей и значений вместо текста для повышения эффективности использования токенов.

Что делает AVP
AVP (Agent Vector Protocol) — это протокол, который позволяет агентам LLM в мультиагентных системах передавать KV-кэш напрямую между агентами вместо текста. Это устраняет избыточную токенизацию и прямые проходы, которые происходят, когда каждый агент повторно обрабатывает всю историю разговора.
Как это работает
Вместо традиционного текстового подхода, при котором каждый агент повторно токенизирует всё, AVP позволяет Агенту A сериализовать свои ключевые состояния внимания после рассуждения, а Агенту B — внедрять их напрямую. Это означает:
- Одинаковая модель с обеих сторон: Прямая передача KV-кэша без накладных расходов
- Одно семейство, разный размер (например, Qwen2.5-7B общается с 1.5B): Проекция через словарь без необходимости в обучаемых параметрах или калибровочных данных
- Разные семейства: Возврат к JSON
- Независимость от транспорта: Работает вместе с A2A, MCP, gRPC или чем-то ещё, что вы уже используете
- Бинарный формат передачи: Не JSON+Base64 (который имеет 33% накладных расходов на тензорные данные)
Результаты производительности
Тестирование на моделях Qwen2.5, Llama 3.2 и DeepSeek-R1-Distill показало:
- Экономия токенов на 73-78%
- Ускорение в 2-4 раза
- Эти результаты оставались стабильными для всех трёх семейств моделей
- Разрыв увеличивается с длиной цепочки: при 4 агентах примерно в 2 раза, при 16 агентах (прогноз) было бы около 6 раз
Эффективность достигается за счёт того, что размеры текстовых промптов растут на каждом шаге (186 → 545 → 1,073 → 1,397 токенов в цепочке из 4 агентов GSM8K), в то время как латентное представление остаётся стабильным на уровне ~164-207 токенов на шаг, поскольку предыдущий контекст поступает в виде предварительно вычисленного KV-кэша.
Ограничения
- Размеры выборок составляют n=20 на модель (достаточно для заявлений о токенах/скорости, но не для заявлений о точности)
- Тестировались только небольшие модели (1.5B-3B на RTX 3070 Ti), результаты для 7B+ ожидаются
- Требуется минимальная пропускная способность 1 Гбит/с (KV-кэш для модели 3B составляет около 130 МБ на образец)
- Только для самостоятельного хостинга (требуется доступ к KV-кэшу, не работает с API OpenAI/Anthropic и т.д.)
- Пока только для одинаковых моделей (кросс-модельная реализация существует, но не тестировалась)
- Латентное представление использует в 17-54 раза больше VRAM, чем текст, потому что вы храните KV-кэш между шагами
Начало работы
Установите с помощью: pip install avp
Доступны два уровня API:
import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")Или с большим контролем:
from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Проанализируйте эту задачу", steps=20)
answer = connector.generate("Решите её.", context=context)Также доступен коннектор vLLM: pip install "avp[vllm]"
Ссылки на проект
- SDK: github.com/VectorArc/avp-python (MIT, 377 тестов, 7 бенчмарков)
- Спецификация: github.com/VectorArc/avp-spec
- Детали бенчмарков: BENCHMARKS.md
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Настройка OpenClaw в UTM-виртуальной машине Ubuntu с доступом к LLM API и Ollama
Пользователь успешно настроил OpenClaw в изолированной виртуальной машине Ubuntu на Mac с процессором M3, получив доступ как к локальному Ollama на macOS, так и к внешним API LLM, таким как Gemini, Claude и DeepSeek. Примеры файлов конфигурации и заметки по устранению неполадок доступны на GitHub.

Джан добавляет установку OpenClaw в один клик с интеграцией модели Jan-v3-Base.
Теперь Jan поддерживает установку OpenClaw в один клик с прямой интеграцией в модель Jan-v3-base, сохраняя все операции локальными и приватными на вашем компьютере.

Явио: SDK с открытым исходным кодом для продуктовой аналитики в приложениях MCP
Yavio — это SDK с открытым исходным кодом для аналитики продуктов, предназначенный для MCP и MCP-приложений, который автоматически фиксирует вызовы инструментов, ошибки и чтение ресурсов с помощью одного вызова функции. Проект с лицензией MIT предоставляет дашборд с детализацией по инструментам, воронками, отслеживанием удержания и ошибок.

Codex Chrome Extension добавляет фоновую автоматизацию браузера между вкладками
Новое расширение Codex для Chrome на macOS/Windows позволяет выполнять параллельные задачи в фоновых вкладках, не захватывая браузер — включая отладку, работу с дашбордами, исследования и обновление CRM.