Протокол AVP позволяет агентам LLM обмениваться кэшем ключей и значений вместо текста для повышения эффективности использования токенов.

✍️ OpenClawRadar📅 Опубликовано: 28 февраля 2026 г.🔗 Source
Протокол AVP позволяет агентам LLM обмениваться кэшем ключей и значений вместо текста для повышения эффективности использования токенов.
Ad

Что делает AVP

AVP (Agent Vector Protocol) — это протокол, который позволяет агентам LLM в мультиагентных системах передавать KV-кэш напрямую между агентами вместо текста. Это устраняет избыточную токенизацию и прямые проходы, которые происходят, когда каждый агент повторно обрабатывает всю историю разговора.

Как это работает

Вместо традиционного текстового подхода, при котором каждый агент повторно токенизирует всё, AVP позволяет Агенту A сериализовать свои ключевые состояния внимания после рассуждения, а Агенту B — внедрять их напрямую. Это означает:

  • Одинаковая модель с обеих сторон: Прямая передача KV-кэша без накладных расходов
  • Одно семейство, разный размер (например, Qwen2.5-7B общается с 1.5B): Проекция через словарь без необходимости в обучаемых параметрах или калибровочных данных
  • Разные семейства: Возврат к JSON
  • Независимость от транспорта: Работает вместе с A2A, MCP, gRPC или чем-то ещё, что вы уже используете
  • Бинарный формат передачи: Не JSON+Base64 (который имеет 33% накладных расходов на тензорные данные)

Результаты производительности

Тестирование на моделях Qwen2.5, Llama 3.2 и DeepSeek-R1-Distill показало:

  • Экономия токенов на 73-78%
  • Ускорение в 2-4 раза
  • Эти результаты оставались стабильными для всех трёх семейств моделей
  • Разрыв увеличивается с длиной цепочки: при 4 агентах примерно в 2 раза, при 16 агентах (прогноз) было бы около 6 раз

Эффективность достигается за счёт того, что размеры текстовых промптов растут на каждом шаге (186 → 545 → 1,073 → 1,397 токенов в цепочке из 4 агентов GSM8K), в то время как латентное представление остаётся стабильным на уровне ~164-207 токенов на шаг, поскольку предыдущий контекст поступает в виде предварительно вычисленного KV-кэша.

Ad

Ограничения

  • Размеры выборок составляют n=20 на модель (достаточно для заявлений о токенах/скорости, но не для заявлений о точности)
  • Тестировались только небольшие модели (1.5B-3B на RTX 3070 Ti), результаты для 7B+ ожидаются
  • Требуется минимальная пропускная способность 1 Гбит/с (KV-кэш для модели 3B составляет около 130 МБ на образец)
  • Только для самостоятельного хостинга (требуется доступ к KV-кэшу, не работает с API OpenAI/Anthropic и т.д.)
  • Пока только для одинаковых моделей (кросс-модельная реализация существует, но не тестировалась)
  • Латентное представление использует в 17-54 раза больше VRAM, чем текст, потому что вы храните KV-кэш между шагами

Начало работы

Установите с помощью: pip install avp

Доступны два уровня API:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Или с большим контролем:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Проанализируйте эту задачу", steps=20)
answer = connector.generate("Решите её.", context=context)

Также доступен коннектор vLLM: pip install "avp[vllm]"

Ссылки на проект

  • SDK: github.com/VectorArc/avp-python (MIT, 377 тестов, 7 бенчмарков)
  • Спецификация: github.com/VectorArc/avp-spec
  • Детали бенчмарков: BENCHMARKS.md

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Настройка OpenClaw в UTM-виртуальной машине Ubuntu с доступом к LLM API и Ollama
Инструменты

Настройка OpenClaw в UTM-виртуальной машине Ubuntu с доступом к LLM API и Ollama

Пользователь успешно настроил OpenClaw в изолированной виртуальной машине Ubuntu на Mac с процессором M3, получив доступ как к локальному Ollama на macOS, так и к внешним API LLM, таким как Gemini, Claude и DeepSeek. Примеры файлов конфигурации и заметки по устранению неполадок доступны на GitHub.

OpenClawRadar
Джан добавляет установку OpenClaw в один клик с интеграцией модели Jan-v3-Base.
Инструменты

Джан добавляет установку OpenClaw в один клик с интеграцией модели Jan-v3-Base.

Теперь Jan поддерживает установку OpenClaw в один клик с прямой интеграцией в модель Jan-v3-base, сохраняя все операции локальными и приватными на вашем компьютере.

OpenClawRadar
Явио: SDK с открытым исходным кодом для продуктовой аналитики в приложениях MCP
Инструменты

Явио: SDK с открытым исходным кодом для продуктовой аналитики в приложениях MCP

Yavio — это SDK с открытым исходным кодом для аналитики продуктов, предназначенный для MCP и MCP-приложений, который автоматически фиксирует вызовы инструментов, ошибки и чтение ресурсов с помощью одного вызова функции. Проект с лицензией MIT предоставляет дашборд с детализацией по инструментам, воронками, отслеживанием удержания и ошибок.

OpenClawRadar
Codex Chrome Extension добавляет фоновую автоматизацию браузера между вкладками
Инструменты

Codex Chrome Extension добавляет фоновую автоматизацию браузера между вкладками

Новое расширение Codex для Chrome на macOS/Windows позволяет выполнять параллельные задачи в фоновых вкладках, не захватывая браузер — включая отладку, работу с дашбордами, исследования и обновление CRM.

OpenClawRadar