Protocolo AVP: Agentes LLM Compartilham Cache KV com 73% Menos Tokens

O que o AVP faz

AVP (Protocolo de Vetor de Agente) é um protocolo que permite que agentes LLM em configurações multiagente passem o cache KV diretamente entre agentes em vez de texto. Isso elimina a tokenização redundante e as passagens diretas que ocorrem quando cada agente reprocessa todo o histórico da conversa.

Como funciona

Em vez da abordagem tradicional baseada em texto, onde cada agente retokeniza tudo, o AVP permite que o Agente A serialize seus estados de atenção chave-valor após o raciocínio, e o Agente B os injete diretamente. Isso significa:

Mesmo modelo em ambos os lados: Transferência direta de cache KV com zero sobrecarga
Mesma família, tamanho diferente (ex: Qwen2.5-7B conversando com 1.5B): Projeção mediada por vocabulário sem necessidade de parâmetros aprendidos ou dados de calibração
Famílias diferentes: Retorna para JSON
Agnóstico de transporte: Funciona junto com A2A, MCP, gRPC ou o que você já está usando
Formato binário de transmissão: Não é JSON+Base64 (que tem 33% de sobrecarga em dados de tensor)

Resultados de desempenho

Testes nos modelos Qwen2.5, Llama 3.2 e DeepSeek-R1-Distill mostraram:

Economia de tokens de 73-78%
Acelerações de 2-4x
Esses resultados se mantiveram consistentes em todas as três famílias de modelos
A diferença aumenta com o comprimento da cadeia: com 4 agentes é cerca de 2x, com 16 agentes (projetado) seria cerca de 6x

A eficiência vem do fato de que os tamanhos dos prompts de texto aumentam a cada salto (186 → 545 → 1.073 → 1.397 tokens em uma cadeia GSM8K de 4 agentes), enquanto o latente permanece estável em ~164-207 tokens por salto porque o contexto anterior chega como cache KV pré-computado.

Limitações

Tamanhos de amostra são n=20 por modelo (suficiente para reivindicações de token/velocidade, mas não para reivindicações de precisão)
Testado apenas em modelos pequenos (1.5B-3B em uma RTX 3070 Ti) com resultados de 7B+ pendentes
Requer largura de banda mínima de 1 Gbps+ (o cache KV para um modelo de 3B consome cerca de 130 MB por amostra)
Apenas auto-hospedado (requer acesso ao cache KV, não funcionará com APIs OpenAI/Anthropic/etc.)
Mesmo modelo apenas por enquanto (implementação entre modelos existe, mas não foi comparada)
O latente usa 17-54x mais VRAM do que texto porque você está mantendo o cache KV entre saltos

Começando

Instale com: pip install avp

Dois níveis de API disponíveis:

import avp
msg = avp.pack("Olá", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Ou com mais controle:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analise este problema", steps=20)
answer = connector.generate("Resolva-o.", context=context)

Conector vLLM também disponível: pip install "avp[vllm]"

Links do projeto

SDK: github.com/VectorArc/avp-python (MIT, 377 testes, 7 benchmarks)
Especificação: github.com/VectorArc/avp-spec
Detalhes do benchmark: BENCHMARKS.md

📖 Leia a fonte completa: r/LocalLLaMA

O Protocolo AVP Permite que Agentes LLM Compartilhem o Cache KV em vez de Texto para Eficiência de Tokens

O que o AVP faz

Como funciona

Resultados de desempenho

Limitações

Começando

Links do projeto

👀 See Also

Sua Ferramenta de Participação Justa: Calcule Sua Parte Igual nos Lucros da Empresa

Roost: Uma barra lateral em Go binário para Claude Code com histórico de prompts clicável, árvore de arquivos e notificações

SDK do Microsoft Teams Adiciona Adaptador de Servidor HTTP para Agentes de IA Existentes

Plugin GTM de Código Aberto para Claude Code com 166 Habilidades de Marketing e Comando Bootstrap