O Protocolo AVP Permite que Agentes LLM Compartilhem o Cache KV em vez de Texto para Eficiência de Tokens

O que o AVP faz
AVP (Protocolo de Vetor de Agente) é um protocolo que permite que agentes LLM em configurações multiagente passem o cache KV diretamente entre agentes em vez de texto. Isso elimina a tokenização redundante e as passagens diretas que ocorrem quando cada agente reprocessa todo o histórico da conversa.
Como funciona
Em vez da abordagem tradicional baseada em texto, onde cada agente retokeniza tudo, o AVP permite que o Agente A serialize seus estados de atenção chave-valor após o raciocínio, e o Agente B os injete diretamente. Isso significa:
- Mesmo modelo em ambos os lados: Transferência direta de cache KV com zero sobrecarga
- Mesma família, tamanho diferente (ex: Qwen2.5-7B conversando com 1.5B): Projeção mediada por vocabulário sem necessidade de parâmetros aprendidos ou dados de calibração
- Famílias diferentes: Retorna para JSON
- Agnóstico de transporte: Funciona junto com A2A, MCP, gRPC ou o que você já está usando
- Formato binário de transmissão: Não é JSON+Base64 (que tem 33% de sobrecarga em dados de tensor)
Resultados de desempenho
Testes nos modelos Qwen2.5, Llama 3.2 e DeepSeek-R1-Distill mostraram:
- Economia de tokens de 73-78%
- Acelerações de 2-4x
- Esses resultados se mantiveram consistentes em todas as três famílias de modelos
- A diferença aumenta com o comprimento da cadeia: com 4 agentes é cerca de 2x, com 16 agentes (projetado) seria cerca de 6x
A eficiência vem do fato de que os tamanhos dos prompts de texto aumentam a cada salto (186 → 545 → 1.073 → 1.397 tokens em uma cadeia GSM8K de 4 agentes), enquanto o latente permanece estável em ~164-207 tokens por salto porque o contexto anterior chega como cache KV pré-computado.
Limitações
- Tamanhos de amostra são n=20 por modelo (suficiente para reivindicações de token/velocidade, mas não para reivindicações de precisão)
- Testado apenas em modelos pequenos (1.5B-3B em uma RTX 3070 Ti) com resultados de 7B+ pendentes
- Requer largura de banda mínima de 1 Gbps+ (o cache KV para um modelo de 3B consome cerca de 130 MB por amostra)
- Apenas auto-hospedado (requer acesso ao cache KV, não funcionará com APIs OpenAI/Anthropic/etc.)
- Mesmo modelo apenas por enquanto (implementação entre modelos existe, mas não foi comparada)
- O latente usa 17-54x mais VRAM do que texto porque você está mantendo o cache KV entre saltos
Começando
Instale com: pip install avp
Dois níveis de API disponíveis:
import avp
msg = avp.pack("Olá", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")Ou com mais controle:
from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analise este problema", steps=20)
answer = connector.generate("Resolva-o.", context=context)Conector vLLM também disponível: pip install "avp[vllm]"
Links do projeto
- SDK: github.com/VectorArc/avp-python (MIT, 377 testes, 7 benchmarks)
- Especificação: github.com/VectorArc/avp-spec
- Detalhes do benchmark: BENCHMARKS.md
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Logseq Brain v0.6.0: Plugin de Memória Persistente para Claude Code Adiciona Diário de Jornada e Leituras Direcionadas por Seção
Logseq Brain v0.6.0 adiciona um diário de jornada para todas as operações, leituras direcionadas por seção para economia de tokens e divulgação progressiva para arquivos de habilidades.

Artifactr: Ferramenta CLI de prioridade local para gerenciar artefatos de agentes de codificação de IA
Artifactr é uma ferramenta CLI gratuita e de código aberto para gerenciar artefatos de LLM, como habilidades, comandos e definições de agentes. Ela armazena arquivos em cofres portáteis sem conexões de rede e suporta sincronização automática via symlinks.

Integração do WordPress.com MCP Adiciona Capacidades de Escrita para Claude
A integração do MCP do WordPress.com agora suporta operações de escrita, permitindo que o Claude crie rascunhos de posts, construa páginas, gerencie comentários, corrija textos alternativos de imagens e reorganize categorias de conteúdo diretamente em sites do WordPress.com. Antes de gerar conteúdo, o Claude lê o tema do site para entender elementos de design como cores, fontes e padrões de blocos.

Construindo um Agente de Codificação para Contexto de 8k: Divisão Planejador/Executor, Orçamento de Tokens e Execução Paralela
Uma análise detalhada da construção de um agente de codificação CLI projetado em torno de limites de 8 mil tokens, usando uma arquitetura de planejador/executor, orçamento de tokens rigoroso e execução paralela de tarefas.