O Protocolo AVP Permite que Agentes LLM Compartilhem o Cache KV em vez de Texto para Eficiência de Tokens

✍️ OpenClawRadar📅 Publicado: February 28, 2026🔗 Source
O Protocolo AVP Permite que Agentes LLM Compartilhem o Cache KV em vez de Texto para Eficiência de Tokens
Ad

O que o AVP faz

AVP (Protocolo de Vetor de Agente) é um protocolo que permite que agentes LLM em configurações multiagente passem o cache KV diretamente entre agentes em vez de texto. Isso elimina a tokenização redundante e as passagens diretas que ocorrem quando cada agente reprocessa todo o histórico da conversa.

Como funciona

Em vez da abordagem tradicional baseada em texto, onde cada agente retokeniza tudo, o AVP permite que o Agente A serialize seus estados de atenção chave-valor após o raciocínio, e o Agente B os injete diretamente. Isso significa:

  • Mesmo modelo em ambos os lados: Transferência direta de cache KV com zero sobrecarga
  • Mesma família, tamanho diferente (ex: Qwen2.5-7B conversando com 1.5B): Projeção mediada por vocabulário sem necessidade de parâmetros aprendidos ou dados de calibração
  • Famílias diferentes: Retorna para JSON
  • Agnóstico de transporte: Funciona junto com A2A, MCP, gRPC ou o que você já está usando
  • Formato binário de transmissão: Não é JSON+Base64 (que tem 33% de sobrecarga em dados de tensor)

Resultados de desempenho

Testes nos modelos Qwen2.5, Llama 3.2 e DeepSeek-R1-Distill mostraram:

  • Economia de tokens de 73-78%
  • Acelerações de 2-4x
  • Esses resultados se mantiveram consistentes em todas as três famílias de modelos
  • A diferença aumenta com o comprimento da cadeia: com 4 agentes é cerca de 2x, com 16 agentes (projetado) seria cerca de 6x

A eficiência vem do fato de que os tamanhos dos prompts de texto aumentam a cada salto (186 → 545 → 1.073 → 1.397 tokens em uma cadeia GSM8K de 4 agentes), enquanto o latente permanece estável em ~164-207 tokens por salto porque o contexto anterior chega como cache KV pré-computado.

Ad

Limitações

  • Tamanhos de amostra são n=20 por modelo (suficiente para reivindicações de token/velocidade, mas não para reivindicações de precisão)
  • Testado apenas em modelos pequenos (1.5B-3B em uma RTX 3070 Ti) com resultados de 7B+ pendentes
  • Requer largura de banda mínima de 1 Gbps+ (o cache KV para um modelo de 3B consome cerca de 130 MB por amostra)
  • Apenas auto-hospedado (requer acesso ao cache KV, não funcionará com APIs OpenAI/Anthropic/etc.)
  • Mesmo modelo apenas por enquanto (implementação entre modelos existe, mas não foi comparada)
  • O latente usa 17-54x mais VRAM do que texto porque você está mantendo o cache KV entre saltos

Começando

Instale com: pip install avp

Dois níveis de API disponíveis:

import avp
msg = avp.pack("Olá", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Ou com mais controle:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analise este problema", steps=20)
answer = connector.generate("Resolva-o.", context=context)

Conector vLLM também disponível: pip install "avp[vllm]"

Links do projeto

  • SDK: github.com/VectorArc/avp-python (MIT, 377 testes, 7 benchmarks)
  • Especificação: github.com/VectorArc/avp-spec
  • Detalhes do benchmark: BENCHMARKS.md

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Logseq Brain v0.6.0: Plugin de Memória Persistente para Claude Code Adiciona Diário de Jornada e Leituras Direcionadas por Seção
Tools

Logseq Brain v0.6.0: Plugin de Memória Persistente para Claude Code Adiciona Diário de Jornada e Leituras Direcionadas por Seção

Logseq Brain v0.6.0 adiciona um diário de jornada para todas as operações, leituras direcionadas por seção para economia de tokens e divulgação progressiva para arquivos de habilidades.

OpenClawRadar
Artifactr: Ferramenta CLI de prioridade local para gerenciar artefatos de agentes de codificação de IA
Tools

Artifactr: Ferramenta CLI de prioridade local para gerenciar artefatos de agentes de codificação de IA

Artifactr é uma ferramenta CLI gratuita e de código aberto para gerenciar artefatos de LLM, como habilidades, comandos e definições de agentes. Ela armazena arquivos em cofres portáteis sem conexões de rede e suporta sincronização automática via symlinks.

OpenClawRadar
Integração do WordPress.com MCP Adiciona Capacidades de Escrita para Claude
Tools

Integração do WordPress.com MCP Adiciona Capacidades de Escrita para Claude

A integração do MCP do WordPress.com agora suporta operações de escrita, permitindo que o Claude crie rascunhos de posts, construa páginas, gerencie comentários, corrija textos alternativos de imagens e reorganize categorias de conteúdo diretamente em sites do WordPress.com. Antes de gerar conteúdo, o Claude lê o tema do site para entender elementos de design como cores, fontes e padrões de blocos.

OpenClawRadar
Construindo um Agente de Codificação para Contexto de 8k: Divisão Planejador/Executor, Orçamento de Tokens e Execução Paralela
Tools

Construindo um Agente de Codificação para Contexto de 8k: Divisão Planejador/Executor, Orçamento de Tokens e Execução Paralela

Uma análise detalhada da construção de um agente de codificação CLI projetado em torno de limites de 8 mil tokens, usando uma arquitetura de planejador/executor, orçamento de tokens rigoroso e execução paralela de tarefas.

OpenClawRadar