El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens

✍️ OpenClawRadar📅 Publicado: 28 de febrero de 2026🔗 Source
El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens
Ad

Qué hace AVP

AVP (Protocolo de Vectores de Agente) es un protocolo que permite a los agentes LLM en configuraciones multiagente pasar la caché KV directamente entre agentes en lugar de texto. Esto elimina la tokenización redundante y los pases hacia adelante que ocurren cuando cada agente reprocesa todo el historial de la conversación.

Cómo funciona

En lugar del enfoque tradicional basado en texto donde cada agente vuelve a tokenizar todo, AVP permite que el Agente A serialice sus estados de atención clave-valor después de razonar, y el Agente B los inyecte directamente. Esto significa:

  • Mismo modelo en ambos lados: Transferencia directa de caché KV sin sobrecarga
  • Misma familia, tamaño diferente (por ejemplo, Qwen2.5-7B hablando con 1.5B): Proyección mediada por vocabulario sin necesidad de parámetros aprendidos o datos de calibración
  • Familias diferentes: Recurre a JSON
  • Agnóstico al transporte: Funciona junto con A2A, MCP, gRPC o lo que ya estés usando
  • Formato de cable binario: No JSON+Base64 (que tiene un 33% de sobrecarga en datos de tensor)

Resultados de rendimiento

Las pruebas en los modelos Qwen2.5, Llama 3.2 y DeepSeek-R1-Distill mostraron:

  • Ahorros de tokens del 73-78%
  • Aceleraciones de 2-4x
  • Estos resultados se mantuvieron consistentes en las tres familias de modelos
  • La brecha se amplía con la longitud de la cadena: con 4 agentes es aproximadamente 2x, con 16 agentes (proyectado) sería alrededor de 6x

La eficiencia proviene de que los tamaños de los prompts de texto se disparan en cada salto (186 → 545 → 1,073 → 1,397 tokens en una cadena GSM8K de 4 agentes), mientras que el latente se mantiene plano en ~164-207 tokens por salto porque el contexto anterior llega como caché KV precalculada.

Ad

Limitaciones

  • Los tamaños de muestra son n=20 por modelo (suficiente para afirmaciones de tokens/velocidad pero no para afirmaciones de precisión)
  • Probado solo en modelos pequeños (1.5B-3B en una RTX 3070 Ti) con resultados de 7B+ pendientes
  • Requiere un ancho de banda mínimo de 1 Gbps+ (la caché KV para un modelo de 3B ocupa unos 130 MB por muestra)
  • Solo autoalojado (requiere acceso a la caché KV, no funcionará con las API de OpenAI/Anthropic/etc.)
  • Por ahora solo el mismo modelo (existe implementación entre modelos pero no se ha evaluado)
  • El latente usa 17-54x más VRAM que el texto porque mantienes la caché KV a través de los saltos

Cómo empezar

Instala con: pip install avp

Dos niveles de API disponibles:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

O con más control:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analiza este problema", steps=20)
answer = connector.generate("Resuélvelo.", context=context)

Conector vLLM también disponible: pip install "avp[vllm]"

Enlaces del proyecto

  • SDK: github.com/VectorArc/avp-python (MIT, 377 pruebas, 7 evaluaciones comparativas)
  • Especificación: github.com/VectorArc/avp-spec
  • Detalles de evaluación comparativa: BENCHMARKS.md

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Pangolín: VPN basada en identidad de código abierto como alternativa a ZTNA
Herramientas

Pangolín: VPN basada en identidad de código abierto como alternativa a ZTNA

Pangolín es una VPN de código abierto centrada en el acceso remoto basado en identidad, que ofrece una alternativa a Cloudflare ZTNA, Zscaler y Twingate.

OpenClawRadar
Gestor de cuentas múltiples de código abierto para Claude CLI permite el cambio de perfiles.
Herramientas

Gestor de cuentas múltiples de código abierto para Claude CLI permite el cambio de perfiles.

claude-multi-account es una herramienta CLI que crea perfiles aislados para diferentes cuentas de Claude, permitiendo cambiar instantáneamente sin cerrar sesión. Es compatible con configuraciones compartidas, copias de seguridad en la nube y funciona en Windows, Linux, macOS y Termux.

OpenClawRadar
Blindspot MCP: Un Cerebro Externo para Agentes de IA de Programación
Herramientas

Blindspot MCP: Un Cerebro Externo para Agentes de IA de Programación

Blindspot MCP es una herramienta que indexa bases de código completas utilizando tree-sitter y SQLite para ayudar a los agentes de IA de codificación a comprender símbolos, dependencias y relaciones entre archivos, evitando cambios que rompan el código fuera de su contexto inmediato.

OpenClawRadar
Claude Code Control Remoto: Continúa Sesiones Locales desde Cualquier Dispositivo
Herramientas

Claude Code Control Remoto: Continúa Sesiones Locales desde Cualquier Dispositivo

Claude Code Remote Control te permite continuar sesiones locales de Claude Code desde otros dispositivos como teléfonos o navegadores mientras mantienes todo funcionando en tu máquina. Está disponible como vista previa de investigación en los planes Pro y Max, requiriendo configuración de autenticación y confianza del espacio de trabajo.

OpenClawRadar