AVP Protocol: LLM Agents Share KV Cache for 2-4x Speedup

Qué hace AVP

AVP (Protocolo de Vectores de Agente) es un protocolo que permite a los agentes LLM en configuraciones multiagente pasar la caché KV directamente entre agentes en lugar de texto. Esto elimina la tokenización redundante y los pases hacia adelante que ocurren cuando cada agente reprocesa todo el historial de la conversación.

Cómo funciona

En lugar del enfoque tradicional basado en texto donde cada agente vuelve a tokenizar todo, AVP permite que el Agente A serialice sus estados de atención clave-valor después de razonar, y el Agente B los inyecte directamente. Esto significa:

Mismo modelo en ambos lados: Transferencia directa de caché KV sin sobrecarga
Misma familia, tamaño diferente (por ejemplo, Qwen2.5-7B hablando con 1.5B): Proyección mediada por vocabulario sin necesidad de parámetros aprendidos o datos de calibración
Familias diferentes: Recurre a JSON
Agnóstico al transporte: Funciona junto con A2A, MCP, gRPC o lo que ya estés usando
Formato de cable binario: No JSON+Base64 (que tiene un 33% de sobrecarga en datos de tensor)

Resultados de rendimiento

Las pruebas en los modelos Qwen2.5, Llama 3.2 y DeepSeek-R1-Distill mostraron:

Ahorros de tokens del 73-78%
Aceleraciones de 2-4x
Estos resultados se mantuvieron consistentes en las tres familias de modelos
La brecha se amplía con la longitud de la cadena: con 4 agentes es aproximadamente 2x, con 16 agentes (proyectado) sería alrededor de 6x

La eficiencia proviene de que los tamaños de los prompts de texto se disparan en cada salto (186 → 545 → 1,073 → 1,397 tokens en una cadena GSM8K de 4 agentes), mientras que el latente se mantiene plano en ~164-207 tokens por salto porque el contexto anterior llega como caché KV precalculada.

Limitaciones

Los tamaños de muestra son n=20 por modelo (suficiente para afirmaciones de tokens/velocidad pero no para afirmaciones de precisión)
Probado solo en modelos pequeños (1.5B-3B en una RTX 3070 Ti) con resultados de 7B+ pendientes
Requiere un ancho de banda mínimo de 1 Gbps+ (la caché KV para un modelo de 3B ocupa unos 130 MB por muestra)
Solo autoalojado (requiere acceso a la caché KV, no funcionará con las API de OpenAI/Anthropic/etc.)
Por ahora solo el mismo modelo (existe implementación entre modelos pero no se ha evaluado)
El latente usa 17-54x más VRAM que el texto porque mantienes la caché KV a través de los saltos

Cómo empezar

Instala con: pip install avp

Dos niveles de API disponibles:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

O con más control:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analiza este problema", steps=20)
answer = connector.generate("Resuélvelo.", context=context)

Conector vLLM también disponible: pip install "avp[vllm]"

Enlaces del proyecto

SDK: github.com/VectorArc/avp-python (MIT, 377 pruebas, 7 evaluaciones comparativas)
Especificación: github.com/VectorArc/avp-spec
Detalles de evaluación comparativa: BENCHMARKS.md

📖 Leer la fuente completa: r/LocalLLaMA

El Protocolo AVP Permite que los Agentes LLM Compartan la Caché KV en Lugar de Texto para Mayor Eficiencia de Tokens

Qué hace AVP

Cómo funciona

Resultados de rendimiento

Limitaciones

Cómo empezar

Enlaces del proyecto

👀 Ver también

RelayPlane Proxy de Código Abierto Muestra una Reducción del 73% en Costos con Enrutamiento del Modelo Claude

ByteRover Complemento de Memoria para OpenClaw: Integración Nativa con Jerarquía Semántica

Weejur: Una Interfaz de Usuario Sencilla para Publicar en GitHub Pages

Superposición de escritorio en tiempo real para monitorear los límites de uso del código de Claude.