AVP Protocole: Cache KV entre Agents LLM

Ce que fait AVP

AVP (Agent Vector Protocol) est un protocole qui permet aux agents LLM dans des configurations multi-agents de transmettre directement le cache KV entre agents au lieu du texte. Cela élimine la tokenisation redondante et les passes avant qui se produisent lorsque chaque agent retraite l'historique complet de la conversation.

Comment cela fonctionne

Au lieu de l'approche traditionnelle basée sur le texte où chaque agent retokenise tout, AVP permet à l'Agent A de sérialiser ses états d'attention clé-valeur après raisonnement, et l'Agent B les injecte directement. Cela signifie :

Même modèle des deux côtés : Transfert direct du cache KV sans surcharge
Même famille, taille différente (par exemple, Qwen2.5-7B parlant à 1.5B) : Projection médiée par le vocabulaire sans paramètres appris ni données d'étalonnage nécessaires
Familles différentes : Retour à JSON
Agnostique au transport : Fonctionne avec A2A, MCP, gRPC ou tout ce que vous utilisez déjà
Format binaire sur le réseau : Pas JSON+Base64 (qui a une surcharge de 33 % sur les données tensorielles)

Résultats de performance

Les tests sur les modèles Qwen2.5, Llama 3.2 et DeepSeek-R1-Distill ont montré :

Économies de tokens de 73 à 78 %
Accélérations de 2 à 4 fois
Ces résultats sont restés cohérents dans les trois familles de modèles
L'écart s'élargit avec la longueur de la chaîne : à 4 agents c'est environ 2 fois, à 16 agents (projeté) ce serait environ 6 fois

L'efficacité vient du fait que la taille des invites textuelles gonfle à chaque saut (186 → 545 → 1 073 → 1 397 tokens dans une chaîne GSM8K à 4 agents), tandis que la latence reste stable à environ 164-207 tokens par saut car le contexte précédent arrive sous forme de cache KV pré-calculé.

Limitations

Les tailles d'échantillon sont n=20 par modèle (suffisant pour les affirmations sur les tokens/vitesse mais pas pour la précision)
Testé uniquement sur de petits modèles (1.5B-3B sur un RTX 3070 Ti) avec des résultats pour 7B+ en attente
Nécessite une bande passante minimale de 1 Gbps+ (le cache KV pour un modèle 3B représente environ 130 Mo par échantillon)
Auto-hébergé uniquement (nécessite l'accès au cache KV, ne fonctionnera pas avec les API OpenAI/Anthropic/etc.)
Même modèle uniquement pour l'instant (l'implémentation inter-modèles existe mais n'a pas été évaluée)
La latence utilise 17 à 54 fois plus de VRAM que le texte car vous conservez le cache KV entre les sauts

Pour commencer

Installez avec : pip install avp

Deux niveaux d'API disponibles :

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Ou avec plus de contrôle :

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analysez ce problème", steps=20)
answer = connector.generate("Résolvez-le.", context=context)

Connecteur vLLM également disponible : pip install "avp[vllm]"