Le protocole AVP permet aux agents LLM de partager le cache KV au lieu du texte pour une efficacité de jeton

Ce que fait AVP
AVP (Agent Vector Protocol) est un protocole qui permet aux agents LLM dans des configurations multi-agents de transmettre directement le cache KV entre agents au lieu du texte. Cela élimine la tokenisation redondante et les passes avant qui se produisent lorsque chaque agent retraite l'historique complet de la conversation.
Comment cela fonctionne
Au lieu de l'approche traditionnelle basée sur le texte où chaque agent retokenise tout, AVP permet à l'Agent A de sérialiser ses états d'attention clé-valeur après raisonnement, et l'Agent B les injecte directement. Cela signifie :
- Même modèle des deux côtés : Transfert direct du cache KV sans surcharge
- Même famille, taille différente (par exemple, Qwen2.5-7B parlant à 1.5B) : Projection médiée par le vocabulaire sans paramètres appris ni données d'étalonnage nécessaires
- Familles différentes : Retour à JSON
- Agnostique au transport : Fonctionne avec A2A, MCP, gRPC ou tout ce que vous utilisez déjà
- Format binaire sur le réseau : Pas JSON+Base64 (qui a une surcharge de 33 % sur les données tensorielles)
Résultats de performance
Les tests sur les modèles Qwen2.5, Llama 3.2 et DeepSeek-R1-Distill ont montré :
- Économies de tokens de 73 à 78 %
- Accélérations de 2 à 4 fois
- Ces résultats sont restés cohérents dans les trois familles de modèles
- L'écart s'élargit avec la longueur de la chaîne : à 4 agents c'est environ 2 fois, à 16 agents (projeté) ce serait environ 6 fois
L'efficacité vient du fait que la taille des invites textuelles gonfle à chaque saut (186 → 545 → 1 073 → 1 397 tokens dans une chaîne GSM8K à 4 agents), tandis que la latence reste stable à environ 164-207 tokens par saut car le contexte précédent arrive sous forme de cache KV pré-calculé.
Limitations
- Les tailles d'échantillon sont n=20 par modèle (suffisant pour les affirmations sur les tokens/vitesse mais pas pour la précision)
- Testé uniquement sur de petits modèles (1.5B-3B sur un RTX 3070 Ti) avec des résultats pour 7B+ en attente
- Nécessite une bande passante minimale de 1 Gbps+ (le cache KV pour un modèle 3B représente environ 130 Mo par échantillon)
- Auto-hébergé uniquement (nécessite l'accès au cache KV, ne fonctionnera pas avec les API OpenAI/Anthropic/etc.)
- Même modèle uniquement pour l'instant (l'implémentation inter-modèles existe mais n'a pas été évaluée)
- La latence utilise 17 à 54 fois plus de VRAM que le texte car vous conservez le cache KV entre les sauts
Pour commencer
Installez avec : pip install avp
Deux niveaux d'API disponibles :
import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")Ou avec plus de contrôle :
from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analysez ce problème", steps=20)
answer = connector.generate("Résolvez-le.", context=context)Connecteur vLLM également disponible : pip install "avp[vllm]"
Liens du projet
- SDK : github.com/VectorArc/avp-python (MIT, 377 tests, 7 benchmarks)
- Spécification : github.com/VectorArc/avp-spec
- Détails des benchmarks : BENCHMARKS.md
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

L'utilisateur de Claude Code crée la commande /discuss pour des conversations en lecture seule.
Un utilisateur de Claude Code a créé une compétence personnalisée de 25 lignes appelée /discuss qui permet des conversations en lecture seule sans modifications de fichiers. La commande permet l'exploration de code, la recherche et la discussion tout en empêchant les modifications, en utilisant le drapeau --dangerously-skip-permissions avec des mesures de sécurité intégrées.

Mise à jour du client React OpenClaw ajoute un modèle par agent, un outil CLI et un démarrage automatique
Le client open-source OpenClaw a reçu une mise à jour majeure avec quatre fonctionnalités clés : attribution de modèle par agent, mises à jour automatiques, un nouvel outil CLI pour la gestion et démarrage automatique après le redémarrage du système.

ConnectSafely AI MCP Server Relie LinkedIn à Claude pour un Contrôle Direct
ConnectSafely AI propose un serveur MCP qui connecte LinkedIn directement à Claude, permettant aux utilisateurs d'envoyer des messages, de rechercher des personnes, de vérifier les visiteurs de profil et de suivre les conversations via des invites sans changer d'onglet.

Comment déplacer ou renommer les dossiers de projet Claude Code sans perdre l'historique des sessions
Claude Code stocke l'historique des sessions en utilisant les chemins absolus des projets, donc déplacer ou renommer des dossiers avec mv rend les sessions inaccessibles. L'outil clamp résout ce problème en migrant les données de session pour correspondre aux nouveaux chemins.