AVP-Protokoll: KV-Cache statt Text für 73-78% Token-Einsparung

Was AVP bewirkt

AVP (Agent Vector Protocol) ist ein Protokoll, das LLM-Agenten in Multi-Agenten-Setups ermöglicht, KV-Cache direkt zwischen Agenten weiterzugeben anstatt Text. Dadurch werden redundante Tokenisierung und Vorwärtsdurchläufe vermieden, die auftreten, wenn jeder Agent den gesamten Konversationsverlauf erneut verarbeitet.

Wie es funktioniert

Anstatt des traditionellen textbasierten Ansatzes, bei dem jeder Agent alles erneut tokenisiert, ermöglicht AVP Agent A, seine Key-Value-Aufmerksamkeitszustände nach dem Denkvorgang zu serialisieren, und Agent B injiziert sie direkt. Das bedeutet:

Gleiches Modell auf beiden Seiten: Direkter KV-Cache-Transfer ohne Overhead
Gleiche Familie, unterschiedliche Größe (z.B. Qwen2.5-7B spricht mit 1.5B): Vokabularvermittelte Projektion ohne gelernte Parameter oder Kalibrierungsdaten erforderlich
Unterschiedliche Familien: Fällt auf JSON zurück
Transportunabhängig: Funktioniert neben A2A, MCP, gRPC oder was auch immer Sie bereits verwenden
Binäres Übertragungsformat: Nicht JSON+Base64 (was 33% Overhead auf Tensordaten hat)

Leistungsergebnisse

Tests über Qwen2.5-, Llama 3.2- und DeepSeek-R1-Distill-Modelle zeigten:

Token-Einsparungen von 73-78%
2-4-fache Geschwindigkeitssteigerungen
Diese Ergebnisse blieben über alle drei Modellfamilien hinweg konsistent
Die Lücke vergrößert sich mit der Kettenlänge: bei 4 Agenten etwa 2-fach, bei 16 Agenten (projiziert) wäre es etwa 6-fach

Die Effizienz kommt daher, dass Textprompt-Größen bei jedem Hop anschwellen (186 → 545 → 1.073 → 1.397 Token in einer 4-Agenten-GSM8K-Kette), während latente Zustände bei etwa 164-207 Token pro Hop flach bleiben, weil vorheriger Kontext als vorberechneter KV-Cache ankommt.

Einschränkungen

Stichprobengrößen sind n=20 pro Modell (ausreichend für Token-/Geschwindigkeitsaussagen, aber nicht für Genauigkeitsaussagen)
Nur an kleinen Modellen getestet (1.5B-3B auf einer RTX 3070 Ti) mit ausstehenden Ergebnissen für 7B+
Benötigt mindestens 1 Gbps+ Bandbreite (KV-Cache für ein 3B-Modell beträgt etwa 130 MB pro Stichprobe)
Nur selbst gehostet (erfordert KV-Cache-Zugriff, funktioniert nicht mit OpenAI/Anthropic/etc. APIs)
Derzeit nur gleiches Modell (Cross-Model-Implementierung existiert, aber nicht benchmarked)
Latente Zustände verwenden 17-54x mehr VRAM als Text, weil KV-Cache über Hops hinweg gehalten wird

Erste Schritte

Installieren mit: pip install avp

Zwei API-Ebenen verfügbar:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Oder mit mehr Kontrolle:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analysiere dieses Problem", steps=20)
answer = connector.generate("Löse es.", context=context)

vLLM-Connector ebenfalls verfügbar: pip install "avp[vllm]"