AVP-Protokoll ermöglicht LLM-Agenten den Austausch von KV-Cache anstelle von Text für Token-Effizienz

✍️ OpenClawRadar📅 Veröffentlicht: 28. Februar 2026🔗 Source
AVP-Protokoll ermöglicht LLM-Agenten den Austausch von KV-Cache anstelle von Text für Token-Effizienz
Ad

Was AVP bewirkt

AVP (Agent Vector Protocol) ist ein Protokoll, das LLM-Agenten in Multi-Agenten-Setups ermöglicht, KV-Cache direkt zwischen Agenten weiterzugeben anstatt Text. Dadurch werden redundante Tokenisierung und Vorwärtsdurchläufe vermieden, die auftreten, wenn jeder Agent den gesamten Konversationsverlauf erneut verarbeitet.

Wie es funktioniert

Anstatt des traditionellen textbasierten Ansatzes, bei dem jeder Agent alles erneut tokenisiert, ermöglicht AVP Agent A, seine Key-Value-Aufmerksamkeitszustände nach dem Denkvorgang zu serialisieren, und Agent B injiziert sie direkt. Das bedeutet:

  • Gleiches Modell auf beiden Seiten: Direkter KV-Cache-Transfer ohne Overhead
  • Gleiche Familie, unterschiedliche Größe (z.B. Qwen2.5-7B spricht mit 1.5B): Vokabularvermittelte Projektion ohne gelernte Parameter oder Kalibrierungsdaten erforderlich
  • Unterschiedliche Familien: Fällt auf JSON zurück
  • Transportunabhängig: Funktioniert neben A2A, MCP, gRPC oder was auch immer Sie bereits verwenden
  • Binäres Übertragungsformat: Nicht JSON+Base64 (was 33% Overhead auf Tensordaten hat)

Leistungsergebnisse

Tests über Qwen2.5-, Llama 3.2- und DeepSeek-R1-Distill-Modelle zeigten:

  • Token-Einsparungen von 73-78%
  • 2-4-fache Geschwindigkeitssteigerungen
  • Diese Ergebnisse blieben über alle drei Modellfamilien hinweg konsistent
  • Die Lücke vergrößert sich mit der Kettenlänge: bei 4 Agenten etwa 2-fach, bei 16 Agenten (projiziert) wäre es etwa 6-fach

Die Effizienz kommt daher, dass Textprompt-Größen bei jedem Hop anschwellen (186 → 545 → 1.073 → 1.397 Token in einer 4-Agenten-GSM8K-Kette), während latente Zustände bei etwa 164-207 Token pro Hop flach bleiben, weil vorheriger Kontext als vorberechneter KV-Cache ankommt.

Ad

Einschränkungen

  • Stichprobengrößen sind n=20 pro Modell (ausreichend für Token-/Geschwindigkeitsaussagen, aber nicht für Genauigkeitsaussagen)
  • Nur an kleinen Modellen getestet (1.5B-3B auf einer RTX 3070 Ti) mit ausstehenden Ergebnissen für 7B+
  • Benötigt mindestens 1 Gbps+ Bandbreite (KV-Cache für ein 3B-Modell beträgt etwa 130 MB pro Stichprobe)
  • Nur selbst gehostet (erfordert KV-Cache-Zugriff, funktioniert nicht mit OpenAI/Anthropic/etc. APIs)
  • Derzeit nur gleiches Modell (Cross-Model-Implementierung existiert, aber nicht benchmarked)
  • Latente Zustände verwenden 17-54x mehr VRAM als Text, weil KV-Cache über Hops hinweg gehalten wird

Erste Schritte

Installieren mit: pip install avp

Zwei API-Ebenen verfügbar:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

Oder mit mehr Kontrolle:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("Analysiere dieses Problem", steps=20)
answer = connector.generate("Löse es.", context=context)

vLLM-Connector ebenfalls verfügbar: pip install "avp[vllm]"

Projektlinks

  • SDK: github.com/VectorArc/avp-python (MIT, 377 Tests, 7 Benchmarks)
  • Spezifikation: github.com/VectorArc/avp-spec
  • Benchmark-Details: BENCHMARKS.md

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code Best Practice Repo erreicht 50k Sterne, vollständig mit KI-Agenten erstellt
Werkzeuge

Claude Code Best Practice Repo erreicht 50k Sterne, vollständig mit KI-Agenten erstellt

Ein GitHub-Repository vollgepackt mit Claude-Best-Practices, das zu 100 % von autonomen Claude-Code-Workflows entwickelt und gepflegt wird, hat 50.000 Sterne überschritten – und ist damit das meistgestirnte Repository Pakistans im Jahr 2026.

OpenClawRadar
Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs
Werkzeuge

Verwendung eines lokalen LLM als Claude-Code-Subagent zur Reduzierung des Kontextverbrauchs

Ein Entwickler teilt eine Methode, um Claude Code zu nutzen, um Aufgaben über die LM Studio API an ein lokales LLM zu delegieren, wobei der Dateiinhalt aus dem Kontext von Claude ferngehalten wird. Der Ansatz verwendet ein Python-Skript von etwa 120 Zeilen mit Tool-Calling, um Dateien lokal zu lesen und Zusammenfassungen zurückzugeben.

OpenClawRadar
TruthGuard: Shell-Skript-Hooks, die Lügen von KI-Codierungsagenten erkennen
Werkzeuge

TruthGuard: Shell-Skript-Hooks, die Lügen von KI-Codierungsagenten erkennen

TruthGuard ist ein Open-Source-Tool, das Shell-Script-Hooks verwendet, um zu überprüfen, was Claude Code und Gemini CLI tatsächlich tun im Vergleich zu dem, was sie behaupten. Es erkennt Phantom-Bearbeitungen, Lügen über Exit-Codes, gefährliche Abkürzungen und blockiert Commits, wenn Tests fehlschlagen.

OpenClawRadar
OpenClaw Nerve WebUI fügt Sprachsteuerung und ein Team-Management-Dashboard hinzu
Werkzeuge

OpenClaw Nerve WebUI fügt Sprachsteuerung und ein Team-Management-Dashboard hinzu

Nerve ist eine WebUI für OpenClaw, die ein All-in-One-Dashboard zur Überwachung und Verwaltung von KI-Agenten bietet, mit Sprachsteuerung per Doppeltipp auf die Umschalttaste für Whisper und Funktionen zum Aufbau von Sub-Agenten-Teams.

OpenClawRadar