AVPプロトコル：KVキャッシュ共有でLLMエージェントを73-78%効率化

AVPの機能

AVP（エージェントベクトルプロトコル）は、マルチエージェント構成におけるLLMエージェントが、テキストではなくKVキャッシュを直接エージェント間で受け渡すことを可能にするプロトコルです。これにより、各エージェントが会話履歴全体を再処理する際に発生する冗長なトークン化とフォワードパスが排除されます。

仕組み

各エージェントがすべてを再トークン化する従来のテキストベースのアプローチの代わりに、AVPではエージェントAが推論後のキー・バリュー注意状態をシリアライズし、エージェントBがそれを直接注入します。つまり：

両側で同じモデル：オーバーヘッドゼロで直接KVキャッシュ転送
同じファミリー、異なるサイズ（例：Qwen2.5-7Bが1.5Bと通信）：学習済みパラメータやキャリブレーションデータ不要の語彙仲介投影
異なるファミリー：JSONにフォールバック
トランスポート非依存：A2A、MCP、gRPC、または既に使用しているものと併用可能
バイナリワイヤ形式：JSON+Base64（テンサーデータで33%のオーバーヘッドあり）ではない

パフォーマンス結果

Qwen2.5、Llama 3.2、DeepSeek-R1-Distillモデルでのテスト結果：

トークン節約率73-78%
2-4倍の高速化
これらの結果は3つのモデルファミリーすべてで一貫
チェーン長が増すと差が拡大：4エージェントで約2倍、16エージェント（予測）で約6倍

効率性は、テキストプロンプトサイズが各ホップで急増する（4エージェントGSM8Kチェーンで186 → 545 → 1,073 → 1,397トークン）一方、潜在状態は事前コンテキストが事前計算済みKVキャッシュとして到着するため、ホップごとに約164-207トークンで平坦に保たれることに起因します。

制限事項

サンプルサイズはモデルごとにn=20（トークン/速度の主張には十分だが、精度の主張には不十分）
小規模モデルのみテスト済み（RTX 3070 Tiで1.5B-3B）、7B+の結果は保留中
最低1Gbps以上の帯域幅が必要（3BモデルのKVキャッシュはサンプルごとに約130MB）
セルフホストのみ（KVキャッシュアクセスが必要、OpenAI/AnthropicなどのAPIでは動作しない）
現時点では同じモデルのみ（クロスモデル実装は存在するがベンチマーク未実施）
潜在状態はテキストより17-54倍多くのVRAMを使用（ホップ間でKVキャッシュを保持するため）

始め方

インストール：pip install avp

2つのAPIレベルが利用可能：

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

またはより詳細な制御：

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("この問題を分析してください", steps=20)
answer = connector.generate("解決してください。", context=context)

vLLMコネクタも利用可能：pip install "avp[vllm]"