AVPプロトコルは、トークン効率を高めるために、テキストの代わりにKVキャッシュを共有することでLLMエージェントを可能にします。

✍️ OpenClawRadar📅 公開日: February 28, 2026🔗 Source
AVPプロトコルは、トークン効率を高めるために、テキストの代わりにKVキャッシュを共有することでLLMエージェントを可能にします。
Ad

AVPの機能

AVP(エージェントベクトルプロトコル)は、マルチエージェント構成におけるLLMエージェントが、テキストではなくKVキャッシュを直接エージェント間で受け渡すことを可能にするプロトコルです。これにより、各エージェントが会話履歴全体を再処理する際に発生する冗長なトークン化とフォワードパスが排除されます。

仕組み

各エージェントがすべてを再トークン化する従来のテキストベースのアプローチの代わりに、AVPではエージェントAが推論後のキー・バリュー注意状態をシリアライズし、エージェントBがそれを直接注入します。つまり:

  • 両側で同じモデル:オーバーヘッドゼロで直接KVキャッシュ転送
  • 同じファミリー、異なるサイズ(例:Qwen2.5-7Bが1.5Bと通信):学習済みパラメータやキャリブレーションデータ不要の語彙仲介投影
  • 異なるファミリー:JSONにフォールバック
  • トランスポート非依存:A2A、MCP、gRPC、または既に使用しているものと併用可能
  • バイナリワイヤ形式:JSON+Base64(テンサーデータで33%のオーバーヘッドあり)ではない

パフォーマンス結果

Qwen2.5、Llama 3.2、DeepSeek-R1-Distillモデルでのテスト結果:

  • トークン節約率73-78%
  • 2-4倍の高速化
  • これらの結果は3つのモデルファミリーすべてで一貫
  • チェーン長が増すと差が拡大:4エージェントで約2倍、16エージェント(予測)で約6倍

効率性は、テキストプロンプトサイズが各ホップで急増する(4エージェントGSM8Kチェーンで186 → 545 → 1,073 → 1,397トークン)一方、潜在状態は事前コンテキストが事前計算済みKVキャッシュとして到着するため、ホップごとに約164-207トークンで平坦に保たれることに起因します。

制限事項

  • サンプルサイズはモデルごとにn=20(トークン/速度の主張には十分だが、精度の主張には不十分)
  • 小規模モデルのみテスト済み(RTX 3070 Tiで1.5B-3B)、7B+の結果は保留中
  • 最低1Gbps以上の帯域幅が必要(3BモデルのKVキャッシュはサンプルごとに約130MB)
  • セルフホストのみ(KVキャッシュアクセスが必要、OpenAI/AnthropicなどのAPIでは動作しない)
  • 現時点では同じモデルのみ(クロスモデル実装は存在するがベンチマーク未実施)
  • 潜在状態はテキストより17-54倍多くのVRAMを使用(ホップ間でKVキャッシュを保持するため)
Ad

始め方

インストール:pip install avp

2つのAPIレベルが利用可能:

import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")

またはより詳細な制御:

from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("この問題を分析してください", steps=20)
answer = connector.generate("解決してください。", context=context)

vLLMコネクタも利用可能:pip install "avp[vllm]"

プロジェクトリンク

  • SDK: github.com/VectorArc/avp-python (MIT, 377 tests, 7 benchmarks)
  • 仕様: github.com/VectorArc/avp-spec
  • ベンチマーク詳細: BENCHMARKS.md

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

CopilotKit: エージェントUIのためのオープンソースReactビルディングブロック
Tools

CopilotKit: エージェントUIのためのオープンソースReactビルディングブロック

CopilotKit(星30k、MIT)は、エージェントUIレイヤー向けのReactコンポーネントを提供します:チャット、ストリーミング、ツール呼び出し、ヒューマンインザループ、生成UI、そしてLangGraph、ADK、CrewAIなどに対応したAG-UIプロトコルをサポートします。

OpenClawRadar
Qwen3.6-27B クローズドループハーネスを用いたSVG生成
Tools

Qwen3.6-27B クローズドループハーネスを用いたSVG生成

AgnoとPiエージェントを使ったクローズドループハーネスが、Qwen3.6-27BからのSVG出力を反復的に改善します。レンダリング、PNGをQwen Visionにフィードバックし、2回のラウンドで結果を判断します。

OpenClawRadar
ジョブリー:AI主導の紛争解決とコミュニティ投票を備えた契約マーケットプレイス
Tools

ジョブリー:AI主導の紛争解決とコミュニティ投票を備えた契約マーケットプレイス

Joblyは、Next.js 14、TypeScript、Supabaseを使用して構築された契約マーケットプレイスで、提案時に10%のプロバイダー保証金を伴うエスクローシステムと、Claudeを使用したAI評価から始まり、コミュニティのステーク投票へのアピールを可能にする紛争解決パイプラインを備えています。

OpenClawRadar
OpenClawビデオ翻訳スキルがClawHubで利用可能になりました
Tools

OpenClawビデオ翻訳スキルがClawHubで利用可能になりました

OpenClawエージェント向けの新しいVideo Translatorスキルにより、ユーザーは動画をアップロードするかURLを提供することで、翻訳されたプレビューを即座に取得できます。このスキルはClawHubでホストされています。

OpenClawRadar