AVPプロトコルは、トークン効率を高めるために、テキストの代わりにKVキャッシュを共有することでLLMエージェントを可能にします。

AVPの機能
AVP(エージェントベクトルプロトコル)は、マルチエージェント構成におけるLLMエージェントが、テキストではなくKVキャッシュを直接エージェント間で受け渡すことを可能にするプロトコルです。これにより、各エージェントが会話履歴全体を再処理する際に発生する冗長なトークン化とフォワードパスが排除されます。
仕組み
各エージェントがすべてを再トークン化する従来のテキストベースのアプローチの代わりに、AVPではエージェントAが推論後のキー・バリュー注意状態をシリアライズし、エージェントBがそれを直接注入します。つまり:
- 両側で同じモデル:オーバーヘッドゼロで直接KVキャッシュ転送
- 同じファミリー、異なるサイズ(例:Qwen2.5-7Bが1.5Bと通信):学習済みパラメータやキャリブレーションデータ不要の語彙仲介投影
- 異なるファミリー:JSONにフォールバック
- トランスポート非依存:A2A、MCP、gRPC、または既に使用しているものと併用可能
- バイナリワイヤ形式:JSON+Base64(テンサーデータで33%のオーバーヘッドあり)ではない
パフォーマンス結果
Qwen2.5、Llama 3.2、DeepSeek-R1-Distillモデルでのテスト結果:
- トークン節約率73-78%
- 2-4倍の高速化
- これらの結果は3つのモデルファミリーすべてで一貫
- チェーン長が増すと差が拡大:4エージェントで約2倍、16エージェント(予測)で約6倍
効率性は、テキストプロンプトサイズが各ホップで急増する(4エージェントGSM8Kチェーンで186 → 545 → 1,073 → 1,397トークン)一方、潜在状態は事前コンテキストが事前計算済みKVキャッシュとして到着するため、ホップごとに約164-207トークンで平坦に保たれることに起因します。
制限事項
- サンプルサイズはモデルごとにn=20(トークン/速度の主張には十分だが、精度の主張には不十分)
- 小規模モデルのみテスト済み(RTX 3070 Tiで1.5B-3B)、7B+の結果は保留中
- 最低1Gbps以上の帯域幅が必要(3BモデルのKVキャッシュはサンプルごとに約130MB)
- セルフホストのみ(KVキャッシュアクセスが必要、OpenAI/AnthropicなどのAPIでは動作しない)
- 現時点では同じモデルのみ(クロスモデル実装は存在するがベンチマーク未実施)
- 潜在状態はテキストより17-54倍多くのVRAMを使用(ホップ間でKVキャッシュを保持するため)
始め方
インストール:pip install avp
2つのAPIレベルが利用可能:
import avp
msg = avp.pack("Hello", model="Qwen/Qwen2.5-7B-Instruct", think_steps=20)
answer = avp.unpack(msg, model="Qwen/Qwen2.5-7B-Instruct")またはより詳細な制御:
from avp import HuggingFaceConnector
connector = HuggingFaceConnector.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
context = connector.think("この問題を分析してください", steps=20)
answer = connector.generate("解決してください。", context=context)vLLMコネクタも利用可能:pip install "avp[vllm]"
プロジェクトリンク
- SDK: github.com/VectorArc/avp-python (MIT, 377 tests, 7 benchmarks)
- 仕様: github.com/VectorArc/avp-spec
- ベンチマーク詳細: BENCHMARKS.md
📖 完全なソースを読む: r/LocalLLaMA
👀 See Also

CopilotKit: エージェントUIのためのオープンソースReactビルディングブロック
CopilotKit(星30k、MIT)は、エージェントUIレイヤー向けのReactコンポーネントを提供します:チャット、ストリーミング、ツール呼び出し、ヒューマンインザループ、生成UI、そしてLangGraph、ADK、CrewAIなどに対応したAG-UIプロトコルをサポートします。

Qwen3.6-27B クローズドループハーネスを用いたSVG生成
AgnoとPiエージェントを使ったクローズドループハーネスが、Qwen3.6-27BからのSVG出力を反復的に改善します。レンダリング、PNGをQwen Visionにフィードバックし、2回のラウンドで結果を判断します。

ジョブリー:AI主導の紛争解決とコミュニティ投票を備えた契約マーケットプレイス
Joblyは、Next.js 14、TypeScript、Supabaseを使用して構築された契約マーケットプレイスで、提案時に10%のプロバイダー保証金を伴うエスクローシステムと、Claudeを使用したAI評価から始まり、コミュニティのステーク投票へのアピールを可能にする紛争解決パイプラインを備えています。

OpenClawビデオ翻訳スキルがClawHubで利用可能になりました
OpenClawエージェント向けの新しいVideo Translatorスキルにより、ユーザーは動画をアップロードするかURLを提供することで、翻訳されたプレビューを即座に取得できます。このスキルはClawHubでホストされています。