agentcache: マルチエージェントLLMプレフィックスキャッシュのためのPythonライブラリ

agentcacheは、接頭辞キャッシュを中核機能として実装することで、マルチエージェントLLMシステムを最適化するために設計されたPythonライブラリです。このライブラリは、CrewAI、AutoGen、open-multi-agentなどのフレームワークが各ワーカーに対して新しいセッションを作成し、キャッシュヒットがゼロでプロンプトコストが重複するという一般的な問題に対処します。
仕組み
このライブラリは、別々のセッションを作成する代わりに、フォークベースのアプローチで動作します:
- 共有システムプロンプトで1つのセッションを開始
- 最初の呼び出しを行う - プロバイダーが接頭辞を計算してキャッシュ
- N個のワーカーが必要な場合、N個の新しいセッションを作成する代わりにフォーク
- 親セッション:[システム、メッセージ1、メッセージ2、...]
- フォークされたセッション:[システム、メッセージ1、メッセージ2、...、ワーカータスク]
- 完全に同じ接頭辞 = キャッシュヒット
主な機能
- キャッシュセーフなフォーク:ワーカーセッション間で同一の接頭辞を維持
- キャッシュブレーク検出:スナップショットを差分比較し、キャッシュヒット率が低下したときに正確に何が変更されたかを報告
- キャッシュセーフな圧縮:長時間実行されるセッションでは、各呼び出し前に古いツール出力をスキャンし、大きな結果を決定論的なプレースホルダーに置き換えて、より小さなコンテキストを維持しながらキャッシュ可能な接頭辞を保存
- パラメータ凍結:フォーク前にキャッシュ関連パラメータを凍結(システムプロンプト、モデル、ツール、メッセージ、推論設定)
- タスクDAGスケジューリング:1つのキャッシュされたセッションから並列ワーカーを可能にする
パフォーマンス結果
GPT-4o-miniでの直接比較テスト(コーディネーター + 3ワーカー、同じタスク):
- テキストインジェクション / 別々のセッション:0%キャッシュヒット、85.7秒
- 接頭辞フォーク:75.8%キャッシュヒット、37.4秒
- ワーカーごとのキャッシュヒット率は通常80-99%の範囲
インストールと使用方法
pipでインストール:
pip install "git+https://github.com/masteragentcoder/agentcache.git@main"
このライブラリはGitHubのgithub.com/masteragentcoder/agentcacheで利用可能です。
📖 Read the full source: r/LocalLLaMA
👀 See Also

EsoLang-Bench:LLMの推論をテストするための難解プログラミング言語を用いたコーディングベンチマーク
研究者たちは、BrainfuckやWhitespaceなどの難解プログラミング言語を使用したコーディングベンチマーク「EsoLang-Bench」を作成し、LLMが真に推論できるか、単にパターンマッチングしているかをテストしました。GPT-5.2、O4-mini、Gemini、Qwen、Kimiの最高結果は11.2%でした。

Hyper iOSアプリ:リアルタイム文字起こしとアクション抽出付き音声レコーダー
Hyperは、会話をリアルタイムで文字起こしし、要約とアクション項目を提供し、ウェイクワード検出による会話中のクエリを可能にするiOS音声レコーダーアプリです。1対1の面談、コーヒーチャット、スタンドアップなど、非構造化された会議向けに設計されています。

MLJAR Studio:生成可复现笔记本的本地AI数据分析工具
MLJAR Studioは、自然言語の質問をローカルで実行されるPythonノートブックに変換するデスクトップアプリです。表形式データ向けのAutoMLを備え、Ollamaを介したローカルLLMをサポートします。

log-context-mcp: MCPツールはClaudeデバッグ時のログトークン使用量を96%削減します
log-context-mcpは、デバッグセッション中に冗長なログファイルでClaude Codeがトークンを消費する問題に対処するために構築されたMCP(Model Context Protocol)ツールです。ログファイルがClaudeのコンテキストに到達する前に前処理を行い、重複行の排除、スタックトレースのグループ化、ノイズの除去を行ってトークン使用量を削減します。2000行のApacheログでのテストでは、96.5%の削減率を示しながら、根本原因を正しく特定しました。