オープンソースのLLMエージェント向け自動メモリシステム、94%の再現精度を達成

開発者が、明示的な「これを保存して」というコマンドを必要とせずに、セッションを超えて事実を自動的に抽出、分類、永続化するLLMベースエージェント用の自動メモリシステムをオープンソース化しました。プロジェクト全体—プラグインコード、ベンチマーク設計、テストハーネスを含む—は、主要開発ツールとしてClaude Codeを使用して構築されました。
メモリシステムの仕組み
このシステムは2つのレイヤーで動作します:
- レイヤー1(ターンごと):軽量なLLMが各ターンをリアルタイムで要約し、ステージングファイルに書き込みます
- レイヤー2(セッション境界):アイデンティティ、知識、教訓、好みの4つのスキルファイルに非同期で分類します
検索は、エージェントが説明文のキーワードマッチングに基づいて関連するスキルファイルを読み込むことで機能します。このアプローチでは、ベクトルデータベースやRAGパイプラインではなく、エージェントが「スキル」として読み取る構造化マークダウンファイルを使用しています。
Claude Codeによる開発
Claude Codeはプロジェクトの複数の側面で支援しました:
- アーキテクチャ設計:LongMemEvalをベンチマーク候補として評価し、パラダイムの不一致(長文脈検索 vs 漸進的メモリ)を特定し、適応型6質問タイプベンチマークを提案
- ベンチマーク作成:事実埋め込み表、更新チェーン(A→B→C)、干渉ペア、棄権質問、2ホップトリガー配置を含む完全な20セッション/48事実テストスイートを設計
- テストハーネス:シリアルエグゼキューター、マルチターンポーリング、ライフサイクル管理、ルール評価器、LLM判定パイプラインを含む自動テストフレームワーク全体を構築
- ループ内デバッグ:テスト実行中の問題をライブで診断。例えば、アップデートポップアップがエージェント再起動をブロックする問題は、アップデーター状態ファイルを読み取り専用にロックすることで修正
ベンチマーク結果
20セッションベンチマークはLongMemEvalに着想を得て、6つの質問タイプで48の埋め込み事実をテストしました:
- 深層リコール:セッション1-2の事実を15+セッション後にテスト - 89%
- 知識更新:3レベル修正チェーン(A→B→C) - 100%
- クロスセッション推論:3+セッションからの事実を組み合わせる - 100%
- 干渉耐性:混同すべきでない類似名 - 100%
- 時間的推論:「どちらが先か?」順序質問 - 80%
- 棄権:一度も言及されていない事実への「わかりません」 - 86%
全体:52チェックポイント中49通過(94.2%)。唯一の重大な失敗は、エージェントが曖昧に関連する事実(「プロモーション作業」)から「あなたはソーシャルメディアマーケティングをしたことがある」と推論した場合に発生しましたが、正解は「一度も議論されていない」でした—典型的なLLM過剰推論問題です。
利用可能性と質問
このプロジェクトはオープンソースで、コードとベンチマークはGitHubで利用可能です。開発者は、スキルファイルアプローチ(構造化マークダウン vs ベクトル検索)に関するフィードバック、棄権テストの改善方法(最も難しい次元と特定)、および長文脈だけでなくエージェントのクロスセッションメモリをベンチマークしている他の人々に関する情報を求めています。
📖 Read the full source: r/ClaudeAI
👀 See Also

Claude-context-lintツールは、Claude Codeプロジェクトにおけるトークンオーバーヘッドを監査します。
claude-context-lintという新しいツールは、Claude Codeプロジェクトをスキャンし、ユーザー入力前にCLAUDE.mdファイル、スキル、MCPサーバー、システムプロンプトによって消費されるコンテキストウィンドウの量を表示します。このツールはトークン使用量を削減するための具体的な推奨事項を提供します。

Claude-Code v2.1.76では、MCPの誘導機能、ワークツリーの最適化、および多数の修正が追加されました。
Claude-Code v2.1.76は、構造化入力のMCPエリシテーションサポートを追加し、monorepo効率化のためのworktree.sparsePathsを導入し、遅延ツールスキーマの消失、スラッシュコマンドの問題、Remote Controlセッションの安定性など20以上の問題を修正しました。

レバーUIクローナー:UI複製のためのHTMLスクラピングに代わるAI最適化ソリューション
Rever UI Clonerは、AIエージェントに生のHTMLの代わりにクリーンなデザイン設計図を提供するAPIエンドポイントで、コンテキストウィンドウの肥大化やUIの幻覚問題を回避します。エージェント間の支払いには、Baseネットワーク上での1 USDCマイクロトランザクションを必要とするx402支払いプロトコルを使用します。

CAL: LLMエージェントのためのオープンソースコンテキスト最適化レイヤー
CAL(Context Assembly Layer)は、インテリジェントなコンテキスト選択と圧縮により、Claude APIのトークン使用量を83%削減するPythonライブラリです。pip installで利用可能で、MITライセンスで提供されています。