LLMエージェント自動メモリシステム 94%再現精度オープンソース

開発者が、明示的な「これを保存して」というコマンドを必要とせずに、セッションを超えて事実を自動的に抽出、分類、永続化するLLMベースエージェント用の自動メモリシステムをオープンソース化しました。プロジェクト全体—プラグインコード、ベンチマーク設計、テストハーネスを含む—は、主要開発ツールとしてClaude Codeを使用して構築されました。

メモリシステムの仕組み

このシステムは2つのレイヤーで動作します：

レイヤー1（ターンごと）：軽量なLLMが各ターンをリアルタイムで要約し、ステージングファイルに書き込みます
レイヤー2（セッション境界）：アイデンティティ、知識、教訓、好みの4つのスキルファイルに非同期で分類します

検索は、エージェントが説明文のキーワードマッチングに基づいて関連するスキルファイルを読み込むことで機能します。このアプローチでは、ベクトルデータベースやRAGパイプラインではなく、エージェントが「スキル」として読み取る構造化マークダウンファイルを使用しています。

Claude Codeによる開発

Claude Codeはプロジェクトの複数の側面で支援しました：

アーキテクチャ設計：LongMemEvalをベンチマーク候補として評価し、パラダイムの不一致（長文脈検索 vs 漸進的メモリ）を特定し、適応型6質問タイプベンチマークを提案
ベンチマーク作成：事実埋め込み表、更新チェーン（A→B→C）、干渉ペア、棄権質問、2ホップトリガー配置を含む完全な20セッション/48事実テストスイートを設計
テストハーネス：シリアルエグゼキューター、マルチターンポーリング、ライフサイクル管理、ルール評価器、LLM判定パイプラインを含む自動テストフレームワーク全体を構築
ループ内デバッグ：テスト実行中の問題をライブで診断。例えば、アップデートポップアップがエージェント再起動をブロックする問題は、アップデーター状態ファイルを読み取り専用にロックすることで修正

ベンチマーク結果

20セッションベンチマークはLongMemEvalに着想を得て、6つの質問タイプで48の埋め込み事実をテストしました：

深層リコール：セッション1-2の事実を15+セッション後にテスト - 89%
知識更新：3レベル修正チェーン（A→B→C） - 100%
クロスセッション推論：3+セッションからの事実を組み合わせる - 100%
干渉耐性：混同すべきでない類似名 - 100%
時間的推論：「どちらが先か？」順序質問 - 80%
棄権：一度も言及されていない事実への「わかりません」 - 86%

全体：52チェックポイント中49通過（94.2%）。唯一の重大な失敗は、エージェントが曖昧に関連する事実（「プロモーション作業」）から「あなたはソーシャルメディアマーケティングをしたことがある」と推論した場合に発生しましたが、正解は「一度も議論されていない」でした—典型的なLLM過剰推論問題です。

利用可能性と質問

このプロジェクトはオープンソースで、コードとベンチマークはGitHubで利用可能です。開発者は、スキルファイルアプローチ（構造化マークダウン vs ベクトル検索）に関するフィードバック、棄権テストの改善方法（最も難しい次元と特定）、および長文脈だけでなくエージェントのクロスセッションメモリをベンチマークしている他の人々に関する情報を求めています。

📖 Read the full source: r/ClaudeAI