エージェントメモリV4は、LongMemEvalベンチマークで96.2%を達成し、商用AIメモリシステムを上回りました。

✍️ OpenClawRadar📅 公開日: March 27, 2026🔗 Source
エージェントメモリV4は、LongMemEvalベンチマークで96.2%を達成し、商用AIメモリシステムを上回りました。
Ad

agentmemory V4は、AIエージェント向けのオープンソースメモリシステムで、長期的なAIエージェントメモリの標準ベンチマークであるLongMemEvalにおいて、96.2%という世界記録スコアを達成しました。

ベンチマーク性能

このシステムは、複数の資金調達済みAIメモリ企業を上回る性能を示しました:

  • PwC Chronos: 95.6%
  • Mastra: 94.87%
  • OMEGA: 93.2% (raw)
  • Supermemory: 85.86%
  • Emergence AI: 86%
  • Zep: 71.2%

開発詳細

中程度のゲーミングPC(i3-12100F)を使用し、総費用1,000ドルで16日間で単独で構築されました。システムはClaude Opusをジェネレーター、GPT-4oをジャッジとして使用していますが、検索アーキテクチャが中核的な革新点です。

技術アーキテクチャ

システムは、単一のSQLiteバックエンドシステムで複数の検索技術を組み合わせています:

  • 近似最近傍探索のためのHNSW(Hierarchical Navigable Small World)
  • 従来のテキスト検索のためのBM25
  • 関連性スコアリングのためのクロスエンコーダー
  • 知識グラフ統合
  • 時間認識メモリ検索のための時間的グラウンディング

入手可能性

このシステムはMITライセンスの下でオープンソースとして公開されており、以下で入手可能です:github.com/JordanMcCann/agentmemory

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

GPT-5.5 Codex 対 Claude Opus 4.7:実世界のコーディングエージェントベンチマーク
Tools

GPT-5.5 Codex 対 Claude Opus 4.7:実世界のコーディングエージェントベンチマーク

ある開発者が、GPT-5.5 CodexとClaude Opus 4.7を、PRトリアージボットとリアルタイムコードレビューUIという2つの実タスクで比較した。Claudeはクリーンでエラーゼロを達成。Codexは18%安かったが、修正パスが必要だった。

OpenClawRadar
レイヤーキット:Claude Codeで構築された編集可能なレイヤー搭載AI画像エディター
Tools

レイヤーキット:Claude Codeで構築された編集可能なレイヤー搭載AI画像エディター

ある開発者がLayerkitを構築しました。これはブラウザベースのAI画像エディタで、編集可能なレイヤーを持つシーンを生成し、絶え間ない再プロンプトを避けることができます。このツールは多段階のAIパイプラインを使用しており、1つのLLMが構図を計画し、画像モデルがシーンを生成し、別のLLMが実際の画像を分析して読みやすいテキストを配置します。

OpenClawRadar
TOON MCPサーバーは、OpenClawにおけるツール結果トークンを30〜60%削減します。
Tools

TOON MCPサーバーは、OpenClawにおけるツール結果トークンを30〜60%削減します。

構造化されたJSONツール結果をTOON形式に圧縮するMCPサーバーは、データベースクエリやAPIレスポンスなどの表形式データに対して、トークン使用量を30〜60%削減でき、OpenClawセッションでのコンテキストウィンドウ圧縮を遅らせるのに役立ちます。

OpenClawRadar
MCPスリム:MCPツールのローカル埋め込み検索でコンテキスト肥大化を軽減
Tools

MCPスリム:MCPツールのローカル埋め込み検索でコンテキスト肥大化を軽減

MCP Slimは、完全なMCPツールカタログを3つのメタツール(検索、説明、呼び出し)に置き換えるプロキシで、ローカルのMiniLM埋め込みを利用した意味検索を行います。これにより、コンテキストウィンドウを96%削減し、APIキーなしでオフライン動作を実現します。

OpenClawRadar