エージェントワーキングメモリ:AIコーディングエージェントのためのローカルメモリシステム

AgentWorkingMemoryが解決する課題
Claude CodeのようなAIコーディングエージェントは、セッション間で永続的な記憶を持ちません。開発者は新しいセッションを開始するたびに、アーキテクチャ、データベーススキーマ、過去の決定事項を繰り返し説明することになり、時間とコンテキストウィンドウのスペースを無駄にしています。Claude Codeには--continueによる会話の再開、メモをマークダウンファイルに保存する自動メモリ機能、CLAUDE.mdプロジェクトドキュメントなどのツールがありますが、これらには以下の制限があります:
--continueや--resumeはチャットスレッド全体を復元しますが、コンテキストウィンドウのスペースを消費し、一度に1つのスレッドしか扱えません- 自動メモリは
MEMORY.mdの最初の200行を読み込みますが、検索インテリジェンスが不足しており、どのメモが現在の作業に関連しているかを判断できません CLAUDE.mdのようなプロジェクトドキュメントは安定した情報には有効ですが、急速に進化するプロジェクトではすぐに陳腐化します
AgentWorkingMemoryは、セッション間で知識を蓄積し、現在の作業に関連する文脈を提示し、手動での管理なしに時間とともに改善することで、これらの課題に対処します。
仕組み
AWMはクラウド依存なしに、完全にローカルマシン上で動作します。システムは以下で構成されています:
- ストレージ用のSQLiteデータベース
- 3つのローカルMLモデル(合計約124MB、一度ダウンロードされキャッシュされます)
- Node.jsプロセス
実行するサーバーやDockerコンテナ、バックグラウンドデーモンは必要ありません。Claude Codeを起動すると、MCP(Model Context Protocol)を通じてAWMが自動的に起動します。セッションを閉じると停止します。すべてがローカルに留まり、クラウドやAPIキーは不要で、データがマシンから流出することはありません。セキュリティを強化するため、AWMはメモリアPIへのアクセスを制限するベアラートークン認証をサポートしています。
セットアップと使用方法
インストールには2つのコマンドが必要です:
npm install -g agent-working-memory
awm setup --globalClaude Codeを再起動後、14のメモリツールが自動的に表示されます。最初のセッションはMLモデルのダウンロード(約124MB、その後キャッシュ)により約30秒かかります。その後は:
- エージェントは重要なことを学んだときにメモリを書き込みます
- 新しい作業を開始する際に関連するメモリを呼び出します
- 中断後の回復のために状態をチェックポイントに保存します
このシステムは、20年前のコードベース(約140万行)をモダンスタック(推定約25万行)に再構築する過程で開発されました。具体的には、88のデータベーステーブルを持つ会員管理プラットフォームと、複数のAIエージェントを並行して使用するマルチスプリント開発のために設計されています。
📖 Read the full source: r/ClaudeAI
👀 See Also

LM Studio 0.4.0 ヘッドレスCLIでGoogle Gemma 4 26B-A4Bをローカルで実行する
LM Studio 0.4.0は、ヘッドレスなローカルモデル推論のためにllmsterとlms CLIを導入します。この記事では、GoogleのGemma 4 26B-A4B MoEモデルをMacBook Pro M4 Proにセットアップし、48GBの統合メモリで51トークン/秒を達成する方法を詳しく説明しています。

Windowsシステムトレイアプリ:リアルタイムClaude API使用状況モニタリング
開発者が、Claude APIの使用量をリアルタイムで表示する軽量なWindowsトレイアプリケーションを構築しました。このアプリは、5時間と7日間のウィンドウ、今日のトークン数、枯渇予測を表示し、韓国語、英語、中国語、日本語のUIをサポートし、GitHubでオープンソースとして公開されています。

Clawdbotが6つのAIエージェントをプロダクション安定なワークキューで調整する方法
Clawdbotチームは、AI運営ストアを運営する6つのAIエージェントを調整するワークキューのアーキテクチャを共有しました。彼らは、個々のエージェントロジックよりも調整問題の方が難しいと感じ、システムは本番環境での安定性に達するまでに数回の反復を経ました。

ローカルAIエージェント、オープンソースサーバーでサブ秒のSTT・TTS遅延を実現
ある開発者が、ハイブリッドスレッド管理GPUアーキテクチャを採用したWhisper large-v3-turboで約0.2秒のSTTレイテンシを実現し、低レイテンシ合成に最適化されたCoqui-TTSで約250msのTTSレイテンシを達成しました。両実装は完全にセルフホスト型でオープンソース化されています。