오픈소스 LLM 에이전트 자동 메모리: 94% 회상 정확도 달성

개발자가 LLM 기반 에이전트를 위한 자동 메모리 시스템을 오픈소스로 공개했습니다. 이 시스템은 "이것을 저장하라"는 명시적인 명령 없이도 세션 간에 사실을 자동으로 추출, 분류 및 지속적으로 저장합니다. 전체 프로젝트—플러그인 코드, 벤치마크 설계, 테스트 하니스 포함—는 주요 개발 도구로 Claude Code를 사용하여 구축되었습니다.

메모리 시스템 작동 방식

이 시스템은 두 개의 계층으로 작동합니다:

계층 1 (턴당): 경량 LLM이 각 턴을 실시간으로 요약하고 스테이징 파일에 기록합니다
계층 2 (세션 경계): 비동기식으로 네 가지 기술 파일로 분류합니다: 정체성, 지식, 교훈, 선호도

검색은 에이전트가 설명의 키워드 매칭을 기반으로 관련 기술 파일을 로드하는 방식으로 작동합니다. 이 접근 방식은 벡터 데이터베이스나 RAG 파이프라인 대신 에이전트가 "기술"로 읽는 구조화된 마크다운 파일을 사용합니다.

Claude Code를 통한 개발

Claude Code는 프로젝트의 여러 측면을 지원했습니다:

아키텍처 설계: 벤치마크 후보로 LongMemEval을 평가하는 데 도움을 주었으며, 패러다임 불일치(장문맥 검색 vs. 점진적 메모리)를 식별하고 적응된 6가지 질문 유형 벤치마크를 제안했습니다
벤치마크 작성: 사실 심기 테이블, 업데이트 체인(A→B→C), 간섭 쌍, 기권 질문, 2홉 트리거 배치를 포함한 전체 20세션/48사실 테스트 스위트를 설계했습니다
테스트 하니스: 직렬 실행기, 다중 턴 폴링, 생명주기 관리, 규칙 평가기, LLM 판단 파이프라인을 포함한 전체 자동 테스트 프레임워크를 구축했습니다
루프 내 디버깅: 테스트 실행 중 실시간으로 문제를 진단했습니다. 예를 들어, 업데이트 팝업이 에이전트 재시작을 차단하는 문제는 업데이터 상태 파일을 읽기 전용으로 잠금으로써 해결되었습니다

벤치마크 결과

20세션 벤치마크는 LongMemEval에서 영감을 받았으며 6가지 질문 유형에 걸쳐 48개의 심어진 사실을 테스트했습니다:

심층 회상: 1-2세션의 사실을 15+ 세션 후에 테스트 - 89%
지식 업데이트: 3단계 수정 체인(A→B→C) - 100%
세션 간 추론: 3개 이상 세션의 사실 결합 - 100%
간섭 저항: 혼동해서는 안 되는 유사한 이름 - 100%
시간적 추론: "어느 것이 먼저였나요?" 순서 질문 - 80%
기권

전체: 52개 체크포인트 중 49개 통과(94.2%). 유일한 심각한 실패는 에이전트가 모호하게 관련된 사실("홍보 작업")에서 "당신은 소셜 미디어 마케팅을 해봤군요"라고 추론했을 때 발생했으며, 정답은 "논의된 적 없음"이었습니다—이는 전형적인 LLM 과잉 추론 문제입니다.

가용성 및 질문

이 프로젝트는 오픈소스이며 코드와 벤치마크가 GitHub에서 이용 가능합니다. 개발자는 기술 파일 접근 방식(구조화된 마크다운 vs. 벡터 검색), 기권 테스트의 더 나은 방법(가장 어려운 차원으로 식별됨), 그리고 에이전트의 세션 간 메모리를 벤치마킹하는 다른 사람들에 대한 정보(단순히 장문맥이 아닌)에 대한 피드백을 찾고 있습니다.

📖 Read the full source: r/ClaudeAI